데이터 품질 평가

4차산업혁명 시대가 도래하며 데이터에 대한 중요성이 점점 높아지고 있습니다. 그리고 이런 데이터의 중요성과 함께 높아지는 것이 데이터의 품질에 대한 사용자의 요구입니다.

데이터의 품질은 요즘 같이 경쟁이 심화되는 사회에서 정확한 데이터에 의한 신속한 의사결정이 필요하기 때문에 많은 양질의 데이터를 확보하는 것은 불확실한 미래를 예측하는 중요한 자원이됩니다.
그러나 반대로 어떤 의사결정에 활용했던 데이터가 품질이 낮을 경우 혹은 검증되지 않았을 경우에는 이 데이터를 통해서 했던 의사결정 역시 잘못될 확률이 높아질 것이고 이로 인한 리스크 역시 크다고 할 수 있습니다.

https://reciprocitylabs.com/resources/what-is-risk-mitigation/

데이터의 중요성은 수전부터 그 중요성에 대한 논의가 계속되어 왔음에도 불구하고 데이터를 사용하는 수요자의 입장에서는 여전히 다양한 불만이 제기되어 왔습니다.
그 대표적인 것이 데이터의 중복, 데이터의 누락, 데이터의 관계나 구조의 높은 복잡도라고 할 수 있습니다.

그렇다면 왜 이러한 문제들이 발생하게 되는 것일까요?

몇가지 이유가 있겠지만 데이터를 생산하는 주체의 낮은 업무이해, ERD와 같은 관리 문서의 부재, 데이터 입력의 오류, 복잡한 입력 프로세스, 예외가 많은 업무, 예외 처리의 부재와 가장 중요하다고 할 수 있는 체계적이지 않은 데이터 운영 조직 등… 다양한 곳에서 데이터 품질에 대한 이슈를 찾을 수 있겠습니다.

그렇기 때문에 데이터 품질활동을 위해서는 데이터의 생산, 데이터의 교환/축적, 정보생산, 정보활용의 각 부분에 대하여 Life-Cycle을 이해하고 단계별 품질관리 활동을 수행해야 합니다.

그렇다면 이런 활동을 하기 위한 “데이터 품질관리 방법은 어떤것이 있을까?”에 대한 질문을 할 수 있을 것입니다. 먼저는 데이터 품질 관리를 위한 분석작업이 선행되어야 합니다. 그리고 이 분석 방법은 크게 InSide-Out, OutSide-In의 두가지 방법이 있습니다.

Inside-Out 방식은 “데이터 자체를 분석함으로 품질을 관리하는 형태의 접근법”이라고 할 수 있습니다. 즉 데이터 그 자체에 주목하고 분석하는 기법으로 데이터의 컬럼분석, 패턴분석, 코드분석, 중복분석, 상관분석, 참조무결성 분석 등이 그것이라고 할 수 있습니다.

반면 Outside-In 방식은 “외부의 비지니스, 서비스 품질 이슈”로 부터 접근하는 방법으로 데이터 규칙, 업무 규칙, 각종 비지니스룰 기반으로 부터의 접근하는 방법입니다.

이 두가지 방법 중에 더 시간이 걸리고 어려운 것은 Outside-In 방식입니다. 이것은 업무프로세스에 대한 이해가 있어야지만 가능한 분석방법이기 때문입니다.

다음으로는 데이터의 품질관리 프로세스에 대해서 생각해보겠습니다.
품질관리는 정의에 따라 차이가 있겠지만 크게 6가지 단계로 정의할 수 있습니다.

데이터 품질관리 프로세스
  • 진단정의 단계(Define) : 품질 이슈에 대한 수요 및 현황을 조사하여 진단 대상을 선정하고 방향을 정의하는 단계
  • 품질진단(Measure) : 품질 진단 대상에 대한 상세 수준의 품질 진단 수행 계획 수립 후 영역별 진단 실시
  • 결과분석(Analyze) : 오류원인 분석, 업무 영향도 분석을 통해 개선과제 정의
  • 개선(Improve) : 상세 수준의 품질 개선 계획 및 영역별 품질 개선 수행
  • 통제(Control) : 목표 대비 결과 분석, 평가를 통한 품질관리 수행

이런 데이터의 품질관리를 통해서 사용자는 데이터의 제공에 대한 안정성, 데이터 신뢰성, 데이터 활용의 용어성 등에 대한 보장을 받게 됩니다. 만일 데이터를 생산만하고 그 품질에 대한 보장이 되지 않는다면 데이터를 활용하여 의사결정을 한다는 것은 큰 위험을 감수해야만 할 것입니다.

반면 이러한 품질관리를 지속적으로 수행한다면 사용자는 데이터 품질에 대한 정확성, 일관성, 유용성, 접근성, 적시성, 보안성 등의 조건을 만족하게되고 데이터를 활용한 의사결정이나 인공지능 모델에 대한 신뢰도를 높일 수 있습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 항목은 *(으)로 표시합니다