빅데이터 거래전문가 – 세다트리스 인공지능연구소

2020년 11월 5일2021년 4월 3일

데이터 품질 평가

4차산업혁명 시대가 도래하며 데이터에 대한 중요성이 점점 높아지고 있습니다. 그리고 이런 데이터의 중요성과 함께 높아지는 것이 데이터의 품질에 대한 사용자의 요구입니다.

데이터의 품질은 요즘 같이 경쟁이 심화되는 사회에서 정확한 데이터에 의한 신속한 의사결정이 필요하기 때문에 많은 양질의 데이터를 확보하는 것은 불확실한 미래를 예측하는 중요한 자원이됩니다.
그러나 반대로 어떤 의사결정에 활용했던 데이터가 품질이 낮을 경우 혹은 검증되지 않았을 경우에는 이 데이터를 통해서 했던 의사결정 역시 잘못될 확률이 높아질 것이고 이로 인한 리스크 역시 크다고 할 수 있습니다.

https://reciprocitylabs.com/resources/what-is-risk-mitigation/

데이터의 중요성은 수전부터 그 중요성에 대한 논의가 계속되어 왔음에도 불구하고 데이터를 사용하는 수요자의 입장에서는 여전히 다양한 불만이 제기되어 왔습니다.
그 대표적인 것이 데이터의 중복, 데이터의 누락, 데이터의 관계나 구조의 높은 복잡도라고 할 수 있습니다.

그렇다면 왜 이러한 문제들이 발생하게 되는 것일까요?

몇가지 이유가 있겠지만 데이터를 생산하는 주체의 낮은 업무이해, ERD와 같은 관리 문서의 부재, 데이터 입력의 오류, 복잡한 입력 프로세스, 예외가 많은 업무, 예외 처리의 부재와 가장 중요하다고 할 수 있는 체계적이지 않은 데이터 운영 조직 등… 다양한 곳에서 데이터 품질에 대한 이슈를 찾을 수 있겠습니다.

그렇기 때문에 데이터 품질활동을 위해서는 데이터의 생산, 데이터의 교환/축적, 정보생산, 정보활용의 각 부분에 대하여 Life-Cycle을 이해하고 단계별 품질관리 활동을 수행해야 합니다.

그렇다면 이런 활동을 하기 위한 “데이터 품질관리 방법은 어떤것이 있을까?”에 대한 질문을 할 수 있을 것입니다. 먼저는 데이터 품질 관리를 위한 분석작업이 선행되어야 합니다. 그리고 이 분석 방법은 크게 InSide-Out, OutSide-In의 두가지 방법이 있습니다.

Inside-Out 방식은 “데이터 자체를 분석함으로 품질을 관리하는 형태의 접근법”이라고 할 수 있습니다. 즉 데이터 그 자체에 주목하고 분석하는 기법으로 데이터의 컬럼분석, 패턴분석, 코드분석, 중복분석, 상관분석, 참조무결성 분석 등이 그것이라고 할 수 있습니다.

반면 Outside-In 방식은 “외부의 비지니스, 서비스 품질 이슈”로 부터 접근하는 방법으로 데이터 규칙, 업무 규칙, 각종 비지니스룰 기반으로 부터의 접근하는 방법입니다.

이 두가지 방법 중에 더 시간이 걸리고 어려운 것은 Outside-In 방식입니다. 이것은 업무프로세스에 대한 이해가 있어야지만 가능한 분석방법이기 때문입니다.

다음으로는 데이터의 품질관리 프로세스에 대해서 생각해보겠습니다.
품질관리는 정의에 따라 차이가 있겠지만 크게 6가지 단계로 정의할 수 있습니다.

진단정의 단계(Define) : 품질 이슈에 대한 수요 및 현황을 조사하여 진단 대상을 선정하고 방향을 정의하는 단계
품질진단(Measure) : 품질 진단 대상에 대한 상세 수준의 품질 진단 수행 계획 수립 후 영역별 진단 실시
결과분석(Analyze) : 오류원인 분석, 업무 영향도 분석을 통해 개선과제 정의
개선(Improve) : 상세 수준의 품질 개선 계획 및 영역별 품질 개선 수행
통제(Control) : 목표 대비 결과 분석, 평가를 통한 품질관리 수행

이런 데이터의 품질관리를 통해서 사용자는 데이터의 제공에 대한 안정성, 데이터 신뢰성, 데이터 활용의 용어성 등에 대한 보장을 받게 됩니다. 만일 데이터를 생산만하고 그 품질에 대한 보장이 되지 않는다면 데이터를 활용하여 의사결정을 한다는 것은 큰 위험을 감수해야만 할 것입니다.

반면 이러한 품질관리를 지속적으로 수행한다면 사용자는 데이터 품질에 대한 정확성, 일관성, 유용성, 접근성, 적시성, 보안성 등의 조건을 만족하게되고 데이터를 활용한 의사결정이나 인공지능 모델에 대한 신뢰도를 높일 수 있습니다.

2020년 11월 5일2021년 4월 3일

마이데이터란

마이데이터는 데이터3법과 함께 최근 핫이슈로 떠오르고 있는 용어입니다.
데이터3법은 이전 글에서 다뤘기 때문에 이번에는 마이데이터에 대해서 이야기해보겠습니다.

마이데이터는 사용하는 용어 자체가 비교적 이해하기 쉬운 단어들로 되어 있어서 내용에 대한 설명을 듣기 전에도 이미 마음속으로 이러한 뜻이 아닐까 하는 이미지를 그려볼 수 있을 것입니다.

마이데이터는 말 그대로 “마이(My)+데이터(Data)”의 조합으로 만든 신조어라고 할 수 있습니다. 그러니까 쉽게 말해서 “나의 데이터”라는 의미입니다. 그러나 이렇게만 생각해서는 그것이 무엇인지 이해하는 것은 쉽지 않습니다.

금융위원회에서는 마이데이터를 “정보주체인 개인이 본인의 정보를 적극적으로 관리, 통제하고, 이를 신용관리, 자산관리, 나아가 건강관리까지 개인 생활에 능동적으로 활용하는 일련의 과정”이라고 정의하고 있습니다.

간단히 말하면 마이데이터는 “데이터의 주체는 자신”라는 소유권을 명확하게 하고 나의 소유이기 때문에 “나 자신이 데이터를 능동적으로 활용할 수 있도록 함”을 의미한다고 할 수 있습니다.

마이데이터의 개념의 도입으로 개인이 데이터의 소유자이며 활용자라는 것을 명확히 하였습니다. 물론 그 전에도 데이터는 자신의 소유였지만 사실 내 데이터는 각 기업들이 주도적으로 관리하고 사용해왔습니다.

기업들은 사용자의 구매기록, 대출기록, 개인의 신용도정보 등을 가지고 기업의 활동에 활용하기도 하고 다른 기업에 양도하면서 (물론 개인의 동의가 필요한 부분입니다.) 여러가지 마케팅에 사용해왔습니다. 쉽게 말해서 개인의 데이터이지만 그동안은 기업이 영리의 목적으로 사용해 왔다는 것이죠. 개인이 데이터의 권리를 가지고 활용한 사람의 비율은 약 7% 수준 정도로 상당히 낮은 수치입니다.
또 일부 기업이 많은 양의 데이터를 확보하고 그것을 통해서 시장을 지배해왔기 때문에 기업간 정보 불균형이 발생했고 또 새로운 플레이어가 시장에 들어오기 힘든 구조였습니다.

이러한 문제들을 해결하기 위해서 데이터 소유자인 개인이 각 기업에 있는 금융 데이터를 요구하여 자신이 정하는 제3의 업체에 위탁할 수 있게 된것입니다. 이러한 사업이 마이데이터 사업이고 네이버, 카카오페이, 토스 같은 기업들이 참여하게 되었습니다. 고객들은 자신의 모든 금융 데이터를 한곳에 모아서 자산관리를 하게되고 금융위원회의 허가를 득한 마이데이터 사업자들은 이러한 정보를 통해서 고객에게 더 많은 서비스를 제공할 수 있게됩니다.

물론 이전에도 이러한 것이 불가능한 것은 아니었지만 기업들이 경쟁 기업에 자신의 고객데이터를 쉽게 주지 않았지만 이번에 개정된 데이터3법은 이러한 내용을 법적으로 가능하도록 개정한 것입니다.

언뜻 보면 참 편리하고 좋아보이지만 여전이 문제점들이 있습니다.
일단 가장 문제가 될듯한 것이 개인정보에 대한 유출과 이를 악용하는 사례가 되겠습니다. 물론 금융위원회에서 허가한 업체들이 개인의 데이터를 활용하고 강화된 보안정책을 펴겠지만 그 이전에도 여러차례의 대규모 금융정보유출 사태가 있었기 때문에 여전히 큰 문제가 되리라고 예상됩니다.
또 하나는 기업간에 과연 원활한 협조가 되겠는가 하는 것입니다. 기존의 데이터를 소유한 금융권 업체들은 후발주자들에게 데이터를 내어줘야하는 상황이기 때문에 데이터 오픈에 적극적이지 않을 것이라는 문제가 있습니다.

그럼에도 불구하고 마이데이터 사업은 개선의 여지가 있겠지만 앞으로 개인의 금융정보를 활용한 다양한 서비스가 등장할 것이라는데는 이견이 없습니다.

2020년 11월 4일2020년 12월 10일

데이터 거래와 가치평가

데이터의 가치란 무엇이고 그 가격은 어떻게 평가되는가?
데이터의 가격을 책정하는 것은 어떤 프로세스를 통해서 진행되는가?
데이터의 가치를 판단하는 명확한 평가 기준은 무엇인가?

아쉽게도 현재 국내에서는 이러한 데이터의 가치를 평가하는 표준은 정해져있지 않지만 그 중요성에 대해서는 업계에서 인지하고 있고 데이터산업진흥원을 중심으로 데이터의 가치를 평가하는 관련 연구가 진행되고 있는 중입니다.

국외에서는 일찍부터 데이터 거래의 중요성을 인식하고 관련 법령 정비와 거래 플랫폼을 만드는 노력을 해왔고 현재는 그 시장의 규모가 점점 커지고 있다. 대표적인 사례는 인포노믹스(Infonomics), DAWEX, 귀양데이터거래소, 프라운호퍼 같은 곳이 그 대표적인 기관입니다.

국내에서는 데이터의 가치를 평가하고 그에 맞는 가격을 책정하는 노력은 비교적 최근에 이뤄져왔다고 할 수 있습니다. 그렇다고 데이터 이전에 데이터 거래가 없었다는 것은 아닙니다. 전통적인 데이터거래는 데이터 구축을 전문업체에 비용과 함께 의뢰하고 완성된 데이터베이스를 납품 받는 형식으로 이뤄졌습니다. 이러한 모델은 다소 폐쇄적이고 제한적인 거래라고 할 수 있습니다. 그리고 데이터의 가격은 데이터 구축에 필요한 인건비 수준에서 책정되었습니다.

그러나 4차산업혁명의 시대에 들어서 데이터의 중요성과 가치가 높아지고 이를 찾는 기업이나 연구소 등이 많아지면서 데이터거래 시장은 폐쇄형에서 오픈마켓 형태의 데이터 거래소를 변화해 나가고 있습니다. 국내에서도 한국데이터거래소와 데이터스토어를 중심으로 데이터 거래가 이뤄지고 있습니다.

이런 변화하는 시장환경에서 데이터의 가치평가와 가격 평가는 자연스럽게 중요한 문제로 떠오르고 있습니다.

그러나 이러한 데이터의 가치평가는 몇가지 어려움을 가지고 있습니다.

첫째, 데이터는 경험재이기 때문에 사용하기 전에 그 가치를 미리 평가한다는 것이 어렵다는 것입니다. 이는 소비자의 활용능력에 따라 가치의 변동이 심하다는 특징을 포함하고 있어 일방적인 기준으로 가치를 판단을 한다는 것이 쉽지 않기 때문입니다.

둘째, 데이터는 한 사람이 재화나 서비스를 소비하여도 다른 사람이 그 재화나 서비스를 소비할 수 있는 양이 감소하지 않는 비경합재의 성경이 있기 때문입니다. 이는 한번 생산에 많은 비용이 들어가지만 이를 복제하는데는 약간의 노력만으로 가능하며 복제한다고 해서 원본 데이터가 손상되는 것이 아닌 특징이 있기 때문에 무한정 복사가 가능하고 이러한 특징은 소모할 수록 줄어드는 전통적인 재화의 가치평가와는 다른 것입니다.

셋째, 사용자의 의도에 따라 용도가 무한정으로 변화하기 때문에 수요를 예측하기 어렵다는 것입니다. 이는 같은 데이터라도 각각의 사용방법이 다르고 그로 인해서 창출하는 가치가 다르다는 특징이 있고 또 다른 데이터라도 같은 목적으로 사용되는 경우가 있어서 이것을 모두 예측하고 그 가치를 평가한다는 것은 불가능합니다.

이 외에도 데이터는 무료라는 인식과 데이터 컨텐츠의 품질은 공급자만 알 수 있다는 것도 데이터 가치 측정이 어려운 이유 중에 하나입니다.

그러나 이런 상황에도 불구하고 데이터의 가치평가와 그에 맞는 가격책정은 중요한 이슈입니다. 그렇기 때문에 각 기업에서는 데이터를 거래하는 주체들에게 합리적인 가치판단 기준을 제공하고자 노력하고 있습니다.

DAWEX의 경우는 데이터를 평가하는 기준으로 위와 같은 기준들을 정하고 있습니다. 특이한 것은 데이터 자체의 특징이나 가치도 중요하지만 데이터 생산자의 평판이나 신뢰도를 중요하게 생각한다는 것입니다. 이는 데이터 거래의 중요한 특징이라고 할 수 있습니다. 대부분 데이터는 어떤 의사결정에 중요한 지표로 사용되기 때문에 신뢰할 수 있는 곳에서 생산된 정보여야지만 이를 통해서 내릴 수 있는 결정 역시 신뢰할 수 있기 때문입니다.

중국 구이양 빅데이터 거래소
http://www.gbdex.com/website/view/dealPlat-index.jsp

우리나라 역시 데이터의 가치평가를 위해서 몇가지 기준을 산정하고 있습니다. 데이터스토어에서는 “원가기준 가격책정”과 “경쟁사기준 가격정책”으로 나눠서 가격을 산정하고 있습니다.

데이터가격산정정책
https://www.datastore.or.kr/bizone/calculation/info

프라운호퍼는 독일정부출연 연구기관으로 데이터기반 사업자가 사업을 위해 구매하게 되는 데이터소스의 가치비교를 위한 모형을 개발하여 3가지 영역에 18개 평가지표를 제안하고 이를 공유하고 있습니다. 이밖에도 데이터를 평가하기 위한 다양한 방법론은 분석하고 평가하고 있습니다.

데이터의 가치가 곧 가격이라는 공식은 성립되지 않습니다. 그 가치는 활용의 목적에 따라서 각기 다르기 때문입니다. 그러나 가치를 올바로 평가하고 산정하는 일관적인 프로세스는 필요합니다.

첫째, 평가 대상의 선정과정입니다. 이때 타겟 데이터상품을 정의하고 유사상품을 수집하는 과정의 포함됩니다.
둘째, 가치평가지표 도출과정입니다. 이때 개념적 가치평가지표를 개발하고 이를 계량화하는 노력이 필요합니다. 이러한 지표 도출과 계량화는 데이터가 생산된 산업 도메인마다 차이가 존재합니다. 이런 도메인간의 차이를 이해하고 적절히 분석하는 것이 필요합니다. 특히 비정형 데이터의 경우는 데이터의 정량적인 사이즈도 중요하지만 수집된 정보의 출처와 품질이 중요합니다.
셋째, 상품간 가치비교 과정입니다. 이는 지표별 가중치를 산출하여 가치를 평가하고 가능하다면 유사 산업 도메인의 데이터를 함께 평가해보는 것도 중요합니다.

2020년 11월 4일2021년 3월 8일

빅데이터 분석 플랫폼

• 1강 데이터의 이해
◦ 강좌소개
◦ 데이터의 이해
◦ 데이터 마이닝이란

Bigdata Platform Understanding-Data from paul lee

• 2강 빅데이터의 이해
◦ 빅데이터의 이해
◦ 빅데이터의 출현 배경
◦ 빅데이터 활용사례

Bigdata platform about_big_data from paul lee

• 3강 빅데이터 처리기술의 이해
◦ 빅데이터 처리시스템의 이해
◦ 빅데이터 처리시스템의 설계원칙

빅데이터 처리기술의 이해 from paul lee

• 4강 하둡분산 데이터저장기술
◦ 하둡분산시스템 이해
◦ HDFS
◦ MapReduce

분산데이터 저장 기술 from paul lee

• 5강 하둡에코시스템
◦ 하둡에코시스템의 이해
◦ Sql-on-Hadoop
◦ hive
◦ HBase

• 6강 가상화 플랫폼 : Docker
◦ 가상화 플랫폼의 이해
◦ 도커의 역사
◦ 도커의 특징
◦ 도커 설치 실습

• 7강 하둡 설치
◦ 하둡 설치 실습
◦ 주요 명령어
◦ 예제

• 8강 아파치 스파크 이해1
◦ 하둡의 문제점
◦ 인메모리 데이터처리 시스템의 등장
◦ 아파치 스파크의 등장

• 9강 아파치 스파크 이해2
◦ 스파크의 장점
◦ RDD의 개념
◦ 스파크 스크립트

• 10강 데이터 분석 방법론
◦ 빅데이터분석 방법론

• 11강 4차산업혁명과 빅데이터
◦ 4차 산업혁명의 이해
◦ 4차 산업혁명의 특징
◦ 인공지능의 역사

• 12강 빅데이터와 인공지능
◦ 인공지능의 역사
◦ 인공지능, 머신러닝, 딥러닝
◦ 딥러닝의 현재
◦ 딥러닝 알고리즘 소개

2020년 11월 3일2020년 12월 10일

데이터 법률

어떤 문제가 발생했을 경우 그 분쟁을 해결하기 위해서 보통 법원의 판결을 받습니다. 그리고 법원은 이러한 소송이 발생할 경우에 판사의 자의적인 판단이 아닌 법전의 정의에 기초하여 분쟁의 판결을 내립니다. 그렇기 때문에 법전에 정의되어 있지 않은 용어로 인해서 법적인 판단을 구하는 것은 불가하죠.

그렇다면 최근에 많은 이슈와 분쟁의 원인이 되는 데이터와 개인정보에 대해서는 법으로 어떻게 정의하고 있을까요?

데이터란?
정보처리능력을 갖춘 장치를 통하여 생성 또는 처리되어 기계에 의한 판독이 가능한 형태로 존재하는 정형 또는 비정형의 정보를 말함 (데이터기반행정 활성화에 관한 법률)

개인정보란?
살아 있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보와 해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 것 즉, 가명정보도 포함(개인정보보호법)

최근까지 정부는 이러한 개인정보의 유출을 엄격히 법으로 금지하고 있었습니다. 그러나 정부는 4차산업혁명 대응을 위해서 개인정보를 기존의 규제에서 개방으로 그 정책을 변경하면서 데이터 이용을 활성화하는 「개인정보 보호법」, 「정보통신망 이용촉진 및 정보보호 등에 관한 법률(약칭 : 정보통신망법)」, 「신용정보의 이용 및 보호에 관한 법률(약칭 : 신용정보법)」등 3가지 법률을 개정하게 됩니다. 이것을 “데이터 3법”이라고 합니다.

좀 더 자세히 설명하면 이는 미래 신산업 이라고 할 수 있는 인공지능, 클라우드, 사물인터넷 등 신기술의 활용과 발전을 위해 데이터의 이용이 필수적인 상황에서 데이터의 활용을 촉진하는 한편 정보주체의 권리를 강화하고 개인정보보호의 콘트롤 타워로서 개인정보보호위원회의 위상을 제고하는 것이 주요 내용이라고 할 수 있습니다.

“4차 산업혁명 시대를 맞아 핵심 자원인 데이터의 이용 활성화를 통한 신산업 육성이 국가적 과제로 대두되고 있다. 특히, 신산업 육성을 위해서는 인공지능(AI), 인터넷기반 정보통신 자원통합(클라우드), 사물인터넷(IoT) 등 신기술을 활용한 데이터 이용이 필요하다. 한편 안전한 데이터 이용을 위한 사회적 규범 정립도 시급하다. 데이터 이용에 관한 규제 혁신과 개인정보 보호 협치(거너번스) 체계 정비의 두 문제를 해결하기 위해 데이터 3법 개정안이 발의됐다.” (대한민국정책브리핑, 데이터 3법)

데이터3법의 주요 내용을 크게 3가지 특징으로 이야기 할 수 있습니다.

첫째 개인정보는 민감정보, 성명, 주민등록번호, 영상 정보 등을 통하여 개인을 알아볼 수 있는 정보 외에도 “해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보”로 구분했습니다.

둘째, 가명정보를 “개인정보의 일부를 삭제하거나 일부 또는 전부를 대체하는 등의 방법으로 추가정보 없이는 특정 개인을 알아볼 수 없도록 처리(이하 “가명처리”)함으로써 원래의 상태로 복원하기 위한 추가정보의 사용·결합 없이는 특정 개인을 알아볼 수 없는 정보”로 정의하고, 통계작성, 과학적 연구, 공익적 기록보존 등 목적을 위해서는 정보주체의 동의 없이 처리할 수 있도록 했습니다.

셋째, 시간·비용·기술 등을 합리적으로 고려할 때 다른 정보를 활용하여도 더 이상 개인을 알아볼 수 없는 정보(익명정보)에 대해서는 법을 적용하지 않는다는 점을 규정했습니다.

다음의 내용은 “대한민국정책 브리핑”에서 제공하는 내용을 정리한 것입니다. 자세한 내용은 해당 링크를 참조하시기 바랍니다.

① 개인정보 보호법 개정안
개인정보의 개념을 명확히 해서 혼선을 줄이고, 안전하게 데이터를 활용하기 위한 방법과 기준 등을 새롭게 정했다. 데이터를 기반으로 한 새로운 기술·제품·서비스의 개발, 산업 목적을 포함하는 과학연구, 시장조사, 상업 목적의 통계작성, 공익 기록보존 등을 위해서 가명정보를 이용할 수 있도록 했다.
개인정보처리자의 책임성을 강화하기 위해 각종 의무를 부과하고, 법 위반 시 과징금 도입 등 처벌도 강화해서 개인정보를 안전하게 보호할 수 있도록 제도적 장치를 마련했다.
개인정보의 오·남용과 유출 등을 감독할 감독기구는 개인정보보호위원회로, 관련 법률의 유사·중복 규정은 「개인정보 보호법」으로 일원화했다.
개정 목적 및 주요 내용
ㅇ 데이터 기반의 신산업 육성과 양질의 일자리 창출에 기여
ㅇ 일원화된 개인정보 보호체계를 통해 기업과 국민의 혼란 방지와 체계적 정책 추진
ㅇ EU GDPR 적정성 평가의 필수 조건인 감독기구의 독립성 확보

② 정보통신망법 개정안
개정 목적 및 주요 내용
ㅇ 정보통신망법 내 개인정보 관련 다른 법령과의 유사·중복조항 정비와 협치(거버넌스) 개선
ㅇ 개인정보 보호 관련 사항은 「개인정보보호법」으로 이관
ㅇ 온라인상 개인정보 보호 관련 규제와 감독 주체 ‘개인정보보호위원회’로 변경

③ 신용정보법 개정안
개정 목적 및 주요 내용
ㅇ 빅데이터 분석·이용의 법적 근거 명확화와 빅데이터 활용의 안전장치 강화
ㅇ 「개인정보 보호법」과의 유사ㆍ중복 조항을 정비하는 등 데이터 경제의 활성화를 위한 규제 혁신
ㅇ 금융분야 데이터산업으로서 신용정보 관련 산업에 관한 규제체계 선진화
ㅇ 새로운 개인정보 자기결정권의 도입
ㅇ 금융분야 빅데이터 분석 및 이용에 법적 근거 명확화
ㅇ 개인정보보호위원회 기능 강화
ㅇ 신용정보 관련 산업의 규제체계 선진화 등

이러한 법률 개정에 가장 큰 변화중에 하나는 가명정보를 3가지 조건하에서는 동의없이 사용할 수 있도록 했다는 것입니다.

정리해보면 데이터3법은 데이터의 활용, 보호, 거버넌스 관점에서 빅데이터 분석과 이용에 법적 근거가 마련되었다는데 중요한 의의를 가질 수 있습니다.

다만 아직도 정비할 여러가지 여지가 있는 것도 사실입니다. 특히 개인정보보호법에서는 “당초 수집목적과 합리적으로 관련된 범위”에서 데이터를 이용할 수 있다고 정의하고 있고 신용정보법에서는 “당초 수집한 목적과 상충되지 아니하는 목적으로 이용하는 경우”로 규정하고 있는 부분들이 있어 해당 법간의 범위에 차이가 있어 향후 조정의 여지가 필요하다는 것이 전문가들의 주장입니다.

또 개인정보보호위원회가 개인정보보호법을 관장하는 독립적 감독기관이 되었지만 신용정보에 대해서는 금융위원회가 신용정보법 소곤 부서로 역활을 수행하는 부분도 역시 조율이 필요한 부분입니다.

2020년 11월 2일2021년 4월 3일

데이터 경제

데이터는 4차 산업혁명을 견인하는 핵심 동인으로 데이터 경제는 데이터, 데이터 기술, 데이터 제품 및 서비스에 기반한 경제로 정의됩니다. 이는 4차 산업혁명과 맞물려 데이터가 모든 산업의 발전과 새로운 가치 창출의 촉매 역할을 하는 현재 산업의 전반적인 흐름을 보여주는 용어라고 할 수 있겠습니다.

이 데이터 경제의 정의는 2011년 데이비드 뉴먼의 가트너 보고서(How to Plan, Participate and Prosper in the Data Economy)에서 데이터 경제의 개념이 처음 등장했습니다. 이 보고서에서 빅데이터, 오픈데이터, 연결데이터 등 데이터로 파생되는 경제를 아우르는 용어로 표현되었습니다.

데이터 경제는 어려운 용어이지만 쉽게 정의한다면 “데이터 경제란 모든 유형의 데이터를 분석한 정보를 자산으로 새로운 가치(혁신적 비지니스 모델, 수익성장 등)를 창출하며 성장하는 신흥 경제를 지칭” 한다고 할 수 있습니다.

이러한 데이터 경제를 통해서 파생되는 산업이 데이터 산업으로 데이터의 생산, 수집, 처리, 분석, 유통, 활용 등을 통해 가치를 창출하는 상품과 서비스를 생산하고 제공하는 산업입니다.

https://www.bbc.com/news/entertainment-arts-41559076

한때는 데이터를 3차 산업혁명의 동력이었던 원유에 비유하여 “Data is the new Oil”이라는 말이 있었습니다. 그러나 데이터가 4차 산업혁명의 중요한 동력인것은 맞지만 데이터를 물리적인 재화인 원유와는 차별되어야 한다는 개념이 최근 등장하고 있고 그 이론이 많은 동의를 얻고 있습니다.

특히 데이터는 원유나 기타 물리적인 재화들과는 달리 “비경쟁, 비고갈, 재생, 무제한, 쉽게 운반, 저렴한 가격, 복제가 쉬움, 생태계 존재 등” 다양한 특징이 있습니다.

데이터 경제의 가치창출은 다음과 같은 “공급-수요”가 있고 그 안에 데이터를 유통하고 수용자를 찾아 연결해주는 “중개”가 존재합니다. 중개의 역활은 데이터의 유통과 활용 가이드를 통해서 공급자와 수요자의 매개 역활을 수행합니다.

이러한 데이터 산업은 2019년부터 데이터 분석, 연결, 권리 등으로 발전하고 있습니다. 특히 EU는 GDPR(General Data Protection Regulation)을 통해서 개인의 데이터권리를 보호하도록 사업자의 의무와 벌칙을 강화하고 있습니다. 우리나라도 데이터3법을 통해서 데이터의 사용성을 넓히되 개인의 권리를 보호하는 법안들이 통과되어 실행되고 있습니다. 추후에 데이터3법에 대한 내용을 정리해보겠습니다.

이러한 예전에 없던 신산업이 등장하면서 우리나라도 관련 분야의 신규인력 확충을 위해서 기업과 정부차원의 노력이 계속되고 있습니다.
국내 데이터산업에 종사하고 있는 인력은 총 31만 8,062명으로 전년 대비 7.9% 증가했습니다. 향후 5년 내에 일반산업을 포함하여 전 산업에서 필요로 하는 데이터 직무 인력은 총 2만 2,607명이고 데이터 개발자, 데이터 분석가 순으로 많이 필요하다고 조사되고 있습니다.

향후 5년 내 전산업의 데이터직무 빅데이터 관련 필요 인력
https://kosis.kr/statHtml/statHtml.do?orgId=127&tblId=DT_127004N_122

그러나 이러한 필요에도 불구하고 국내 데이터 경제 발전을 저해하는 몇가지 장애 요인이 있습니다.

첫째, 데이터 활용에 대한 낮은 인식
• 짧은 데이터 활용의 역사로 인해 데이터 활용을 통한 가치 창출에 대한 이해 및 인식 부족
둘째, 데이터 전문 인력 부족
• 데이터산업을 제외한 타 산업의 업체들에 데이터 전문 인력이 공급되고 있지 않아 잠재적 활용 가능성을 가진 기업들의 데이터 활용 부진
셋째, 개인정보 활용 제약
• 개인정보보호법, 정보통신망법 등의 법제로 인해 개인정보 활용에 제약
• 지난 몇 년간 일어난 개인정보유출사건으로 인해 개인정보 활용에 대한 국민적 신뢰 부재
넷째, 데이터 상품 저작권 미비
• 데이터를 가공․분석한 결과에 대한 저작권이 법적으로 보호되지 않아 적극적으로 데이터 상품 개발을 추진할 유인 부족
다셋째, 활용 가능한 원시데이터 부족
• 민간부문에서 거래되는 데이터는 가공 또는 활용이 불가능한 통계형 데이터
• 데이터 분석․가공을 위한 민간부문의 원시 데이터의 양이 절대적으로 부족
여섯째, 공공데이터의 낮은 품질
• 공공데이터의 양은 절대적으로 많으나 이를 활용하기에는 데이터의 질이 너무 낮음
일곱째, 데이터 표준 부재
• 데이터 표준이 부재함에 따라 이종 데이터 간결합 비용 증가
여덟째, 데이터 수요자․공급자 파악의 어려움
• 데이터 거래에 참여할 의사가 있음에도 필요로 하는 데이터를 가진 공급자 또는 자신이 보유한 데이터를 구매할 수요자를 파악하기 어려움
아홉째, 데이터 가공․중개 업체 부족
• 데이터 가공․중개업체들은 데이터 상품 최종 수요자로부터 데이터 상품을 의뢰받고 이를 생산하기 위한 데이터 공급자들에게 데이터를 구매하여 최종 데이터 상품을 생산
• 하지만 데이터 공급자 및 구매자의 연결고리 역할을 하는 데이터 가공․중개 업체의 수가 절대적으로 부족
출처 : ICT기반 신산업 발전을 위한 데이터 거래 활성화 방안(정보통신정책연구원,2018)

연구는 이러한 장애요인을 데이터법제도 정비, 거래소 운영 및 거래정보 포털 운영, 데이터 가격 산정 가이드라인, 데이터 전문인력 양성 등으로 극복할 수 있다고 설명하고 있습니다.

종합하면 국내 데이터경제의 활성화를 위해서는 첫째, 데이터 활용 촉진을 위한 데이터 경제 거버넌스 구축. 둘째, 데이터 활용 촉진을 위한 공공 및 민간 분야의 최고 데이터분석책임관 제도 도입. 셋째, 민간 수요 확산을 견인할 데이터 경제 생태계 조성. 넷째, 데이터 거래 활성화를 위한 데이터 가격 산정방안 개발 및 확산 방안 구축. 다섯째, 데이터 주도 혁신을 위한 데이터 우선 문화 확산. 여섯째, 데이터 경제 발전을 위한 안전한 데이터 이용환경 구축이 필요합니다.
출처 : 데이터 경제 기반 정책 연구 최종 보고서(4차산업혁명위원회, 2018)

데이터 가치 사실은 가치창출활동, 제품이 개발되고 생산되어 판매되는 일련의 프로세스로 데이터 산업은 데이터를 수집, 인사이트를 도출, 분석결과 이용, 피드백 등 각 단계에 필요한 행위들을 정의하고 관리할 필요가 있습니다.

The Value Chain and Competitive advantage, Free Press, NewYork

데이터 거래 전문가는 어떠한 역할을 할까요?
그림에서와 같이 수집된 다양한 형태의 데이터 즉, 비정형 텍스트, 이미지, 동영상, 음성 데이터 등과 고객의 다양한 정보들, 센서 및 다양한 IoT 기기에서 발생하는 정보들을 결합 및 가공하여 잠재 고객 세그먼트를 생성하여 재판매하는 역할을 수행합니다.

전 세계적으로 약 4,000개 이상의 데이터 중개회사가 존재하며 그 규모도 2,000억 달러에 달합니다. 그러나 이러한 데이터 중개회사를 통한 고객 정보 유출과 같은 개인정보 및 보안 침해 사례가 발생하기도 하여 데이터의 이용과 활용에 법적인 제도 정비가 필요한 실정입니다.

https://clearcode.cc/blog/what-is-data-broker/

우리나라의 경우는 2019년부터 약 10개 분야의 빅데이터 생산/유통을 위한 빅데이터 플랫폼을 구축하고 운영(20년도 5개 분야 추가예정)하고 있습니다. 1차년도의 플랫폼 구축, 2차년도 분야별플랫폼 연계, 3차년도 데이터기반 유통시장확대 추진을 계획하고 있습니다.

국가데이터맵
https://www.data.go.kr/tcs/opd/ndm/view.do

범정부 데이터 플랫폼은 공공기관이 보유한 공공데이터의 소재와 메타데이터 정보를 통합관리하기 위한 목적으로 추진정인 범정부 사업입니다. 공공기관이 활용하는 모든 메타데이터는 기관 메타관리시스템으로 통합관리되고 범정부적 활용을 위해 메터데이터 정보는 용어, 형식을 표준화하여 데이터사전으로 관리됩니다.
범정부 데이터 플랫폼에 수집된 모든 공공데이터는 국가데이터맵을 통해 데이터의 소재 정보 및 연관관계를 시각화된 형식으로 제공됩니다.
범정부 데이터플랫폼의 주요 목표는 데이터 플랫폼 구축, 메터데이터 수집 체계 구축, 메타데이터 관리체계 구축, 국가데이터맵 구축입니다.