일러스트│최다희 전문기자

빅데이터는 새로운 서울 심야버스 노선도와 개인 특화된 의료보험을 가능하게 만드는 정책 자원이며 기업의 수익을 획기적으로 올려주는 새로운 마케팅 방법이다. 하지만 빅데이터를 이용한 정부 정책과 기업 마케팅은 개인정보의 수집을 전제로 한다. 그렇기에 공익성과 대박 수익 앞에서 개인정보는 한없이 작아진다. ‘데이터를 다루기 때문에’ 활용 가능성이 무궁무진한 빅데이터는, 같은 이유로 활용 시 많은 우려와 직면한다. ‘양날의 검’ 빅데이터의 문제점을 그 연구·분석과 가장 맞닿아 있는 학회 관계자들의 자문을 통해 살펴봤다.

  정부와 개인정보보호
  개방된 공공데이터는 분야에 무관하게 다양한 사업의 발전기반이 된다. 하지만 공공의 이익이란 미명하에 개인정보가 악용될 소지도 있다. 이신두 한국정보디스플레이학회 의원은 “빅데이터 사업을 추진하기 이전 데이터를 모으는 과정에서 사고로 개인정보 대량 유출 등의 피해가 발생하면 그것을 누가 책임질 건지 사회적 공감대를 형성하는 일이 우선이다”라고 말했다.
  학계 관계자들은 개방 정책에 긍정적이면서도 개인정보보호법의 규제 범위를 놓고 학회 관계자들 내에서도 의견이 엇갈린다. 김성범 한국BI데이터마이닝학회 이사는 “국가의 데이터 수집과 정보 개방의 이유는 공공복지증진과 이윤증대 등 이를 통한 긍정적 효과를 기대하기 때문”이라며 “순기능이 매우 많기에 정보 개방을 무조건 제한하기보다 제도적 보완장치를 마련하는 게 옳다”고 말했다. 김장현(대구경북과학기술원 기초학부) 교수는 “정부가 국민 개개인의 요구에 관심을 갖고 선제대응을 하다보면 국민의 동의 없이 사적인 정보를 활용할 가능성이 있다”며 “정책 추진과 함께 개인정보를 열람하거나 활용할 경우 개인에게 즉시 통  보하는 시스템이 실시돼야 한다”고 말했다.
  어디까지를 개인정보로 인정해야 하는지도 학계의 이슈다. 현재 현행법 상 이름, 주민등록번호 등 본인을 나타내는 정형 데이터만 개인정보로 규정될 뿐 사이트 접속 기록, 이미지, 텍스트 등 비정형 데이터는 개인정보가 아니다. 하지만 비정형 데이터를 수집·분석하는 과정에서 개인정보가 드러나는 경우가 종종 있어 비정형데이터를 개인정보로 규정해야 한다는 의견과 단편적인 비정형 데이터까지 개인정보로 규정하는 것은 지나치다는 의견이 엇갈린다. 이에 이신두 의원은 현행법의 한계점을 지적하며 “개인정보보호법이 작년에 발효돼 시행되고 있지만 빅데이터 관점에서의 재검토가 필요하다”고 말했다.

  국내 연구기반 아직 미흡
  현재를 진단하고 미래를 예측하기 위해 빅데이터 분석의 기반을 다져놓는 것은 매우 중요한 일이다. 따라서 학회에서는 정부의 빅데이터 투자지원 필요성에 어느 정도 동의하는 한편 성급한 추진에 우려의 목소리도 제기된다. 현재처럼 모든 이공계 연구 분야에 충분한 지원이 부족한 상황에서 정부가 특정 직업이나 분야에 투자하는 것은 연구의 비대칭을 야기할 수 있기 때문이다. 김성범 이사는 “일부 철새 학자들이나 기업들은 빅데이터를 현 시대의 유행 정도로만 생각해 빅데이터의 본질을 흐릴 수 있다”고 말했다. 또 이신두 의원은 “정보보호 의식과 빅데이터 개념이 제대로 정립되지 않은 상황에서 정부의 성급한 국내 빅데이터 도입과 과도한 연구비 투입은 국가 재정적으로도 바람직하지 못하며 학문간 균형도 깨뜨릴 수 있다”고 우려의 말을 전했다.
  국내에는 빅데이터를 전문적으로 다룰 수 있는 빅데이터 과학자의 수가 부족하다. 빅데이터가 국내에서 주목받은 지 채 5년도 되지 않았다. 따라서 국내 기업들은 외국 기업의 빅데이터 전문가를 데려올 수밖에 없다. 이신두 의원은 “외국 기업 전문가 고용으로 인한 정보유출에 대한 방비는 반드시 필요하다”며 “빅데이터와 관련된 개인정보들은 해외유출에 특히 주의해야한다”고 말했다.
  대기업과 중소기업의 인프라 차이도 문제다. 빅데이터를 보유한 통신, 전자, 금융계 등의 대기업과 그렇지 못한 중소기업의 정보격차는 곧 사업 기회의 불평등으로 이어진다. 완전하진 않지만 정보격차 해소의 방법으로 김장현 교수는 중소기업과 개인에게 ‘적정데이터 분석법’을 추천했다. 김장현 교수는 “빅데이터를 이용하지 못하는 상황이라면 기존의 심층인터뷰, 실험 연구, 인터넷 조사 등을 적절히 이용해 정보격차를 최소화 할 수 있다”고 말했다.

  통계학적인 한계
  공짜에 가까운 비용으로 짧은 시간동안 무한정 데이터를 얻는 빅데이터의 장점은 통계학적 관점에서 두 가지 오류를 가진다. 빅데이터 분석으로 얻어진 값은 오차범위의 과학적 증명이 어렵고 모집단의 대표성이 부족하다는 점이다. 최종후 전 한국통계학회 회장은 “통계학과 달리 빅데이터는 모집단의 정의가 명확하지 않아 자료가 대표성을 띌 수 없다”고 말했다. 예를 들어 SNS를 분석해 얻은 정보는 특정 연령층이 과반수를 차지해 국민 전체의 의견이나 욕구라고 말할 수 없다는 것이다. 또 최종후 회장은 “통계학은 비용의 한계가 있어 주어진 오차 범위 내에서 비용을 최소화하는 연구를 선행한다”며 “반대로 빅데이터는 비용의 제한이 없어 오차범위를 정할 필요가 없다”고 말했다. 다시 말해 빅데이터는 실제로 정보를 활용하기 전까지 얻은 결론 값에 오차가 있는지, 있다면 어느 정도인지 가늠할 수 없다는 것이다.
  하지만 빅데이터는 오차 값이 크지 않을 경우의 파급효과와 대체 기술이 아직 없다는 점에서 기업가와 연구원들이 무시할 수 없는 매력을 가지고 있다.

저작권자 © 고대신문 무단전재 및 재배포 금지