[명강강독]빅데이터 연구의 기반 형태소 분석

우리가 사는 현대 사회는 복잡하고, 접하는 정보의 양은 엄청나다. 도로와 교통망은 점점 복잡해지고, 인터넷과 트위터에는 새로운 글이 초 단위로 올라온다. 전 세계 인터넷 웹페이지의 규모는 2000년대에 들어서기 전에 이미 10억 개를 돌파했다고 한다. 2012년에 이르러서는 블로그, SNS 등까지 더하여 우리가 접할 수 있는 정보는 이미 통제의 한계를 넘어섰다고 볼 수 있다.

그러나 엄밀히 말하면 데이터와 정보는 구별할 필요가 있다. 데이터는 단순한 자료를 지칭하는 것임에 비해 정보는 특정한 효용을 가진 데이터를 말한다. 따라서 우리가 접하는 것은 대부분 수많은 데이터들일 뿐 그것이 나에게 정보가 되는 것은 아니다. 이때 데이터를 쓸모 있게 만드는 기술, 데이터를 정보화하는 기술이 필요하다. 특히나 대규모의 데이터를 대상으로 필요로 하는, 적절한 정보를 획득하는 것은 정보화 시대를 사는 우리에게는 필수적인 일이다.

대규모의 데이터(소위 ‘빅데이터(Big data)로부터 정보를 추출하는 것은 이미 일부 실용화되기 시작했다. Google과 미국의 몇몇 연구자들은 1800년대부터 2000년까지 발간된 약 5200만 권의 책(이는 지금까지 전 세계적으로 출간된 책의 약 4%를 점유한다고 한다)을 전자화하여 데이터베이스로 구축하고, 이를 기반으로 언어, 사회, 문화의 거시적인 변화 양상을 구명하려 시도한 바 있으며, 국내에서도 다음소프트 등의 IT 관련 기업에서 SNS 등에 올라온 수억 건의 데이터를 분석하여 현대 한국 사회의 관심 트렌드를 분석하여 발표하기도 하였다. 이러한 성과들은 기업의 마케팅 전략에 직접 활용되기도 하고, 정부 기관의 정책 수립에도 지대한 영향을 미치기도 하였다.

이러한 빅데이터 기반의 연구를 위해서 가장 기초적으로 수행해야 하는 것은 바로 언어 분석이다. 수집된 대규모의 텍스트 자료들을 처리하기 위해서는 컴퓨터 분석 도구를 이용하여 자동으로 형태소를 분석하고, 어휘의 사용 통계를 추출하는 기초적인 과정은 물론이고, 무질서하고 복잡해 보이기만 하는 빅데이터들에 내재한 숨겨진 질서, 패턴, 키워드 등을 포착하는 고차원적인 기술도 포함되어야 한다.

한국어 처리에서 가장 기초가 되는 과정은 형태소 분석이다. 한국어는 곡용과 활용에 의해 어절의 형태 변화가 다양하므로 한국어 처리에서 형태소 분석 과정은 무시할 수 없는 부분이다. 더구나 동일한 형태가 문맥에 따라 중의적으로 분석될 수 있기 때문에 성공률 높은 자동 형태소 분석기는 대규모의 텍스트를 처리하는 데 필수적이다. ‘이를’이란 어절은 문맥이 주어지지 않는다면 무려 6가지의 형태적 중의성을 가진다(‘이_일반명사+를_조사’, ‘이_수사+를_조사’, ‘이_대명사+를_조사’, ‘이_의존명사+를_조사’, ‘이르_동사+ㄹ_어미’, ‘이르_형용사+ㄹ_어미’). 형태소가 분석된 대규모의 텍스트(코퍼스)를 기반으로 한국어의 어휘 사용 빈도를 확인하는 것은 그 다음의 일이다.

분석된 대규모의 텍스트 자원을 보유하게 되면 언어의 사용 빈도를 기반으로 다양한 정보를 추출해 낼 수 있다. 특히 해당 텍스트가 신문과 같이 정기적으로 산출되고 사회, 문화적 이슈를 다루고 있다면 이를 토대로 한 다양한 후속 연구가 가능하다. 시대별 키워드를 추출하거나 어휘의 사용 양상을 추적해 보거나 특정한 단어와 같은 문맥에서 함께 출현하는 단어들(공기어)을 연구하는 것도 가능하다.

고려대학교 민족문화연구원에서는 2000년부터 2011년까지의 주요 일간지 기사를 모두 모아서 [물결 21] 코퍼스라는 대규모의 언어 자원을 구축한 바 있다. 이를 기반으로 사회적인 이슈를 확인해 보는 것도 흥미롭다. 예컨대 16대 대선에서 ‘희망’과 높은 공기 관계를 보인 ‘노무현’ 후보는 당선된 반면, 17대 대선에서 ‘행복’과 높은 공기 관계를 보인 ‘정동영’ 후보는 낙선했다. 물론 이들 사이에 논리적인 연관성은 없다. 하지만 18대 대선에서 어느 후보가 어떤 단어와 높은 공기 관계를 보일 것인지, 궁극적으로 어느 후보가 승리할 것인지 전망해 보는 것이 그리 무의미한 일만은 아닐 것이다.

김일환 민족문화연구원 연구교수

기자의 다른기사

상단영역

본문영역

[명강강독]빅데이터 연구의 기반 형태소 분석

김일환 교수의 인터넷시대의 한국어

개의 댓글

댓글 정렬

내 댓글 모음