“학습 데이터 공개는 알고리즘 편향성의 확인 수단”

데이터로 학습하는 알고리즘

설명 가능한 인공지능도 한계 존재

데이터 클렌징으로 편향성 제거해야

일상생활 속 우리는 수없이 많은 알고리즘을 만난다. 노래를 추천받을 때도, 온라인 쇼핑할 때도, 유튜브나 넷플릭스를 볼 때도. 그러나 정작 추천 알고리즘의 작용 원리조차 모른 채 비판 없이 콘텐츠를 수용한다. 알고리즘은 무엇이고 믿을 수 있는 것일까. 카카오에서 인공지능 연구를 맡고있는 카카오브레인의 김일두 대표는 “알고리즘 편향성 해결을 위해 데이터 클렌징 과정을 거친다”고 밝혔다.

- 알고리즘의 개발 과정은

“사업별로 데이터의 특성과 목적이 다르므로 알고리즘도 그것에 맞게 달라집니다. 어떤 서비스는 이미지를 가지고 추천을 하고, 어떤 서비스는 구매 이력을 보고 추천해야 하는 것처럼요. 각 서비스가 해결해야 하는 문제를 이해하고 일단 주어진 데이터를 분석하는 것이 알고리즘 개발의 첫 번째 과정입니다. 그다음 데이터와 문제에 적합한 알고리즘 중 일부 데이터는 학습에 사용하고, 일부는 검증에 사용해 알고리즘을 평가합니다. 선별된 일부 알고리즘이 노출됐을 때 실제 효과를 비교하며 알고리즘을 선별하거나 추가적인 개선을 합니다.”

- 인공지능의 작동 원리는 확인 가능한가

“인공지능의 가장 큰 문제는 딥러닝이 어떻게 결론을 도출하는지 알 수 없는 ‘블랙박스’입니다. 블랙박스는 기능은 알지만, 작동 원리를 이해할 수 없는 복잡한 시스템을 의미합니다. 기존의 알고리즘들은 문제를 푸는 방식을 사람이 정의했기에 그 과정을 사람이 해석하고 이해할 수 있었습니다. 하지만 딥러닝은 문제까지만 정의하고 문제를 푸는 방식은 인공지능이 직접 찾도록 설계됐습니다. 딥러닝 탐색 공간은 사람이 하나하나 들여다보기 어려울 정도로 많은 *파라미터로 구성됩니다. 예를 들어 딥러닝을 이용해 인간다운 텍스트를 만들어내는 자기 회귀 언어모델인 GPT-3는 입력이 들어오면 1000억 개가 넘는 파라미터로 계산이 이뤄진 후 결과를 냅니다. 여기서 파라미터가 어떤 역할을 하는지 간접 해석할 수 있지만, 너무 많은 파라미터가 서로 영향을 주고 있어서 기존의 알고리즘처럼 문제 풀이 방식으로는 해석 불가능합니다.

이처럼 문제가 되는 기존 인공지능의 ‘블랙박스’ 내부를 설명하기 위해 ‘XAI’가 2017년부터 개발되고 있습니다. 설명 가능한 인공지능인 XAI는 간접적으로 모델 내부에서 어떤 일이 일어나고 있는지 측정하는 방법론들을 의미합니다. 이미지 인식 과정에서 이미지의 어떤 부분을 보는지, 물체를 인식할 때 중요한 패턴은 무엇인지 등이 구체적인 측정방법론의 예입니다. 그러나 XAI 역시 사람이 해석할 수 있는 수준으로 모델의 내부를 들여다보는 제한적인 방법일 뿐, 모든 것을 설명할 수 있는 인공지능은 아닙니다.”

- 알고리즘 편향성 극복 가능한지

“추천 알고리즘이 사용자의 선택을 제한하거나 유도할 수 있습니다. 어떤 데이터를 통해 학습했는지 공개하는 것은 편향적 알고리즘의 가능성을 확인할 수 있는 좋은 수단입니다. 그렇기에 역설적으로 편향성을 자각하지 못하도록 공개하지 않기도 합니다. 데이터를 통해 학습하는 기계 학습은 데이터의 수가 작으면 잘못된 방법론을 학습할 수 있습니다. 구매자가 적은 상품은 구매자 특성에 관한 데이터가 적어 잘못 추천될 수도 있고요. 사람도 필연적으로 편향성을 갖는 것처럼, 알고리즘의 편향성을 해결하는 것은 매우 어렵습니다. 학습이 이뤄지는 데이터가 편향성을 갖고 있으면 알고리즘 모델은 그 편향성을 학습할 수밖에 없기 때문이죠. 이를 해결하기 위해선 인공지능이 윤리 의식이 있거나 가치판단이 가능한 수준으로 발전해야 한다고 생각합니다.”

- 알고리즘 편향성을 제거하려면

“알고리즘은 데이터를 보고 학습하기 때문에 데이터의 편향성과 윤리 의식을 모델이 학습합니다. 따라서 자료수집과 정제 과정에서 편향성을 줄이고 윤리적으로 문제가 되는 데이터를 제거하기 위해 클렌징 과정을 거쳐야합니다. 완벽할 수는 없지만, 사람이 할 수 있는 선에서는 가이드를 만들어 정제된 데이터를 알고리즘 학습에 사용합니다. 카카오브레인의 경우에는 알고리즘 공개 범위를 설정할 시 회사의 자산이나 경쟁력에 해당하지 않는 모든 연구 결과는 공개하도록 장려하고 있습니다.”

*파라미터(Parameter): 소프트웨어나 시스템상의 작동에 영향을 미치며 외부로부터 투입되는 데이터

글 | 나지은 기자 itsme@

사진제공 | 김일두

기자의 다른기사

상단영역

본문영역

“학습 데이터 공개는 알고리즘 편향성의 확인 수단”

카카오브레인 김일두 대표 인터뷰

관련기사

개의 댓글

댓글 정렬

내 댓글 모음