AI, 지난 세기 인쇄매체 분석
시대별 미국인 고정관념 확인女 수식어 ‘연약한’ 男 ‘수완 좋은’
‘테러’ ‘폭력’ 이슬람 연관 단어로
2016년 세계경제포럼(WEF)에서 화두로 던져진 ‘4차 산업혁명’에 대해 전문가들은 ‘컴퓨터, 디지털 혁명을 기반으로 모든 것이 연결되는 지능사회로의 진화’라고 설명하고 있다. 사이버 가상 세계와 물리적 현실이 네트워크로 연결되는 지능사회의 핵심은 인공지능(AI)이다.
성별에 따른 고정관념(stereotype)은 ‘사이언스’에서도 분석한 바 있다.
사이언스 제공
AI 장착 킬러 로봇의 등장은 먼 미래 이야기일 수 있겠지만 현재 인공지능은 연구자들이 대량의 데이터를 빠르게 처리할 수 있는 좋은 수단으로 자리매김하고 있다.
이번 연구에는 스탠퍼드대에서 가장 인기 있는 교양강의 ‘음식의 언어’를 가르치는 계량언어학자 댄 주래프스키 교수도 참여했다. 주래프스키 교수를 포함한 연구팀은 컴퓨터가 대용량 데이터를 분석하고 특정 패턴을 자동으로 찾을 수 있는 심화학습(딥러닝) 알고리즘을 설계했다. 연구팀은 구글 북스, 구글 뉴스 데이터셋, 뉴욕타임스 데이터베이스를 바탕으로 1910년대부터 2005년까지 100년 가까이 발행된 인쇄매체에 등장한 1000억개의 단어를 분석했다. 디지털화되지 않은 20세기 초·중반 인쇄물들을 분석하기 위해 지금까지는 많은 연구자들이 오랜 시간에 걸쳐 마이크로필름을 일일이 읽어보면서 문장과 단어를 찾아 분석해야 했다. 이제는 AI 덕분에 연구자가 원하는 문장이나 단어를 오류 없이 빠른 속도로 찾을 수 있게 됐다.
연구팀은 남성과 여성, 그리고 히스패닉과 아시아인 같은 소수인종을 수식하는 단어들을 찾았다. ‘감정적인’ ‘섬세한’ 등의 단어가 남성보다는 여성을 꾸미는 단어로 많이 등장한다면 이는 해당 시기 미국인의 고정관념이고 인쇄매체에 반복적으로 등장함으로써 편견을 강화시키는 역할을 한다고 봤기 때문이다.
그 결과 20세기 초반에는 여성을 묘사할 때 ‘매력적인’ ‘사랑스러운’ ‘연약한’ 같은 단어들이 주로 쓰였다. ‘수완이 좋은’ ‘똑똑한’ 같은 단어들은 남성들에게만 쓰였지만 시대가 변하면서 중성적인 단어로 변했다는 사실을 확인했다. 또 1910년대에는 주로 감정적인 부분에 초점을 맞춰 여성을 묘사했지만 1990년대를 거쳐 21세기가 가까워 오면서는 외적이고 육체적인 매력을 강조하는 단어로 여성을 표현했다고 연구팀은 설명했다.
아시아인에 대해서는 20세기 초·중반까지만 해도 ‘이방인’에게 갖는 부정적인 고정관념이 강했지만 1950년대 이후 아시아 이민자들이 늘어나기 시작하면서 긍정적인 단어들도 쓰이기 시작했다.
한편 1993년 뉴욕 세계무역센터 차량 폭탄 테러와 2001년 9·11테러를 거치면서 신문과 잡지, 책에서 테러리즘을 연상시키는 폭탄, 테러, 폭력이라는 단어와 이슬람, 모스크 등이 연관 단어로 등장했고 이 때문에 미국인들에게 ‘이슬람=테러’라는 편견을 강화시켰다고 연구팀은 분석했다.
주래프스키 교수는 “이번 연구에서도 알 수 있듯이 인공지능과 계량언어학은 문헌의 전승 과정, 방언을 비롯한 언어의 변화를 빠르게 분석해 줘 사회 변화를 시간적, 공간적으로 쉽게 이해할 수 있도록 해 준다”고 설명했다.
유용하 기자 edmondy@seoul.co.kr
2018-04-11 23면
Copyright ⓒ 서울신문 All rights reserved. 무단 전재-재배포, AI 학습 및 활용 금지