Home » CT OPINION

[CT Opinion] 스타일로메트리

April.2020 No Comment

1930년 11월호 <어린이>에 실린 번안소설 “천공의 용소년”. 이 소설은 한국어로 된 최초의 아동 SF 문학으로 평가된다. 원작이 알려지지 않은 이 소설을 번안한 것은 농민문학 작가 삼봉 허문일이다. 그런데 작가 허문일에 대해서는 작품 외에 알려진 바가 전혀 없다. 때문에 어떤 학자들은 삼봉 허문일이 <어린이>지를 창간한 소파 방정환의 필명 중 하나라고 보기도 한다. 과연 우리나라 최초의 아동 SF 소설은 방정환 선생의 작품일까?
이러한 질문에 대한 답을 줄 수 있는 방법이 있다. 스타일로메트리(Stylometry)는 통계적 방법론을 통해 저자 규명(authorship attribution) 문제를 해결하는 기술이다. 이번 기사에서는 스타일로메트리의 역사와 응용, 전망에 대해 간단히 소개하고자 한다.

스타일로메트리란?

스타일로메트리는 문서들을 통계적으로 분석하여 작가의 ‘스타일’을 정량적으로 측정하고, 이를 바탕으로 서지학적 정보를 알아내는 기법이다. 사람마다 사용하는 단어와 빈도, 문장의 길이, 세미콜론이나 대시와 같은 문장부호를 사용하는 방식은 모두 다르다. 특히 그 자체로는 의미를 가지지 않는 기능어(function word)의 사용은 문체에 대해 많은 것을 알려준다. 스타일로메트리는 이러한 문체적 특징을 피쳐(feature)로 사용하여 문서의 저자를 알아낸다.

1

그림 1 1440년, 이탈리아의 인문학자 로렌초 발라는 기초적인 스타일로메트리 기법을 이용해 ‘콘스탄티누스 기증서’가 위조문서임을 밝혀냈다. (사진 출처: Wikimedia Commons)

스타일로메트리를 사용한 사례는 15세기까지 거슬러 올라간다. 당시 교회에는 <콘스탄티누스 기증서>라는 문서가 있었다. 이 문서는 로마 황제 콘스탄티누스가 교회에게 서로마 제국의 지배권을 증여한다는 내용으로, 수백 년 동안 교황이 세속의 황제에 대해 우위를 가짐을 입증하는 데 쓰이기도 했다. 하지만 1440년, 이탈리아의 인문주의자인 로렌초 발라는 기증서의 단어들을 분석한 결과 4세기 라틴어에는 없던 단어들이 포함되어 있다는 것을 발견했다. 수백 년 동안 교회의 가장 강력한 무기였던 기증서가 8세기 무렵에 위조된 문서였던 것이다. 이 연구는 언어문헌학이라는 학문의 시작을 알린 사건이었다. 이후 문서를 분석하여 서지학적 정보를 얻어내는 기법은 점차 발전했고, 1890년에 폴란드의 빈첸티 루토스와프스키는 자신의 저서에서 이러한 기법을 ‘스타일로메트리’라고 명명했다.
20세기 들어 컴퓨터 기술이 발달하면서 스타일로메트리는 더 많은 문서를, 더 다양한 방법으로 분석할 수 있게 되었다. 현대의 스타일로메트리는 머신러닝이나 인공지능, 자연어 처리 등의 기법을 적극 활용하여 정확도를 높이고 있다.

스타일로메트리의 사례들

1

그림 2 미국 연방주의자 논집은 스타일로메트리 기법을 사용한 가장 대표적인 사례이다. (사진 출처: Amazon)

스타일로메트리를 이용한 가장 유명한 사례는 미국 연방주의자 논집(The Federalist Paper)일 것이다. 이 논집은 알렉산더 해밀턴, 제임스 매디슨, 존 제이가 공저한 것으로 미국 헌법을 지지하기 위한 85개의 논문으로 구성되어 있다. 그런데 누가 어떤 논문을 썼는지 명확히 밝히지 않았기 때문에 15개 가량의 논문은 저자 미상으로 남아있었다. 그러던 1964년, 프레더릭 모스텔러와 리 월러스는 기능어의 사용을 분석함으로써 저자 미상의 논문들이 매디슨의 것임을 밝혀냈다. 이후 지금까지도, 이 논집은 스타일로메트리 기법을 시험하기 위한 테스트 케이스로 사용되고 있다.
2010년에는 영국의 연구팀이 루이스 테오발드의 희곡 “이중 거짓”을 스타일로메트리로 분석하기도 하였다. 테오발드는 “이중 거짓”이 셰익스피어의 소실된 희곡 “카르데니오”를 각색한 것이라고 주장했지만, 확실한 증거가 없어 위작시비에 시달렸다. 연구팀은 “이중 거짓”을 문장의 평균 길이와 단어 사용을 분석한 결과, “이중 거짓”에 셰익스피어의 흔적이 있음을 확인할 수 있었다.
이러한 저자 규명 문제는 문학뿐 아니라 문화계 전반에서도 찾아볼 수 있다. 2018년에는 하버드 대학의 연구팀이 비틀즈의 노래 “인 마이 라이프”를 분석한 결과, 전체적으로는 존 레논이 작곡했지만 미들에잇 부분은 폴 매카트니가 썼다는 정보를 알아내기도 했다.

익명이 사라지는 시대?

스타일로메트리는 법과학 분야에서도 유용하게 쓰인다. 문서를 분석하여 20세기 초부터 문서의 진위 여부와 작성자를 알아내기 위한 방법들이 연구되어 왔고, 우리나라의 국립과학수사연구원에서도 디지털분석과에서 관련 연구를 진행하고 있다.

1

그림 3 스타일로메트리를 통한 익명성 침해를 우려하여, 드렉셀 대학교에서는 이를 역이용한 소프트웨어를 제작해 배포했다. (사진 출처: https://psal.cs.drexel.edu/index.php/JStylo-Anonymouth)

하지만 일각에서는 스타일로메트리 기법이 진화하면서 익명성이 사라질 수 있다고 우려를 표하기도 한다. 대표적으로 드렉셀 대학교의 Privacy, Security and Automation Lab에서는 JStylo-Anonymouth라는 소프트웨어를 개발해 공개하기도 했다. 이 소프트웨어는 스타일로메트리를 통해 저자를 특정할 수 있는 특징들을 찾아내고, 이를 바탕으로 익명성을 보장받기 위한 수정사항을 제안한다.

문화 복잡계에 대한 이해가 늘어날수록, 스타일로메트리는 점점 정교해지고 더 넓은 범위에 적용될 수 있을 것이다. 하지만 청와대 국민청원을 포함해 많은 의사표명기구가 익명성을 원칙으로 삼고 있는 가운데, 스타일로메트리에 수반되는 익명성 침해도 가볍게 여길 문제만은 아니다. 아직 갈 길이 먼 기술이지만, 기술의 발달과 함께 스타일로메트리가 어떤 소셜 임팩트를 가져올 지에 대한 논의도 계속되어야 할 것이다.
남궁민상 (whovian@kaist.ac.kr)