Home » Uncategorized

[CT Opinion] 멀리서 읽기: 문학의 숲을 거니는 새로운 방법

June.2020 No Comment

인생은 짧고, 예술은 길다. 멋진 문장이지만 예술을 연구하는 사람에게는 너무나 골치 아픈 말이다. 빅토리아 시대 문학을 연구하는 사람들에게는 200권에 달하는 정전(canon) 목록이 있다. 그런데 이는 실제 빅토리아 시대에 출간된 책의 1%에 불과하다. 그렇다면 나머지 읽지 못한 다수의 작품들(the great unread)을 어떻게 연구해야 할까?
어떤 연구자들은 나무 대신 숲을 보려는 관점이 필요하다고 말한다. 하나하나의 작품을 유심히 들여다보는 대신, 여러 편의 소설들을 한발 떨어져서 총체적으로 바라보자는 것이다. 그는 이렇게 계량적인 방법을 이용한 문학 연구를 ‘멀리서 읽기(distant reading)’라고 칭한다. 과연 멀리서 읽는 소설은 우리에게 어떤 것을 가르쳐 줄 수 있을까?

1

그림 1 일본, 덴마크, 프랑스, 이탈리아의 소설 출간량 변화. (자료 출처: Graphs, Maps, Trees)

프랑코 모레티는 <그래프, 지도, 나무>에서 멀리서 읽기를 적용한 연구들을 소개하고 있다. 그는 먼저 소설 출간의 흥망성쇠를 살펴본다. 시기에 따른 소설 출판량을 살펴보면, 여러 차례 증감을 거치는 걸 확인할 수 있다. 소설 출간의 쇠락에는 공통된 원인이 하나 있다. 바로 정치다. 일본의 그래프를 살펴보면 검열이 심했던 간세이 시기와 덴포 시기의 출간량이 급감하는 것을 볼 수 있다. 이는 다른 나라도 마찬가지다. 프랑스는 1789년 이후 출간량이 80% 가량 하락하고, 이탈리아 역시 리소르지멘토 전쟁으로 출간량이 급감했다. 1842년에 43권의 책이 출간된 데 반해, 1849년에는 90%가 하락해 3권의 소설만이 출간되었다.

1

그림 2 식민지 시기 인도의 영국 서적 수입량 변화. (자료 출처: Graphs, Maps, Trees)

이렇게 정치적 급변기의 시기에는 소설의 출간이 급감하는 현상을 볼 수 있다. 그런데 이런 패턴에 예외가 하나 있다. 세포이 항쟁 시기의 인도다. 그래프를 살펴보면, 세포이 항쟁(1857~1858)을 기점으로 영국으로부터의 도서 수입량이 급증하는 것을 볼 수 있다. 식민지라는 사회적 배경이 추세의 반전을 야기한 것이다. 이 그래프에서, 정상부(peak)는 인도에 대한 영국의 헤게모니가 가속화된다는 신호이다.

초기 추리소설의 계통도

또 다른 연구에서는 생물학자가 진화의 계통도를 그리듯, 추리소설의 계통도를 그려본다. 아래 그림은 ‘단서(clue)’를 중심으로 소설들을 분류한 결과이다.

1

그림 3 단서의 유무와 특징에 따른 추리소설 분류 (자료 출처: Graphs, Maps, Trees)

독자들은 스스로 인지하지는 못하더라도, 어떤 플롯 장치(plot device)를 선호한다. 이 계보도의 가장 첫 번째 분기점을 보면, 단서가 존재하는 소설은 성공적으로 살아남지만 그렇지 않은 소설은 잊혀진다. 그리고 단서가 등장한 이후, 단서가 어떤 특징을 가지느냐에 따라 또 다른 생존 경쟁이 벌어진다.
이 계통도는 생물학적인 진화와 많은 유사성을 보인다. 생물학적 진화에서 유전자는 다양한 원인으로 변화하고, 이것이 자연선택의 압력을 만나 분기가 일어난다. 마찬가지로, 소설을 쓰는 작가들은 소설을 이루는 문장이나 표현, 암시를 통해 소설의 형태를 바꾼다. 이런 변화는 독자의 선택을 만나 살아남거나 소멸된다. 문화적인 진화가 일어나는 것이다. 이렇게 거시적인 흐름 속에서, 각 작가들은 자신이 도입한 미시적 변화가 성공적일지 아닐지 미리 알 수 없다.

멀리서 읽기를 이용한 연구들

자연어 처리(Natural Language Processing)의 발달과 함께, NLP를 접목한 멀리서 읽기 연구도 등장하고 있다. 예를 들어 사라 J. 커는 When Computer Science Met Austen and Edgeworth (2017)에서 단어 엠베딩(word embedding)을 이용해 두 명의 여성 작가, 제인 오스틴과 마리아 엣지워스의 작품을 분석한다.

1

그림 4. 제인 오스틴과 마리아 엣지워스의 소설을 바탕으로 한 단어 벡터 모델 (자료 출처: Kerr, 2017)

연구진은 두 작가의 작품들을 바탕으로 단어 벡터 모델(word vector model)을 만들고 ‘independence’라는 단어가 어떻게 사용됐는지를 조사한다. 위의 그림은 independent와 거리상으로 가까운 500개의 단어를 나타낸다. ‘profession’, ‘war’, ‘soldier’, ‘sailor’와 같은 단어들은 independence를 쟁취하는 방법을 보여주고, ‘choice’와 같은 단어는 independence를 통해 얻는 이점을 말한다. 그런데 ‘sacrifice’, ‘spoiled’, ‘contemptible’과 같은 단어를 보면, 독립에 대한 오스틴의 시각이 긍정적이기만 하지는 않음을 알 수 있다. 엣지워스에게서도 비슷한 경향을 찾을 수 있다. ‘Advancement’라는 단어는 독립을 그저 주어지는 것이 아닌, 쟁취해야 하는 것임을 보여준다. 스스로 독립을 얻지 못하는 캐릭터는 다른 사람들의 욕망을 따라야 한다.
이 외에도 토픽 모델링(Topic Modeling), 텍스트랭크(TextRank), 감성 분석(Sentiment Analysis) 등 다양한 NLP 기법을 이용해 소설을 분석한 연구들이 등장하고 있다.

이렇듯 멀리서 읽기는 기존의 문학 비평과 다른 시선으로 문학과 사회를 조명한다. 우리나라에서도 멀리서 읽기를 통해 소설을 분석하는 연구가 등장하고 있지만, 한국어 NLP가 제한적인 탓에 다양한 연구가 이뤄지고 있지는 못하다. 앞서 우리는 서적 수입량을 통해 식민지 국가의 특수성을 발견했다. 일제강점기 시대의 한국문학에도 같은 방법을 적용해 볼 수 있지 않을까? 멀리서 읽기가 한국문학에 대해서도 더 많은 이야기를 해주기를 기대해 본다.

남궁민상 (whovian@kaist.ac.kr)