인공지능은 잊혀진 언어를 해석할 수 있을까?

Ancient Writing

전설과 설화로 유명한 고대 문명과 그들의 잊혀진 언어는 역사학자, 고고학자, 언어학자들을 오랫동안 매료시켜왔고 현재 이 학자들에게는 새로운 도구가 주어졌습니다. 인공지능은 수 천년 전에 사라진 세계의 비밀을 밝히는 것을 도울 수 있는 기술입니다.

상형문자와 로제타 스톤

수메르 설형문자에서 로마 이전의 에트루리아 비문에 이르기까지, 학자들과 비전문가들은 수세기 동안 이 유물들을 자세히 살펴보았습니다. 그들 중에는 가장 잘 알려진 고대 문자 체계 중 하나인 이집트 상형문자를 해독했던 젊은 프랑스인 장 프랑수아 샹폴리옹 (1790년-1832년) 이 있었습니다. 상형문자를 해독하기 위해 그는 로제타 스톤을 이용했습니다. 이 그라노디오라이트 비석에는 세 개의 문자, 즉 데모틱 32줄, 상형문자 14줄, 그리스어 54줄의 조각이 새겨져 있었습니다.

설형문자 및 기타 고대 에니그마

또 다른 흥미로운 예는 우가리트어입니다. 1929년 프랑스 고고학자들에 의해 1920년대 Tell of Ugarit에서 발견된 일련의 점토판에서 발견되었으며, 자음성 쐐기 문자로 작성되었습니다. 이 사라진 북서 셈어족 언어는 히브리 학자들이 성서 히브리 문헌을 분석하면서 사용되었으며, 고대 이스라엘과 유다, 그리고 그들의 이웃 문화들 사이의 유사성을 밝혀냈습니다.

세계의 다른 곳에서는 보이니치 필사본(유럽), 카스카잘 블록(중미), 론고롱고(라파 누이/이스터 섬)와 같이 여전히 해독해야 할 신비로운 텍스트들이 많이 존재합니다.

청동기 시대의 미스터리

아마도 현대에 가장 잘 알려진 예는 청동기 시대로 거슬러 올라가는 크레타 유적에서 처음 발견된 선형문자 B일 것입니다. 비록 영국의 건축가 마이클 벤트리스가 기원전 1400년 경에 그리스 철자법의 가장 초기 형태로 인정받고 발전한 선형문자 B를 해독했다고 인정받지만, 그의 뒤에는 고전주의자인 앨리스 코버가 있었습니다. 그녀는 뉴욕 자택에서 18만 장의 종이쪽지를 담뱃갑에 보관하는 원시 아날로그 ‘데이터베이스’를 작성했지만 비극적이게도, 그녀는 1952년 벤트리스에 의해 이 신비로운 코드가 깨지기 2년 전에 사망했습니다.

그들 사이에, 미노아 문명이 사용하고 인도유럽어족 언어들과 관련이 없을 수 있는 선형문자 A 음절의 일부인 선형문자 B를 이해하는 데 60년 이상의 노력이 필요했습니다. 그러나 기술은 영국의 고고학자 아서 에반스 경(1851-1941)이 크노소스를 발굴한 지 불과 1세기 만에 이러한 고대 언어들의 해독을 더 빠르게 이루어질 수 있게 해줬습니다.

인더스 밸리 미스터리

1870년대에 펀자브의 폐허가 된 마을에서 인양된 벽돌은 물탄과 라호르 마을 사이의 거의 100마일의 철로를 지탱하는 밸러스트로 사용되었습니다. 그러나, 육군 엔지니어이자 고고학자 알렉산더 커닝엄은 6개의 낯선 문자와 뿔이 하나 달린 황소나 코뿔소(혹은 유니콘)가 새겨진 약 1.5인치 정사각형 크기의 작은 석판뿐만 아니라 고대 도자기 파편 몇 개를 발견했습니다.

그 이후, 약 4,000개의 다른 유물들이 발굴되었는데, 대부분은 파키스탄의 인더스 강을 따라 인도와 이라크에서도 발굴되었고 최대 700개의 고유 기호를 포함하고 있으며 세금과 무역 통제 인장으로 사용되었을 가능성이 있고 아마도 오른쪽에서 왼쪽으로 읽었을 것입니다. 그러나, 지난 세기 동안 발표된 백 가지 이상의 시도에도 불구하고, 아무도 이러한 베다 이전의 기호가 무엇을 의미하는지 모르지만, AI의 최첨단 기술에 의해 추진되고 있는 새로운 시도가 있습니다.

딥러닝 한계

인더스 스크립트 연구원 바하타 안수말리 무코파디야이와 같은 전문가들은 아무리 성능이 좋은 컴퓨터라도 컴퓨터에는 한계가 있다는 것을 잘 알고 있습니다. 그녀는 현재의 AI 반복은 컴퓨터가 이해하는 방식으로 정량화할 수 없는 정보에 대처할 수 없기 때문에 많은 인지적 측면이 편리한 프레임워크로 인코딩될 수 없다고 믿습니다.

현재 지배적인 AI 기술인 딥 러닝도 패턴 인식만 가능하며, 시스템에 공급되는 정보의 양과 병행하여 출력이 개선됩니다. 그러나 이러한 거대 용량의 데이터 로드 접근법은 종종 불완전하고, 손상되었으며, 시간에 의해 침식되는 고대 언어와 같은 저자원 주제에는 적합하지 않습니다. 학자들(그리고 컴퓨터들)은 긁힌 자국이 새로운 의미를 가진 상징을 부여하는지, 아니면 단순히 무작위적인 손상인지를 알 방법이 없습니다.

미래에는?

MIT 과학자 지아밍 루오와 같은 머신러닝 전문가들조차 잃어버린 언어의 즉각적인 번역이 급조된 앱에 의해 자동으로 처리되기를 기대하지 않습니다. 그는 머신러닝이 기껏해야 이러한 언어적 파편들을 주변 지역의 현대 언어들과 비교하여 언어적 연결의 파편들을 찾는 것 정도가 가능하다고 생각하며

두 방식을 혼합한 접근 방식이 긍정적인 결과를 낳을 가능성이 가장 높다고 생각합니다. 초기에, 거대한 컴퓨터의 압도적인 힘은 인공물을 검사하고 알려진 언어와의 가능한 관계를 요약하는 데 사용될 수 있으며 초기 맞춤법학자들이 필요로 했던 수십 년의 노력을 절약하여 오늘날의 전문가들이 더 미묘한 측면에 시간을 할애할 수 있게 하고 그들은 이로부터 영감을 얻을 것입니다.

중요점: 알파벳과 기호는 한때 그것들을 사용하던 문명의 독특한 이미지입니다. 수천 년이 지난 지금, 가장 정교한 기계조차도 특히 각 사회를 독특하게 만드는 생각과 개념을 번역하는 데 있어 여전히 인간의 두뇌에 비할 바가 못 된다는 것은 꽤 분명합니다.

이미지 출처: Pixabay의 Peace,love,happiness