예산 204억 원이 들어가는 프로젝트로, 향후 4차 산업혁명 시대의 인공지능 서비스 개발 및 기술 혁신을 위한 중요 자료가 될 전망이다.
소강춘 국립국어원장은 6일 서울 광화문 한 식당에서 진행한 취임 100일 기자간담회에서 내년도 추진하는 대표 사업 중 하나로 '말뭉치 구축'을 꼽았다.
말뭉치란, 언어 연구를 위해 텍스트를 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료이다.
한국에서는 지난 1998년부터 2007년까지 '21세기 세종 계획'이라는 이름으로 말뭉치 구축 사업이 진행된 바 있다.
당시 사업을 통해 약 2억 어절을 구축했으나, 이후 예산이 반영되지 않으면서 중단됐다.
그 기간 구축된 말뭉치는 '전자사전 개발', '한민족 언어 정보화' 등 다양한 사업에 활용됐지만, 그 효용성을 크게 인정받지 못했다.
그러다 4차 산업혁명 시대를 앞두고 인공지능 개발이 각광을 받으면서, 그 기반이 되는 말뭉치 사업에 예산이 내년도부터 반영됐다. 총 204억이 이 사업에 책정됐으며, 이는 국립국어원 기존 예산과는 별도이다.
선진국의 경우 인공지능 기술 개발 등에 대응할 수 있는 '말뭉치 구축 사업'을 위해 국가 차원에서 공을 들이고 있다.
소 원장은 "일본이 150억 어절, 중국이 300억~800억 어절, 미국이 3000억 어절 규모의 말뭉치를 구축한 상황이다"며, "우리는 한 발 늦은 게 현실이다"고 전했다.
때문에 국립국어원은 내년 말까지 8억 어절을 신규 구축하는 데 속도를 낸다는 계획이다.
소 원장은 "기존의 2억 어절을 포함해 총 10억 어절 규모가 된다면, 인공지능이 스스로 학습하기 위한 최소한의 자료가 될 수 있을 것이다"고 예상했다.
그는 "과거보다 말뭉치 구축을 위해 필요한 기술이 많이 발전했다"며, "특히 알파고 등장 이후 심층 기계 학습(딥러닝)이라는 학습 기법이 여러 분야에서 매우 효율적으로 활용되고 있는데, 이 기술을 적극적으로 활용하면 단기간에 많은 양을 구축하는 것이 가능할 것이다"고 보았다.
국립국어원 측은 이후로도 예산만 확보된다면, 향후 10년간 총 150억 어절의 말뭉치를 구축할 장기 계획을 갖고 있다.
특히 4차 산업혁명 시대는 다양한 기술 개발을 시도할 수 있는 공개된 기초 자료가 필수적이다.
소 원장은 "세종 말뭉치의 경우 구축해 놓고도 저작권 문제로 중소 규모 민간회사가 활용하는 데 제약이 있었던 게 현실이었다"고 전했다.
그러면서 "이번 사업에서는 저작권 문제를 선결한 뒤, 지속적인 구축, 공유, 활용을 위한 말뭉치 통합관리 및 운영 체계를 구축해나갈 것이다"고 밝혔다. 국립국어원에서 구축한 말뭉치는 공공재이기 때문에 누구나 활용이 가능하다.
이밖에 국립국어원은 ▲국어사전(우리말샘, 표준) 보완 ▲ 어려운 공공언어 이해하기 쉽게 개선 ▲남북의 이해 증진을 위한 언어 통합 사업 ▲특수언어(수어, 점자) 사용 환경 개선 및 기반 확대 등을 추진하겠다고 밝혔다.
'우리말샘사전'의 경우 모든 언어 자원을 통합하고, 민간이 저작권 문제에 얽매이지 않고 자기 목적에 맞게 사전 정보를 활용할 수 있도록 할 계획이다.
또한 차별 없는 소통 환경에 대한 시대적 요구에 부응하고자, 대규모 수어 말뭉치(전국 농인 100명 이상) 구축과 이를 통한 실증적 사전 편찬, 그리고 사용 목적별 '한국수어-한국어 사전', '한국어-한국수어 사전' 이원화 구축을 추진한다고 했다.