과기정통부는 21일, 인공지능(AI) 개발에 필수적인 양질의 데이터를 대규모로 구축·개방하는 'AI 학습용 데이터 구축 사업'의 20개 과제를 확정했다고 발표했다.
올해 과제 수는 작년보다 2배 늘어났고, 예산도 2배 늘어난 390억원 규모(작년 195억원)다. 선정된 과제는 KDX의 '대용량 동영상 콘텐츠 AI데이터(동영상 내 객체 탐지, 상황 이해, 행동 분석을 위한 데이터)', 국립암센터의 '질병진단 이미지 AI데이터(유방암 및 부비동 질환의 진단을 위한 의료 영상 이미지 데이터)' 등이다.
과기부는 공모에 참여한 92개 사업자 중 자연어 처리 분야, 자율주행기술 분야, 음성·시각·언어 융합 분야와 헬스케어 분야, 딥페이크 방지 기술 분야 등 산업적 활용 가치가 높고 사회 문제를 해결할 수 있는 분야에서 과제를 선정했다고 설명했다.
AI 학습용 데이터 구축 사업은 앞서 문재인 대통령이 제시한 '한국판 뉴딜' 중 디지털 뉴딜의 핵심 사업으로 꼽힌다.
AI 학습용 데이터를 수집하고 가공하는 데 많은 인력이 필요한 만큼, 정부는 모든 과제에 전면적으로 '크라우드 소싱(언제 어디서든 누구나 데이터 수집 및 가공에 참여)' 방식을 적용해 일자리를 만든다는 구상이다.
과기부는 "크라우드 소싱 방식을 도입하면 특히 청년과 취업준비생, 경력단절여성, 장애인 등에게 많은 일자리가 제공되고, 데이터 가공 전문성을 쌓을 기회도 될 것"이라고 기대했다.
과기부는 올해 3차 추경을 통해 AI 학습용 데이터 구축 사업을 대규모로 확대할 예정이다.
먼저 올해 중 총 150개 종류의 AI 학습용 데이터를 구축하고 AI 통합 지원 플랫폼인 AI 허브를 통해 무료 개방한다. 정부는 2022년까지 700종의 학습용 데이터를 구축한다는 목표를 세우고, 이번 추경에 150종 구축을 위한 2천925억원을 반영했다.
정부는 현재 기계학습용 데이터 21종, 4천650만건을 구축해 공개 중이다.
과기부는 "이번 추경에서 AI 학습용 데이터 구축을 대규모로 확대해 데이터 댐에 모으고, 다양한 AI 기술연구, 상용화 서비스 개발에 활용할 수 있도록 지원하겠다"며 "이를 통해 양질의 일자리 창출과 경제성장의 새로운 원동력을 확보할 수 있을 것으로 기대한다"고 밝혔다.