[기고]AI가 학습할 수 있는 데이터를 만드는 사람들

연합뉴스
유명한 시간 관리 강연이 있다. 강사가 빈 어항에 큰 돌을 먼저 넣고, 조약돌을 채우고, 모래를 붓고, 물을 부었다. 학생이 물었다. "시간을 잘게 쪼개면 더 많은 일을 할 수 있다는 뜻이죠?" 강사가 답했다. "아닙니다. 모래를 먼저 넣었으면 큰 돌이 들어갈 자리가 없었을 겁니다."

대한민국의 AI 정책이 지금 모래를 먼저 붓고 있다. 알고리즘도 질서다. 그러나 그 알고리즘이 작동할 데이터의 질서가 먼저다.

2026년 2월 국가AI전략위원회가 발표한 「인공지능행동계획」은 3대 정책축, 99개 실행과제를 담았다. 반도체, 클라우드, 파운데이션 모델에 수조 원이 투입되고 있다. 그런데 그 알고리즘이 학습할 데이터는 준비되어 있는가.

감사원이 답을 내놓았다. 정부가 약 2조 5천억 원을 투자한 AI 데이터 구축 사업에서 360종 가운데 122종(34%)이 품질 불량으로 활용되지 못했다. 47%가 품질 목표를 달성하지 못했고, 최대 26개월간 데이터가 단 한 건도 생성되지 않은 사업도 있었다. "일단 많이 모으자"는 공급 중심 논리로 어항을 채웠더니, AI가 학습할 수 있는 큰 돌이 들어갈 자리가 없어진 것이다.

농업 현장이 이 문제의 축소판이다. 농촌진흥청은 스마트팜 1200여 개소에서 16억 건의 데이터를 축적했고, AI 스마트농업에 1595억 원을 투자하고 있다. 양적으로는 충분해 보인다. 그러나 제1차 스마트농업 육성 기본계획은 자체 문서 안에서 '인공지능 표준 추진율 0%'를 명시하고 있다. 센서 결측값이 누적되고, 농장마다 수집 포맷이 다르고, 수기 기록이 정형화되지 않은 채 쌓여 있다. 실무에서는 '데이터가 있다'고 보고하면 윗선에서 'AI를 돌려라'고 하지만, 그 데이터를 학습 가능한 상태로 전처리하는 데만 전체 프로젝트 기간의 60~70%가 소요된다.

눈이 많이 내렸다고 눈사람이 되는 것은 아니다. 손으로 직접 뭉치고, 잘 굴려야 눈덩이가 된다. 데이터도 마찬가지다. 결측값을 보간하고, 이상치를 걸러내고, 시계열을 동기화하는 손이 시린 작업을 거쳐야 비로소 AI가 학습할 수 있는 눈덩이가 된다.

연합뉴스
왜 이런 일이 반복되는가. 현존하는 AI 데이터 방법론에 구조적 결함이 있기 때문이다. 가장 널리 쓰이는 CRISP-DM이든, NIA의 AI 데이터 품질관리 가이드라인이든, 영국 ODI의 AI-Ready Data 프레임워크든, 공통적으로 세 가지가 빠져 있다. 첫째, 모두 이미 존재하는 데이터를 전제로 시작한다. 수집하기 전에 "이 AI에 어떤 데이터가 어떤 품질로 필요한가"를 사정하는 단계가 없다. 둘째, 도메인 전문가의 추론이 프로세스에 내재되어 있지 않다. 셋째, 품질 미달 시 자동으로 이전 단계로 돌아가는 강제적 재순환 루프가 없다.

필자가 참여한 연구에서는 이 공백을 메울 해답을 예상치 못한 곳에서 찾았다. 간호학이다. 간호과정(ADPIE)은 1958년 이후 60년 이상 불완전하고 비정형적인 환경에서 체계적 정보수집을 가능하게 한 순환 방법론이다. 이 방법론이 작동하는 환경 조건—데이터 소스의 다양성, 품질 불균일, 목적 모호성—은 국가 AI 데이터 수집이 직면한 도전과 구조적으로 동형이다.

ADPIE는 기존 방법론이 결여한 세 가지를 모두 내포한다. 간호사정은 수집 전에 목적과 범위를 먼저 정의한다. 간호진단은 수집된 데이터의 문제를 진단한다. 간호평가는 목표 미달 시 반드시 재사정으로 돌아간다. 이 구조를 AI 데이터에 전용하면, 26개월간 데이터가 방치되는 일이 구조적으로 불가능해진다.

방법론만으로는 부족하다. 모은 데이터를 AI가 인과관계를 추론할 수 있게 연결하는 구조, 즉 온톨로지가 필요하다. 농업인이 "토마토 잎이 노래졌는데 왜 그런가요?"라고 물었을 때, 현재의 AI는 "수분 부족, 질소 결핍 등이 원인일 수 있습니다"라고 나열한다. 인과관계 온톨로지가 적용된 AI는 다르게 답한다. "현재 온도 28도, 습도 90%, 3일 지속 조건에서 잿빛곰팡이 발생 확률 87%입니다. 환기 증대와 습도 조절을 권고합니다." 이 차이는 데이터의 양이 아니라 구조에서 온다.

선진국은 이미 움직이고 있다. 미국 USDA는 연방 농업 데이터를 AI 학습 가능 형태로 재구축하기 시작했고, 영국 정부는 공공 데이터의 AI 사용 준비도를 높이는 정책 지침을 발표했다. 네덜란드 바헤닝언대학의 자율 온실 챌린지에서는 AI가 숙련 재배자 대비 27.8% 높은 순이익을 달성했다. 이 모든 것의 출발점은 데이터 표준화였다. 이 격차는 알고리즘 투자를 늘린다고 줄어들지 않는다.

AI 3대 강국이 되려면 세계 최고의 알고리즘만으로는 부족하다. 그 알고리즘이 학습할 데이터가 세계 최고 수준으로 정돈되어 있어야 한다. 데이터 품질을 5% 개선하면 AI 모델 정확도가 15~20% 향상된다는 실증 결과가 반복적으로 보고되고 있다. 동일한 알고리즘이라도 데이터의 질서가 다르면 결과가 전혀 달라진다.

어항 비유로 돌아가자. 데이터의 질서는 모래가 아니다. 큰 돌이다. 알고리즘이 아무리 좋아도 데이터가 모래더미이면 아무것도 학습할 수 없다. 데이터 품질이 모델 성능의 상한선을 결정한다. 상한선이 낮으면 그 위에 어떤 알고리즘을 올려도 천장에 부딪힌다.

지금 이 큰 돌을 넣지 않으면, 모래로 가득 찬 어항에서는 다시는 큰 돌이 들어갈 자리가 없을 것이다.

김철현 (주)카라멜라 CSO · 농촌진흥청 AI 기술 컨설팅 전문위원
※ 외부 필진 기고는 CBS노컷뉴스의 편집방향과 다를 수 있습니다.

노컷뉴스

오피니언

노컷뉴스

실시간 랭킹 뉴스

공유하기

AI·반도체 패권경쟁

[기고]AI가 학습할 수 있는 데이터를 만드는 사람들

"AI 강국으로 가려면, 알고리즘보다 먼저 데이터의 질서를 세워야"

지금 뜨는 뉴스

AI·반도체 패권경쟁

실시간 랭킹 뉴스

오늘의 기자

노컷뉴스

오피니언

노컷뉴스

실시간 랭킹 뉴스

공유하기

AI·반도체 패권경쟁

[기고]AI가 학습할 수 있는 데이터를 만드는 사람들

"AI 강국으로 가려면, 알고리즘보다 먼저 데이터의 질서를 세워야"

지금 뜨는 뉴스

AI·반도체 패권경쟁 구독

실시간 랭킹 뉴스

오늘의 기자

AI·반도체 패권경쟁