국가대표 AI 선발전 막바지…'독자성' 논란에 고심 깊어지는 정부

정부가 추진 중인 '독자 인공지능(AI) 파운데이션 모델 프로젝트' 1차 평가 마감이 이틀 앞으로 다가오면서, '소버린 AI' 전략의 첫 방향도 곧 윤곽을 드러낼 전망이다.

이달 중 5개 후보 가운데 한 곳이 탈락할 예정인 가운데, 최근 일부 기업을 둘러싼 중국 AI 차용 논란이 불거지면서 단순한 성능 비교를 넘어 어디까지를 '독자 개발'로 볼 것인지에 대한 정부의 판단과 기준 제시가 이번 평가의 핵심 과제로 떠오르고 있다.

LG·SKT는 성능, 네이버는 멀티모달…NC·업스테이지는 특화 전략

13일 업계에 따르면 오는 15일 1차 평가 마감을 앞두고 후보 기업들은 지난 3일부터 오픈소스 플랫폼 허깅페이스 등을 통해 자사 AI 모델의 기술보고서를 순차적으로 공개하며 본격적인 검증 국면에 들어갔다. 기술보고서는 해당 AI 모델의 구조와 학습 방식, 벤치마크 성능 등을 담은 일종의 '제품 사양서'에 해당한다.

이들 기술보고서에 포함된 벤치마크 테스트 결과를 비교한 결과, 전반적인 성능 지표에서는 LG AI연구원의 'K-엑사원'이 가장 앞선다는 평가가 나온다. 대학원 수준의 전문 문제 해결 능력을 측정하는 항목인 전문지식(MMLU-Pro)을 비롯해 과학 추론 능력을 평가하는 GPQA-Diamond, 코딩 역량을 보는 라이브코드벤치(LiveCodeBench V6) 등 주요 지표에서 경쟁 모델 대비 가장 높은 점수를 기록했다.

SK텔레콤의 '에이닷엑스 케이원(A.X K1)' 역시 전반적인 성능 면에서 상위권을 기록했다. 특히 한국어 환경에서 전문가급 추론 능력을 평가하는 'KMMLU-Pro' 항목에서는 가장 높은 점수인 68.1점을 받았다. 통신사 가운데 유일하게 이번 프로젝트에 참여한 SK텔레콤은 통신 인프라와 운영 역량을 AI 경쟁력으로 연결할 수 있다는 점을 강점으로 내세우고 있다.

다만 네이버클라우드의 경우 전문지식이나 과학 추론 능력 등을 평가하는 일부 핵심 벤치마크 결과를 기술보고서에 포함하지 않아, 다른 후보 모델들과의 직접적인 성능 비교에는 한계가 있었다. 대신 네이버클라우드는 후보군 가운데 유일하게 멀티모달 AI를 탑재했다는 점이 특징으로 꼽힌다. 다른 4개 모델이 텍스트 기반 추론에 집중한 것과 달리, 이미지와 음성을 함께 활용해 추론 범위를 확장했다는 점에서 기술적 차별성이 있다는 평가다.

NC AI는 엔씨소프트의 자체 AI '바르코(VARCO)'를 기반으로 게임 개발과 시나리오 작성 등 특정 산업에 특화된 활용성을 강조했고, 업스테이지는 경량화 모델 '솔라'를 앞세워 법률·의료·금융 등 특화 분야에서 경쟁력을 보여주고 있다.

최대 쟁점은 '프롬 스크래치'…과기부 판단에 시선

다만 업계에서는 이번 평가에서 성능만큼이나 '프롬 스크래치', 즉 데이터 수집부터 모델 설계·학습까지 전 과정에서의 독자성을 충족했는지 여부가 당락을 가를 핵심 변수로 작용할 것으로 보고 있다.

논란의 시작은 업스테이지의 AI '솔라-오픈-100B'가 중국 지푸 AI의 'GLM-4.5-에어'의 추론코드를 차용했을 가능성이 제기되면서 시작됐다. 이후 네이버클라우드가 중국 알리바바의 '큐웬(Qwen) 2.5' 비전·오디오 인코더와 가중치를 활용한 사실이 알려지며 논란이 재점화됐다. 여기에 SK텔레콤도 중국 딥시크의 '추론코드'와 유사하다는 의혹이 제기됐다.

업계에서는 '프롬 스크래치'의 핵심 기준에 대해 '가중치'를 외부에서 차용하지 않고 처음부터 직접 만들었는지 여부로 보고 있다. 즉, 외부에서 이미 학습된 가중치를 가져와 썼는지 여부가 독자성 판단의 핵심이라는 것이다.

가중치는 AI가 정보를 판단할 때 기준이 되는 중요도 값으로, 어떤 데이터로 학습하느냐에 따라 다른 결과가 만들어진다. 이는 어떤 경험을 쌓았느냐에 따라 사람의 판단이 달라지는 것과 같은 이치다.

이런 기준에 비춰보면 업스테이지·SK텔레콤과 네이버클라우드의 사례는 성격이 다르다는 평가가 나온다. 업스테이지와 SK텔레콤이 활용했다는 의혹이 제기된 인퍼런스 코드는 AI가 학습을 마친 뒤 추론을 수행하는 과정을 실행하는 공개 코드로, 출처만 명확히 하면 자유롭게 사용할 수 있는 것으로 알려져 있다. 특히 대형언어모델(LLM) 구조가 글로벌 표준으로 자리 잡으면서, 현재는 대부분의 AI 기업들이 유사한 모델 구조와 인퍼런스 코드를 활용하고 있다는 설명이다. 업계에서는 학습 데이터나 가중치를 외부에서 그대로 가져온 것이 아니라면, 인퍼런스 코드 활용만으로 프롬 스크래치 기준에 위배됐다고 보기는 어렵다는 시각이 우세하다.

반면, 네이버클라우드는 멀티모달 AI 개발 과정에서 비전·오디오 인코더와 그 가중치를 외부 모델에서 차용한 것으로 알려졌다. 업계에서는 이들 인코더의 가중치에 이미 학습된 데이터와 판단 기준이 반영돼 있어, 모델의 입력 처리와 의사결정 구조에 직접 영향을 줄 수 있다는 점을 문제의 핵심으로 지적한다.

다만 프롬스크래치 기준이 제도적으로 정리되지 않은 상황에서, 논란에 대한 최종 판단의 공은 과학기술정보통신부로 넘어가게 됐다. 과기부는 아직까지 독자성 판단 기준에 대한 공식 입장을 내놓지 않고 있다.

국가대표 AI 프로젝트의 첫 탈락팀은 이르면 이번 주 중 가려질 전망인 가운데, 과기부는 탈락자 발표와 함께 프롬 스크래치 논란에 대해 정부가 어떤 기준으로 판단했는지를 설명해야 하는 과제를 안게 됐다. 1차 평가는 오는 15일 마감되지만, 평가 과정과 판단 근거를 충분히 설명하기 위해 탈락팀 발표 시점이 며칠가량 늦춰질 가능성도 거론된다.

특히 평가에는 모든 후보들이 모델 개발 전 과정을 담은 개발 일지를 제출한 것으로 전해졌다. 평가위원들은 이를 바탕으로 학습 데이터의 출처와 구성, 사전학습 및 미세조정 방식, 외부 기술 활용 범위 등을 종합적으로 검토할 수 있어, '어디까지를 독자 개발로 볼 것인지'에 대한 보다 구체적인 판단이 나올 수 있을 것이라는 관측도 나온다.

노컷뉴스

산업

노컷뉴스

실시간 랭킹 뉴스

공유하기

국가대표 AI 선발전 막바지…'독자성' 논란에 고심 깊어지는 정부

LG·SKT는 성능, 네이버는 멀티모달…NC·업스테이지는 특화 전략

최대 쟁점은 '프롬 스크래치'…과기부 판단에 시선

지금 뜨는 뉴스

실시간 랭킹 뉴스

오늘의 기자