▶ 글 싣는 순서 |
①"AI, 거짓말 왜 하죠?" 인공지능 일타 하정우 답은 (계속) |
IT업계에선 영화배우보다 유명한 하정우
대한민국 최고의 인공지능 전문가로 꼽히는 하정우 네이버클라우드 AI 이노베이션 센터장을 만났다. IT 업계에서 그는 "영화배우 하정우보다 더 유명한 하정우"로 통한다. 네이버 소속이지만 대통령직속 디지털플랫폼정부위원회, 과학기술정보통신부, 국방부, 금융감독원, 국가보안기술연구소 등 정부 주요기관에서 AI 관련 전문가로 자문 활동을 하며 대한민국 AI 발전에 앞장서고 있다. 이쯤되면 'AI 국가대표'라고 불릴만하다. 하 센터장은 어떻게 AI라는 분야에 들어오게 돼 최전선에 서게 됐을까? 그의 AI 시작부터 물어봤다.
어렸을 때부터 인공지능에 관심이 많았던 걸까요?
"인공지능이 앞으로 세상을 바꿀거다!!! 이런 거대한 비전을 가지고 시작한 건 아니고요. 2006년 대학원 갈 때 지도교수님을 만나 진로 지도를 받기 위해 상담을 했는데 지도 교수님이 AI를 하던 분이었고 굉장히 의미 있고 재미있는 분야인데 하겠냐고 묻길래 '알겠습니다' 하고 시작했습니다. 엄청난 의지를 가지고 시작한 건 아닌데 재밌는 거에요."
어떤 부분이 재밌었나요?
"인공지능이란 게 지능을 만드는 거잖아요? 지능은 원래 사람만 가지고 있는 건데 말이에요. 사람이 아닌 AI에 뭔가 입력을 하면 패턴을 이해하고, 비디오나 사진도 그렇고 이해해서 설명해주잖아요. 사람은 드라마를 보면 전체적으로 스토리가 어떻고 누가 나쁜 사람인지 착한 사람인지 이해를 해가면서 앞으로 어떤 스토리가 펼쳐질 지 주위에 있는 사람들이랑 얘기도 하고 하는데 인공지능이 그게 가능한가 이런 것들을 연구 주제로 다뤘습니다. 4~5년 이상 그렇게 해왔죠."
챗GPT의 등장을 보고 대규모언어모델(LLM)을 개발해야겠다는 생각이 든 걸까요?
"그거보다 좀 빨랐습니다. 사람들은 알파고를 보면서 놀라기는 했지만, 놀란 것까지였습니다. 왜냐면 바둑에 한정된 문제였으니까요. 바둑 매니아들이 아니고서는 확 와닿지 않은 거에요. 그리고 알파고에 쓰인 기술들이 보통 강화 학습 혹은 탐색을 굉장히 빠르게 하는 기술들인데요. 이를테면 어느 바둑돌을 두는 게 이기는데 유효한가를 굉장히 빠르게 계산한다는 의미입니다. 이게 나의 일상생활에 얼마만큼 직접 연관 되느냐, 그런 느낌은 아니었다는 거죠. 하지만 챗GPT는 완전히 얘기가 달랐습니다.
사실 GPT3는 2020년에 나왔습니다. AI 업계에 있는 사람들, 개발자들은 이걸 써보고 깜짝 놀랐습니다. AI가 이렇게 글을 잘 쓸 수 있나! 라고요. 일반인들이 접할 일은 드물었죠. 일반인들도 제대로 AI를 접할 수 있게 한 게 바로 '챗GPT'입니다. PC나 노트북을 열고 크롬이나 웨일을 통해서 챗GPT사이트에 로그인 한 뒤 시키기만 하면 얘가 다 하는 거에요. 시를 쓰라고 하면 시를 쓰고, 표를 만들어달라고 하면 표를 만들고 물어보는 거에 다 답하고요. 물론 중간에 잘못된 정보도 있긴 했지만요.
네이버가 세계에서 세 번째로 LLM 공개할 수 있었던 건
네이버도 발빠르게 대응했는데요. GPT3를 보고 2020년부터 네이버도 준비를 한 건가요?
"2020년 6월 GPT3가 발표되자마자 현재 하이퍼클로바X를 총괄하고 있는 성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄이랑 영어 버전으로 써봤어요. 그때는 한국어를 아예 못했거든요. 세상 신기한 거에요. 대신 쓰는 건 좀 어려웠어요. 시를 쓰기 위해서 시라는 건 어떻게 쓰는 건지 예시를 몇 개 보여줘야 했어요. 이때 써보니까 '이건 세상을 바꿀 것 같다'라는 예감이 들었습니다.
그때 둘이서 당시 최고 경영진에 가서 '아마도 검색의 다음 진화는 AI 기술일 것 같다. 지금부터 준비해야 한다'고 했죠. 그리고 지금 GPT3는 한국어를 아예 못하는데 우리가 한국어 중심으로 이 기술을 빠르게 확보해 놔야 검색 그 다음을 준비할 수 있을 거라고 말씀 드렸어요. 좀 더 시간이 지나면 구글이 됐든 마이크로소프트가 됐든 빅테크가 들어올 게 너무 당연해 보였거든요. 그래서 '투자를 해야합니다'라는 의견을 드렸고 8월 달에 투자가 결정나고, 굉장히 빠르게 대응을 했습니다.
내부적으로 다 만든 건 2021년 3월 정도였어요. 저희가 이걸 안에서 테스트를 해야 하잖아요? 내보내기 전에 써보니까, 이걸 그냥 내보내면 사고 칠 거 같더라고요. 욕도 하고, 혐오 표현이 나올 수도 있겠더라고요. 그때부터 '안전팀'을 운영하면서 안전하게 응답할 수 있도록 준비해서 내보낸 게 2021년 5월입니다. 좀 더 빨리 했으면 전 세계에서 두 번째가 될 수 있었는데 2주 차이로 전 세계에서 세 번째가 됐습니다."
네이버가 이렇게 잘하고 있지만, 빅테크와의 격차가 난다는 지적도 나옵니다. 네이버 AI의 강점을 소개해주세요.
"생성형 AI 기술 관점에서만 보면 계속 6개월에서 1년 정도의 격차가 쭉 유지되고 있습니다. 제가 볼 때는 1년 이내의 격차가 유지되면 괜찮다고 생각을 해요. 물론 우리나라가 전 세계에서 가장 앞서면 좋겠지만, 이미 자본의 경쟁으로 들어간 상황에서 그걸 기대하기란 쉽지 않고요.
실제 사업의 관점에서 보면 사용자에게 새로운 가치를 줄 것이냐, 이게 만족이 돼야 한다고 봅니다. 기술에 있어서 30점 차이가 난다, 예를 들어 기술로만 100점 짜리인 A가 있고 70점 짜리 B가 있을 때 서비스에서도 30점 차이가 나냐 그렇지 않다라는 겁니다. 기술→기능→서비스로 이어진다면, 경우에 따라 100점짜리 기술이 서비스를 잘못 만들면 80점 서비스가 되기도 하니까요.
그렇다면 서비스를 잘 만드는 게 중요한데요. 이 기술이 서비스로 잘 녹아서 노출되거나 활용이 되는데 있어서 가장 중요한 게 '플랫폼'입니다. 이미 얼마 만큼의 사용자들이 서비스를 활용하고 있는지도 중요하고요. 거기에 AI 기술이 녹아 들어가야 하고요. 그런데 오픈AI는 플랫폼이 없어요. 구글은 있죠. 오픈AI는 플랫폼이 없으니까 마이크로소프트 클라우드에 붙어서 오피스에 들어가고, 애플 인텔리전스에 들어가는데 돈을 받지 않습니다. 네이버는 서비스 플랫폼을 가지고 있죠. 이게 큰 강점 중에 하나입니다.
퍼스트 무버(first mover·선도자)는 많은 것들을 다 해봐야 하기 때문에 더 많은 투자가 필요합니다. 시행착오도 해야하고요. 스마트한 패스트 팔로어(fast follower·빠른 추종자)는 그 중에 선택과 집중을 잘 하면 굉장히 효율적으로 잘 따라갈 수 있고요. 패스트 팔로어 전략을 기본으로 생성형 AI에서 계속 잘 따라가는 것, 그러면서 서비스로 잘 만드는 것 그런 것들이 경쟁력이 될 수 있다고 봅니다."
사우디아라비아로 기술 수출을 했다는 소식을 들으면서 네이버가 기술 종합세트를 수출했다는 느낌을 받았어요. 클라우드를 바탕으로 AI 뿐 아니라 디지털 트윈까지. 그 방향은 아무래도 통찰력이 좀 있어야 했던 게 아닐까 싶은데요. 이해진 GIO의 의중도 있었던건가요?
"GIO 의중인지는 정확히 모르겠고요. 회사 전체 최고 경영진의 전략적 방향성이 통했다고 보고요. 그런 기술 종합세트를 저희는 '밸류체인(value chain·가치 사슬)'이라고 해요. 이게 또 네이버만의 강점인데요. 아래는 클라우드, 클라우드 효율을 높이기 위한 반도체와 연관된 소프트웨어 기술들, 그리고 서비스, 슈퍼앱과 데이터센터 운영까지 전체 패키지를 일컬어서요. 이런 기업이 별로 없고, 대부분이 미국 기업입니다. 그럼 사우디 같은 경우 미국과 중국 사이에서 줄타기를 하고 있는 나라인데 한국의 네이버가 꽤 괜찮은 파트너가 될 수 있는거죠. 그들도 국가적으로 디지털 전환을 하고 싶으니까요."
(※네이버는 23일 사우디아라비아에 중동 총괄 법인 '네이버 아라비아(가칭)'을 설립하고 중동 사업을 본격화하기로 했다고 밝혔다. 사우디 주택부와의 디지털 트윈 플랫폼 구축 사업, 데이터인공지능청과의 업무 협약 등이 구체화되고 있는 셈이다.)
AI의 욕과 환각
정말 사전에 테스트를 할 때 AI가 욕도 한 건가요? AI가 욕을 외운 건가요?
"이것도 학습이 된 거죠. 학습이라고 하는 게 다음 단어를 계속해서 채워나가는 형태로 학습을 합니다. 단어 몇 개를 보여주고 단어를 딱 가린 다음에 이어서 이 자리에 무슨 단어가 올 지 맞추도록 학습을 시켜요. 딱 외웠다기보다는 상황에 맞춰 언어 구사력이 늘어나는 것처럼 AI도 비슷하게 글들을 계속 보면서 다음 단어 맞추기를 수 조 번 이상 합니다. 그러면서 어떤 맥락에 대한 이해, 글에 대한 이해와 추론하는 능력들이 발현돼요. 학습할 때 소설들도 넣고 하는데 거기에 욕도 있고 하다 보니 맥락을 이해하고 하게 되는 거죠."
거짓말을 하는 것도 이와 같은 맥락인가요?
"거짓말은 조금 다른 맥락이에요. 생성형 AI는 데이터베이스 형태가 아니거든요. 데이터베이스란 정보를 고스란히 저장했다가 고스란히 가져오는 구조입니다. 그래서 거짓말을 하지 않아요. 그런데 생성형 AI는 글이 이렇게 쭉 있는데 데이터베이스처럼 그대로 저장하는 게 아니고 단어를 가리고 단어 맞추기를 통해 패턴만 저장이 됩니다. 업계에서는 이걸 '추상화됐다'라고 표현을 하는데, 전체적인 개별 글자나 단어, 사실을 기억하는게 아니라 전체적인 맥락, 전체적인 지식 이런 것들을 모델에다 저장을 합니다. 사람이 알아볼 수 있는 형태가 아니라 인공지능이 알아보는 형태로요. 이 과정에서 정보가 압축이 되고, 압축된 정보를 사람이 알아볼 수 있게 다시 글을 쓰겠죠. 여기서 정보 손실이 일어날 때가 있어요. 계속 다음 단어를 맞추는 형태로 학습했다고 했잖아요? 그 말은 굉장히 그럴듯한 글을 쓸 수 있다는 얘기지, 팩트(fact·사실)를 보장하기는 힘들다는 걸 뜻합니다."
할루시네이션(hallucination·AI가 거짓 정보를 사실인냥 생성·전달하는 환각 현상)을 잡아내는 쪽으로도 기술이 더욱 발전하고 있다고 하던데 그런가요?
"학습 방법을 완전히 혁신적으로 바꾸지 않는 이상 할루시네이션은 어쩔 수 없다고 봅니다. 없던 것을 새롭게 만들어 내는 생성형 AI이기 때문에 할루시네이션을 AI의 특징이라고 봐야 한다는 거죠. 있던 걸 그대로 가져오는 것보다 새로운 콘텐츠를 만들려면 할루시네이션 능력이 있어야 하니까요.
그런데 정확한 정보를 제공해야 할 때는 할루시네이션이 문제가 될 수 있습니다. 그래서 활용되는 방법들이 △출처를 달기 위해 검색과 연동해서 정보를 그대로 검색해서 가지고 오게 하는 것이고요. 또 하나는 △특정 챗봇을 만드는 건데요. 이를테면 금융 상품을 만들 때 불완전 판매 관련한 매뉴얼들은 다 있잖아요? 상담하는 사람들의 매뉴얼들을 데이터베이스로 다 만들어 놓고 사용자가 질문을 하면 이 질문에 맞는 정답을 데이터베이스에서 가져오는 형식을 취하고 있죠.
최근에는 △맥락의 길이를 늘려서 할루시네이션을 해소하기도 합니다. 보통 할루시네이션이 어디서 발생하냐면, 학습할 때 보지 못한 데이터에 대해 물어보면 헛소리를 많이 하거든요. 사람이라면 잘 모르는 분야를 불어볼 때 모르겠다 하는데, 얘는 어떻게든 글을 뱉어내요. 그러면 그 분야를 더 공부시키면 됩니다. 예를 들면 방송국에서 쓰는 AI를 만들겠다, 그럼 방송 데이터를 더 많이 학습을 시킵니다. 그럼 이제 방송에 대해 더 잘 이해하는 AI가 만들어지니 할루시네이션을 줄일 수 있고요. 여기에 더해 사용자들이 이렇게 입력했을 때 AI가 이상한 소리를 하면 '잘못됐어'라고 체크를 할 수 있는데, 피드백을 통해 또 학습을 시킬 수 있습니다."
AI 거품론
최근에는 AI 거품론도 나오고 있습니다. 미국의 증권가를 중심으로는 수익화 여부의 문제도 이어지고 있고요. 어떻게 봐야 할 지 궁금합니다.
"올해 7월부터 AI 거품론이 대두되고 있는데요. 생성형 AI인 챗GPT 기준으로 보면 이게 나온 지 지금 1년 반 정도 된 것 같습니다. 1년 반만에 수익 모델이 나온다? 세상 그 어떤 기술이 1년 반 만에 수익 모델이 나왔느냐를 떠올려보면 답을 찾을 수 있을 듯합니다. 검색 엔진이 처음 나오고 검색으로 돈을 벌어서 이익을 남기기 시작하는데 15년에서 20년이 걸렸습니다. 지금 1년 반이 된 기술을 가지고 이 시점에 수익이 안 나온다고 거품이라고 얘기하는 것 자체가 어불성설이고요.
AI 거품론의 핵심은 '가성비' 때문일 겁니다. 들어가는 비용에 대비했을 때 생성형 AI가 제공하는 가치가 그 비용만큼 안 되는 것 같다라는 거죠. 챗봇이 똑똑한 것도 알겠고 글쓰기를 도와주는 것도 알겠는데, 이게 정말 만약 원가가 100원이라고 했을 때 100원어치 하는게 맞냐 내가 볼 때는 50원이면 될 것 같은데 이런 거죠.
그래서 AI 기업들은 두 가지 방법을 쓰고 있습니다. ①기술적인 투자 연구 개발을 통해 가격을 떨어뜨립니다. 어떻게 떨어뜨리냐, AI 반도체 기수 혹은 여러가지 경량화 모델을 굉장히 가볍게 만드는 기술, 그러면 모델이 가벼워지니까 단가가 떨어지거든요. GPU도 덜 쓰게 되고 이런 노력들을 하고 있고요. 실제로 챗GPT 같은 경우 4o가 나오면서 가격이 굉장히 많이 떨어졌거든요.
②가격이 좀 비싸도 그 가격 이상의 가치를 제공하는 겁니다. B2B(기업간거래)로 기업에서 많이 쓰니까 기업의 생산성을 높이는 것에서 가격보다 더 비싼 가치를 만들어내는 거죠. 예를 들면 내가 코드를 짜야 하는데 코드 짜는 시간을 10시간 걸리는 걸 1시간으로 만들고 9시간을 벌어준다, 그럼 결국 시간당 인건비만큼의 생산성인거잖아요. 시간당 인건비가 비싼 사람들의 업무를 줄여주믄 되는 거에요. 또는 똑같은 일인데 많은 사람들이 달라붙어서 반복적으로 해야하는 일들을 대체해주면 또 가치가 올라가겠죠, 이런 것들을 발굴해야하는 거죠.
AI 기업도 도입하는 기업도 그럼 원가는 떨어지고 가치는 올라가고 그럼 거품론은 자연스럽게 해결이 될 수 있을 거고요. 거품론은 그래서 해결이 되지 않는 문제가 아니라, 시간이 지나면 해결될 문제라고 봅니다."
K-인공지능 대변인
거의 우리나라 인공지능 대변인 격으로 활동을 하고 있는데, 어떻게 왜 하게 됐는지 궁금합니다. 주로 어떤 부분에 초점을 맞추고 활동을 하나요?
"대변인이라는 표현이 맞는지 모르겠네요(웃음) 저는 원래 연구자입니다. 지금도 논문을 쓰고 있어요. 제가 이런 외부 활동을 굉장히 많이 하는 이유가 생각보다 AI의 파이가 커지지 않고 있어서입니다. 지금 생성형 AI를 사용하고 있는 사람들이 얼마인지 설문조사를 해보니까(바른 과학기술사회 실현을 위한 국민연합) 60% 정도가 아예 사용을 하고 있지 않고 있어요. 확산이 안 되고 있는 거죠. 그 얘기는 회사 입장에서 봐도 사업적인 기회가 크지 않다는 말입니다.
파이를 키우기 위해서는 훨씬 더 많은 분들이 관심을 갖게 해야 하고 알게 해야 합니다. 어떤 방법을 쓰는게 효율적일까요? 보도자료만 낸다고 해결이 되냐, 그렇지 않거든요. 최대한 많이 밖에 나가서 이 기술이 어떻게 변해가고 있고, 왜 중요하고 여러분께 어떤 기회를 만들어드릴 수 있는지 계속 설명하는 게 중요하게 된 거죠.
지금 AI의 흐름이 국가대항전 형태로 흘러가고 있고, 이미 주요 국가들은 AI를 안보 관점에서 보고 있거든요. 얼마나 AI 역량과 경쟁력을 갖고 있느냐가 과거에 어떤 군사력 이상으로 더 중요한 국가의 경쟁력과 능력이 될 텐데 그 관점에서 보면 국가의 AI 정책과 전략을 잘 만드는 게 굉장히 중요합니다. 전문가가 들어가서 이 방향으로 흘러 갈테니 이런 준비를 해야 합니다 목소리를 내야 더 잘 흘러 가겠죠. 이 목소리를 내지 않고 전략이 비효율적으로 만들어지면, 결국 우리 국가 전체의 경쟁력이 낮아지고 그건 기업의 경쟁력으로도 자연스럽게 이어질테니까요."
그런 의미에서 AI 기본법은 좀 더 빨리 만들어졌어야 하는 게 아닌가 싶더라고요. 기본법이 있어야 연구나 사업에 있어서도 예측 가능성이 있을테니까요.
"많은 분들이 그런 걱정을 합니다. 실제로 제가 만나는 고위 공무원·국회의원들은 그 어느 때보다 굉장히 관심이 많이 생겼고요. 국회의장은 직접 AI 특위를 만드는 것도 고려하고 있다고 했죠. 앞으로는 조금 더 긍정적인 방향으로 가고 있다고 보고요.
지금 현재는 교통 체계가 없이 차들이 막 달리는 상황입니다. 법 체계 자체가 없다보니 언제 규제가 되고 불법으로 바뀔 지 모릅니다. 거기다 우리나라는 닫힌(positive) 방식의 규제입니다. 즉 법에서 하라는 건 할 수 있는데 그냥 가만히 있으면 하지 말라가 되어버립니다. 해야될 것과 하지 말아야 할 것에 대한 기준을 잘 잡아주는 게 필요하죠. 그래서 기본법이 필요한 건데, 문제는 빨리 만드는 것도 중요하지만 잘 만드는 것도 중요하다는 겁니다. 기본 토대가 유럽연합(EU)의 AI 법안을 가지고 오는건 아니지 않을까요? EU는 여러 정황 상 규제를 세게 할 수 밖에 없어요. 우리나라도 생성형 AI 시대의 앞으로 5년 10년 후 진행 방향성까지 고려해서 어떤 형태로 만들어야 되는지, 처음부터 '뼈대'를 다시 고민해봐야 한다고 생각합니다."
지난 번 발의됐던 그 법안도 다시 아예 백지화 해야 한다는 말인가요?
"다시 충분히 검토를 해야 합니다. 왜냐하면 그 법안의 초안은 챗GPT 이전 시대에 나온 거거든요. 챗GPT3 이전 시대와 이후 시대는 세상이 완전히 다릅니다. 그게 제대로 반영이 되지 않았고 우리나라의 상황도 반영을 해야 한다는 겁니다."
대한민국 최고 AI 전문가의 AI 활용법
대한민국 최고 AI 전문가에게 <AI 활용법>을 묻고 싶었습니다.
"저는 클로바X, 챗GPT, 재미나이 다 쓰는데요. 가장 많이 활용할 때는 외국에 있는 연구자들과 영어로 이메일을 주고 받을 때입니다. 일단 '기본'을 쓰고 '상황에 맞게' 수정을 요청합니다. 정중하게 써야할 때 제가 쓴 표현이 정중한 지 아닌지 알 수 없을 때가 있거든요. 그래서 대충 쓰고 나서 AI에게 수정해달라고 하면, 굉장히 잘해줍니다. AI 활용 없이 영어 이메일을 쓰려고 했다면 아마 1시간 붙잡고 있어야 할텐데, 이제는 '2분'이면 됩니다.
또 강연 자료에서 도표 등을 만들 때 사용합니다. 예전 같으면 문서를 다 읽고 엑셀로 표를 그리고 그래프를 만들어서 PPT를 만들어야 했는데, 이제는 긁어서 넣은 다음 그래프를 만들어 달라고 하면 다 그려주는 식이죠.
외국어 문서나 논문 등도 굉장히 많이 보는데요. 이때도 당연히 AI를 활용합니다. 번역을 시키고 이걸 요약해서 읽죠. 훨씬 더 시간을 많이 들였어야 할 일들을 굉장히 많이 줄여줍니다."
전문가만의 노하우가 있을까요?
"많이 써봐야 프롬프트(명령문)를 어떻게 넣었을 때 내가 원하는 형태의 콘텐츠가 만들어지는지 노하우가 생깁니다. 쓰면 쓸 수록 어디에서도 쓸 수 있겠네, 어디에 쓸 때는 이렇게 프롬프트를 넣어야 하겠군 하는 자기만의 노하우가 생기게 되고 그게 쌓여서 경쟁력이 될 겁니다."
챗GPT가 일상화 되면, 아이들도 자주 쓸 수 있을 것으로 보입니다. 그런데 너무 쉽게 답을 알려주기 때문에 아이들이 한참 사고 능력을 길러야 할 때 이걸 사용하는 게 맞는지도 궁금합니다. 아예 막는 게 좋은 건지 아니면 제한을 두고 사용을 했으면 좋겠는지 의견 부탁드립니다.
"아예 못 쓰게 한다고 해결되는 문제는 아닌 것 같습니다. 어린 아이들, 특히 초등학생의 경우는 부모님들이 같이 사용하면서 어떻게 쓰는지 어떤 답변을 받을 수 있는지 그러면서 AI가 만들어낸 글이라고 하는 게 어떤 의미를 갖는지 설명을 하면서 같이 쓰는 연습을 해야 한다고 생각하고요. '보조도구'로서요. 또 AI가 쓴 글이 거짓말이거나 혹은 잘못된 정보가 있으니 항상 검증해야 한다는 걸 알려줘야 합니다.
사실 어린 아이들 용도로 따로 모델을 만들긴 해야 합니다. 바로 답을 알려주기보다는 생각이라는 걸 하게끔 학습을 더 시킨 모델이 필요하다고 생각합니다. 그런 것들도 차근차근 만들어가지 않을까 싶습니다."