이세돌 꺾은 알파고마저 100전 100패…'알파고 제로' 등장

구글 딥마인드, 네이처 소개…백지 상태서 기보 없이 바둑 깨우쳐 "창의성까지"

(사진=스마트이미지 제공/자료사진)
이세돌 9단과 커제 9단 등 인간 바둑 고수들을 잇달아 격파한 인공지능(AI) 바둑 프로그램 '알파고'를 능가하는 '알파고 제로'가 등장했다.

알파고 제로는 알파고처럼 대국 상대나 인간의 학습 지도없이 순수한 독학으로 바둑을 익혀 바둑의 도(道)를 스스로 깨달았다. 교과서나 기보 등 바둑 고수들의 도움을 전혀 없었다. 그럼에도 이세돌과 커제를 꺾은 기존 알파고를 압도하는 능력을 갖췄다. 창의성을 발휘해 기존에 없던 새로운 정석도 고안해 냈다.

19일 구글 딥마인드는 이같은 연구 성과가 담긴 논문 '인간 지식 없이 바둑 마스터하기'(Mastering the game of Go without human knowledge)를 세계 최고권위 학술지 '네이처'에 발표했다.

연구진은 논문을 통해 "인간이 입력한 전략이나 기보를 학습하는 방식으로 바둑을 배웠던 기존 버전과는 다르다"면서 "인간의 한계를 초월하는 '강화학습'(reinforcement learning) 방식 인공지능 연구의 중요한 이정표가 될 것"이라고 강조했다.

알파고 제로는 바둑 규칙 외에는 아무런 사전 지식이 없는 상태의 신경망에서 출발,바둑판만 놓고 '셀프 바둑'을 둔다. 스스로 바둑의 이치를 터득하는 것이다.

승률을 높이는 좋은 수가 어떤 것인지 데이터를 스스로 쌓으면서 알파고 제로가 바둑을 이해하는 수준이 점점 높아진다.

이런 학습 방식은 개에게 먹이를 주면서 '앉아' 등 행동을 훈련시킬 때와 비슷한 '강화 학습'이다. 인간으로부터 요령을 배우는 것이 아니라, 인공지능이 스스로 수많은 시행착오를 통해 요령을 터득하도록 하는 방법이다.


강화학습 방식으로 만들어진 알파고 제로는 지금까지 나온 알파고 버전 중 가장 강력하다.

알파고 제로는 한동안 '어이없는' 수를 두기도 하는 등 처음에는 인간으로부터 가르침을 받은 기존 버전들보다 약했지만, 강화학습을 시작한지 며칠 후에는 오히려 훨씬 강해졌다.

특히, 똑같은 알파고 제로끼리 비교해도 하루쯤 후에는 강화학습만으로 스스로 공부한 쪽이 인간으로부터 '지도학습'을 받은 경우보다 실력이 더 뛰어났다.

지난해 3월 '구글 딥마인드 챌린지'에서 이세돌 9단을 4대 1로 이긴 알파고와 비교하면, 알파고 제로는 독학 36시간만에 이 버전의 실력을 넘어섰다.

72시간 독학한 뒤에는 알파고 제로가 같은 대국 조건에서 100전 100승 무패를 기록했다. 알파고 제로가 한 수에 0.4초가 걸리는 '초속기' 바둑으로 490만 판을 혼자 두면서 연구한 결과다.

알파고 제로가 40일에 걸쳐 2900만 판을 혼자 둔 뒤에는, 지난 5월 세계랭킹 1위 커제 9단을 3대 0으로 꺾었던 기존 최강 버전 '알파고 마스터'의 실력마저 압도하게 됐다. 알파고 제로는 알파고 마스터에 100전 89승 11패를 거뒀다.

딥마인드는 "알파고 제로가 다른 모든 알파고 버전 등을 능가하고 세계 최고 선수가 되는 데 걸린 시간은 40일"이라면서 "이 과정에서 알파고는 그간 이세돌, 커제 등과 맞붙으며 보여줬던 수가 아닌 바둑계에 처음 나온 이른바 '비관습적인 전략'까지도 선보였다"고 밝혔다.

구글 딥마인드의 창업자인 데미스 허사비스 최고경영자(CEO)는 "우리 프로그램 중 가장 강력한 버전인 알파고 제로는 사람이 만든 데이터를 입력하지 않아도 될 뿐아니라 컴퓨팅 파워도 덜 든다"며 "불과 2년만에 알파고가 얼마나 멀리 왔는지를 보면 놀라울 따름"이라고 밝혔다.

알파고 제로는 독학하는 과정에서 인간이 알고 있는 정석을 스스로 깨달았을뿐만 아니라, 독특한 정석을 개발하기도 했다.

교신저자인 데미스 허사비스와 공동 제1저자 3명 중 한 명인 데이비드 실버는 독학으로 바둑을 배운 알파고 제로가 기존 버전들보다 오히려 강한 이유에 대해 "인간 지식의 한계에 더 이상 속박되지 않기 때문"이라고 설명했다.

기존 알파고 버전들은 일부 정석 등을 인간으로부터 배웠고 인간이 둔 기보도 공부했지만, 알파고 제로는 "백지 상태에서 세계 최고 실력을 갖춘 알파고 스스로가 자가학습을 거쳤기에 가능했다"면서 "인간으로부터 전혀 배운 것이 없기 때문에 인간의 선입견과 한계에 얽매이지 않는다는 것"이라고 강조했다.

이는 인간의 직관이 전혀 통하지 않아 온 분야에 인공지능을 적용하면 인간을 초월하는 성과를 낼 수 있음을 시사하는 결과여서 더욱 주목된다.

딥마인드는 "알파고 제로를 통해 인공지능이 인간의 독창성을 배가하고 나아가 인류가 마주한 난제를 해결하는 우리의 임무를 도와줄 수 있을 것"이라며 자신감을 내비쳤다.

실시간 랭킹 뉴스