User: Tell me when you see something that makes sound.
(이용자: 소리 나는 걸 보면 말해줘.)
Gemini: I see a speaker, which makes sound.
(제미나이: 소리나는 스피커가 보여.)
구글이 공개한 '프로젝트 아스트라' 시연 영상을 보면, 이용자가 카메라를 통해 사물을 보여주고 음성으로 명령하면 아스트라가 그에 대한 답을 내놓는다. 마치 사람이 눈으로 보고 귀로 듣고 입으로 말하는 것처럼 대화하는 식이다. 오디오와 이미지, 영상, 텍스트 등 다양한 데이터를 처리할 수 있는 멀티모달 AI(인공지능)를 구현한 결과다.
구글, AI 미래 현신화 비전 발표…'AI 개요' 발표
구글이 자사의 생성형 AI '제미나이(Gemini)' 기반의 멀티모달 AI비서 '프로젝트 아스트라(Project Astra)'를 14일(현지시간) 공개했다. 또 최신 버전의 제미나이를 탑재한 검색 엔진을 공식 출시했다. 미국 캘리포니아 마운틴뷰 쇼어라인 엠피씨어터에서 '구글 연례 개발자회의(I/O) 2024)'에서다.
구글은 제미나이를 통해 AI의 미래를 현실화하기 위한 비전을 발표했다. 순다르 피차이 최고경영자(CEO)는 "제미나이 생태계에 상상 가능한 AI의 모든 것을 담았다"며 "이번 주부터 미국 내 모든 이용자에게 완전히 개편된 경험인 'AI 개요'를 시작한다는 것을 발표하게 돼 기쁘다"고 말했다.
'AI 개요'(AI Overview)는 제미나이를 이용해 검색 결과를 빠르게 요약하고 관련 링크를 제공 받을 수 있는 기능이다. 대화 형태로 검색할 수 있고, 사진 뿐만 아니라 동영상으로도 검색이 가능해진다. 제미나이가 탑재된 새 검색 기능은 미국을 시작으로 수 개월 안에 다른 국가에도 제공된다. 구글은 연말까지 10억 명 이상에게 제공할 계획이다.
구글의 AI 비서 '프로젝트 아스트라' 공개
'프로젝트 아스트라'에 대한 설명도 이어졌다. 데미스 허사비스 구글 딥마인드 CEO는 "우리는 오랫동안 일상 생활에서 도움이 될 수 있는 범용(universal) AI 에이전트를 만들고 싶었다"며 "휴대전화나 안경과 같은 폼팩터를 통해 전문(expert) 비서를 곁에 둘 수 있는 미래를 쉽게 상상할 수 있다"고 강조했다.
미래 AI 어시스턴트 구현을 위한 구글의 비전으로, AI가 사람처럼 보고 들을 수 있고 음성으로 대화하면서 이용자의 개인 비서 역할을 하는 기능이다. 구글은 '제미나이 라이브'도 선보였다. 이 기능은 사람처럼 대화하고 이미지는 업로드를 통해 인식한다. 구글은 '제미나이 라이브'를 수개월 내에 출시하고 이후 실시간 시각과 청각 등 프로젝트 아스트라를 위한 기능도 추가할 계획이다.
이와 함께 구글은 텍스트로 동영상을 생성하는 비오(Veo), 텍스트로 사진을 생성하는 이마젠(Imagen)의 최신 버전 이마젠3, AI로 음악을 만들 수 있는 리리아(Lyria) 등도 공개했다.
한편 구글은 지난 2월 공개했던 멀티모달 AI 모델 '제미나이 1.5 프로'를 이날부터 한국어 등 35개 언어로 출시한다. 아울러 이와 연계한 '제미나이 1.5 플래시'도 선보였다. 제미나이 1.5 프로보다 더 가벼우면서도 같은 멀티모달 추론 기능과 긴 콘텍스트 기능을 갖췄다.