시각 센서를 통해 특정 장면을 인지하도록 컴퓨터를 훈련(기계학습)시키는데 보통 수백만 개의 이미지가 필요하지만 딥마인드의 GQN은 이같은 일반적인 기계학습 과정 없이 각기 다른 시점에서 촬영된 평면 이미지만으로 본질적인 요소를 학습해 추상적인 묘사를 만들어낸다. 이를 기초로 네트워크는 해당 장면이 임의의 관점에서 어떻게 보일지 예측한다.
일례로, GQN 알고리즘에 바닥과 벽이 있는 공간에 색칠된 구체가 놓여있는 평면 이미지가 제공되면, 개체를 중심으로 빛의 방향, 모양, 이미지 특성 등을 파악해 여러 유리한 지점에서 실제로는 보이지 않는 개체의 반대쪽이나 측면을 표현하고 이를 3D 보기로 생성한다.
대부분의 시각 인식 컴퓨터 비전 시스템은 개체를 인식하고 원하는 묘사를 위해 해당 개체와 관련된 방대한 이미지 데이터 수집과 이를 처리하는 복잡하고 번거로운 프로세스, 비싼 비용 때문에 활용도가 떨어진다. 하지만 딥마인드의 GQN은 인간의 두뇌가 주변 환경과 사물 간의 물리적 상호작용에 대해 배우는 방식을 복제해 데이터 세트 이미지마다 주석(사진설명)을 달아주어야 했던 번거로운 작업방식을 제거했다.
딥마인드 연구팀은 이 시스템을 훈련시키기 위해 각기 다른 각도의 장면 이미지를 제공했는데, 이 장면들을 물체의 질감, 색상, 조명과 공간 관계에 대해 독립적으로 설명하고 이후 이 개체를 옆이나 뒤에서 어떻게 보일지 테스트 했다.
그러자 GQN은 가상의 로봇팔을 이용해 물체를 움직이는 식의 공간적 이해력을 활용해 객체를 제어할 수 있었다. 또한 보여지는 장면을 다른 각도로 움직였을 때, 예측이 잘못됐다고 판단되면 스스로 잘못 표현된 이미지를 수정했다.
딥마인드 연구팀은 블로그를 통해 "GQN은 어린아이나 동물이 관찰을 통해 주변 세계에 대한 이해를 학습하는 것처럼 별도의 주석을 붙이지 않더라도 그럴법한 장면과 기하학적 특성에 대해 학습하게 된다"고 설명했다.
제약이 없는 것은 아니다. GQN은 적은 수의 물체를 포함한 단순한 장면에서만 테스트 됐고, 복잡한 3D 모델을 만드는 정교함은 떨어졌다.
그럼에도 불구하고 더 간소하고 적은 처리능력(processing power)과 말뭉치(corpus)만으로 고해상도 이미지를 처리할 수 있는 프레임워크를 제공한다는 점에서 기존 컴퓨터 비전 기술 방식보다 혁신적이다.
특히 인공지능 로봇처럼 실제 세계를 감지하고 보고 상호작용해야 하는 경우에는 이같은 GQN은 획기적이 변화를 줄 수 있다.
예를 들어 화재나 건물 붕괴가 발생한 건물 구조물에 로봇이나 인간 구조대를 투입할 경우, 설계도면이 확보되었더라도 내부 구조가 손상됐다면 적절한 대응을 할 수 없다. 하지만 이같은 인공지능 기술이 적용되면 제한된 정보에도 내부 구조 변화에 대한 합리적인 가정을 할 수 있어 로봇이나 인간 구조대가 빠른 시간 내에 효율적으로 대처할 수 있게 된다.
에슬라미는 "그동안 신경망이 통제된 방식에서 이미지를 정확하게 생성하는 방법을 학습할 수 있다는 것은 불명확했었지만, 우리는 인간의 공학적 간섭 없이도 원근법, 교합 및 조명에 대해 학습할 수 있다는 것을 발견했다. 이것은 놀라운 발견"이라고 강조했다.