서울대학교 전기·정보공학부 한보형 교수가 과학기술정보통신부와 한국연구재단이 주관하는 '이달의 과학기술인상' 10월 수상자로 선정됐다.
한보형 교수는 추가 학습 없이 무한히 긴 영상을 생성하는 추론 알고리즘을 개발하는 등 컴퓨터 비전 분야에서 선도적인 연구를 수행해 우리나라 AI(인공지능) 기술의 세계적 위상을 높였다는 평가다.
최근 인공지능 연구에서 생성형 모델은 텍스트와 이미지, 오디오 등 다양한 영역에서 빠르게 발전해 왔으며, 그중에서도 영상 생성은 가장 고난도의 기술적 도전 과제로 주목받고 있다.
영상 생성에 널리 활용되고 있는 방식으로 '확산(diffusion)' 모델이 있다. 무작위 노이즈에서 시작해 점진적으로 노이즈를 제거해 고품질 이미지를 복원하는 방식이다.
그러나 확산 모델은 생성하는 영상 길이에 비례해 메모리 사용량이 기하급수적으로 증가해 산업적 활용은 물론, 학문적 연구에서도 한계가 있었다.
한보형 교수는 사전 학습된 확산 모델을 그대로 활용하면서도 사실상 무한히 긴 영상을 생성할 수 있는 피포 디퓨전(FIFO-Diffusion : First-In-First-Out)이라는 추론 알고리즘을 개발해 이 문제를 해결했다.
피포 디퓨전 핵심은 '대각선 디노이징(diagonal denoising)'으로 컨베이어 벨트처럼 순차적으로 프레임을 배치해 앞쪽부터 단계적으로 영상을 생성(노이즈를 제거)하는 방식이다.
이 방식은 비디오 길이가 늘어나더라도 메모리 사용량이 고정돼 기존 모델의 메모리 한계를 극복할 수 있다.
특히 한보형 교수는 장시간 영상에서도 높은 화질과 시간적 일관성까지 확보했다.
긴 시퀀스를 작은 구간으로 나눠 안정성을 높이는 '잠재 구간 분할(Latent Partitioning)'과 상대적으로 깨끗한 프레임을 활용해 품질을 개선하는 '미래 참조 디노이징(Lookahead Denoising)' 기법을 더한 결과다.
지난해 12월 한 교수 연구팀이 '신경정보처리시스템학회(NeurIPS)'에서 공개한 소스코드는 전 세계 연구자와 개발자들에게 활용되고 있다.
한보형 교수는 "기존 비디오 생성 모델이 가진 고정 길이 및 메모리 병목 문제를 새로운 추론 알고리즘으로 해결한 데 의의가 있다"고 설명했다.
이어 "앞으로 영화와 게임, 광고 등 다양한 응용 분야에서 콘텐츠 제작 비용 및 제작 시간을 획기적으로 단축할 수 있을 것"이라고 한 교수는 덧붙였다.
한편, 이달의 과학기술인상은 최근 3년간 독보적인 연구개발 성과를 창출해 과학기술 발전에 공헌한 연구개발자를 매달 1명씩 선정해 과기정통부 장관상과 상금 1천만 원을 수여하는 제도다.