학생들의 필체와 답안 배치가 제각각인 수학 주관식 답안을 채점해주는 AI선생님이 나왔다.
UNIST(울산과학기술원) 인공지능대학원 김태환 교수와 POSTECH(포항공과대학교) 고성안 교수팀은 AI 모델 '베미(VEHME, Vision-Language Model for Evaluating Handwritten Mathematics Expressions)'를 개발했다고 17일 밝혔다.
베미는 마치 사람이 수학 문제 풀이의 흐름을 따라가는 것처럼 수식 위치와 문맥을 정확히 읽고 틀린 풀이를 짚어낼 수 있다.
실제 베미로 미적분부터 초등학교 산수 수준의 다양한 수학 문제 풀이를 채점해봤다.
경량 모델임에도 불구하고 거대 모델인 'GPT-4o', 제미나이 2.0 Flash와 대등한 채점 정확도를 보였다.
특히 답안이 심하게 회전되어 있거나 글씨가 엉망인 고난도 평가에서는 베미가 오히려 상용 모델들을 제치고 더 정확하게 오류 위치를 찾아냈다.
연구팀은 수식 인식 시각 프롬프트(EVPM)라는 자체 개발 기술과 '이중 학습 기법'을 이용해 베미를 만들었다.
EVPM은 베미가 복잡하게 나열된 수식들에 가상의 박스를 쳐서 풀이 순서를 놓치지 않게 한다.
2단계 강화학습도 가능했다.
단순히 정답을 맞혔는지 알아내는 것을 비롯해 풀이 과정 중 어느 부분이 왜 틀렸는지까지 설명이 가능하다.
또 AI가 학습할 수 있는 정교한 손글씨와 첨삭 데이터가 많지 않았기 때문에 거대 언어 모델(QwQ-32B)로 합성 데이터를 만들어 활용했다.
김태환 교수는 "베미는 복잡한 풀이 구조를 사람처럼 단계별로 따라가며 판단하는 모델로, 실제 교육 현장에서 활용할 수 있을 정도의 안정성과 효율성을 확보한 것에 큰 의미가 있다"고 했다.
이어 "자체 개발한 EVPM 모듈은 복잡하게 배열된 시각 정보를 자동으로 구조화할 수 있게 해 문서 인식과 설계 도면 분석, 수기 기록물 디지털화 등 다양한 산업 분야에서 쓸 수 있을 것"이라고 덧붙였다.
베미는 오픈 소스 모델로 만들어져 학교나 학원 같은 교육 기관에서 무료로 쓸 수 있다.
연구 결과는 자연어처리(NLP) 분야 대표 국제학회인 'EMNLP(Empirical Methods in Natural Language Processing)'의 정식 논문으로 채택됐다.