미국 펜실베니아대학 콘라드 코딩 교수와 시러큐스대학 다니엘 아쿠나 교수, 로체스터대학 폴 브룩스 교수가 최근 생물학 아카이브 BioRxiv에 게재한 공동 연구 논문에 따르면, 논문 내용을 비교 분석하는 방식으로 논문 표절 여부를 가려내는 인공지능 알고리즘을 개발했다. 첨부된 이미지가 자르기 또는 회전시키는 방법으로 조작했는지도 구분할 수 있다.
7만 6000건의 공개 논문과 200만건의 이미지로 구성된 데이터 세트를 기반으로 개발된 알고리즘은 이미지의 회전, 자르기, 크기 조정, 대비 변경 여부와 수치를 재사용 했는지를 감지하고, 재사용이 어떤 생물학적 특성을 갖는지 추정한다. 이어서 3인으로 구성된 패널이 생물학적 결과의 특성에 따라 캡션이나 본문과 같은 상황별 정보에 어떤 문제가 있는지 분석한다.
연구팀은 알고리즘과 패널의 최종 분석 결과 입력된 전체 논문의 약 0.6%가 완전한 사기 논문으로 판별됐으며, 부적절한 표절은 본문 기사를 포함한 논문 전반에서 43%, 논문 기사에서 28%, 수치에서 29%로 나타났다고 설명했다.
공동저자인 아쿠나 교수는 논문에서 "연구자들이 많은 시간과 노력을 쏟아부어야 하거나 연구 실패를 두려워해 종종 다른 연구자의 논문을 표절하는 경우가 있다"며 "이로인해 과학적 프로세스가 붕괴되고 연구자들에 대한 신뢰가 바닥에 떨어지고 있다"고 지적했다.
코딩 교수는 "많은 과학 저널들이 벌이고 있는 표절과의 전쟁에 이 알고리즘을 보급 할 뜻이 있다"며 "조만간 자동화된 알고리즘이 나올 것"이라고 밝혔다.
전문가들은 논문 표절을 심사하는데 수 주에서 수개월이 걸리는 시간도 몇시간으로 단축돼 인공지능과 딥러닝 활용이 확대될 것으로 기대했다.