지난 10월 25일 부산에서 발생해 전국으로 확산된 KT의 네트워크 장애는 이 회사가 공공재인 국가네트워크 관리에 얼마나 무능력하고 무성의한지를 그대로 보여줬다.
사고의 직접 원인은 KT협력회사 직원의 단순한 실수였다. 하지만 이 단순한 실수 뒤에는 KT의 통신망에 대한 관리부재가 도사리고 있었다.
가장 이해하기 힘든 건 라우터 교체공사를 밤에 하라는 지시가 내려갔는데 왜 낮에 했는가 라는 점이다.
과학기술정보통신부 조사에 따르면, KT 네트워크관제센터는 야간작업(01시~06시)을 승인했다. 그러나 이를 무시한 채 작업은 주간시간대에 강행됐다. 이 과정에서 장애가 발생했다. 그 때는 전 국민이 활동하는 시간대여서 사고피해의 여파가 더욱 커졌다.
작업 명령을 어긴 이유도 납득하기 어렵다. 과기부 관계자는 "야간작업을 좋아하는 사람이 없기 때문에 주간작업을 했던 것으로 파악을 했다"고 설명했다.
더욱 심각한 문제는 공사현장에 KT 본사 직원은 단 한 명도 없었다는 점이다. 과기부는 "작업 관리자 없이 KT 협력업체 직원들인 작업자들끼리만 라우팅 작업을 수행하는 등 작업오류를 방지하기 위한 작업관리체계가 부실했으며, 네트워크가 연결된 채로 작업이 이뤄진 것으로 확인했다"고 밝혔다. 현장관리자는 다른 업무를 보느라 자리를 비운 것으로 드러났다.
과기부 홍진배 정보네트워크 정책관은 "교체 대상인 라우터가 있던 곳은 C급 부산국사였고, 그것을 A급 시설인 부산통신센터에서 원격으로 작업하다가 발생한 것"이라며 "시설이 A급이냐, C급이냐를 떠나서 지금 한 행태, 원격으로 작업을 진행하고, 협력사 직원이 관리자 없이, 주간에 네트워크를 연결해서 한 행태, 그것은 모두 적정하지 않다"고 말했다.
기술적 문제점도 한두 가지가 아니다.
이번 사고의 직접 원인은 라우팅 작업계획서상의 라우팅 설정 명령어 스크립트에서 IS-IS 프로토콜을 종료하는 'exit' 명령어가 누락된 것이다. 시스템이 제대로 갖춰져 있었다면 스크립트를 작성할 때나 사전 검증 과정에서 발견돼야 한다. 결과적으로 날림 검증이 이뤄져 찾지 못했고 사고로 이어졌다.
사고조사반은 "1, 2차에 걸친 사전검증 단계가 존재했으나, 사람이 직접 검토하는 체계이기 때문에 오류를 발견하지 못했다"고 설명했다. 홍진배 네트워크 정책관은 "기본적으로 그 스크립트 작성이나 이런 것들은 협력업체와 KT 직원들이 같이 하는 것이고 검토는 당연히 KT 직원들이 1차·2차 진행했는데, 거기서 발견하지 못한 것으로 파악하고 있다"고 밝혔다. 엉성하게 검토했다는 것이다.
여기에 네트워크가 연결된 채 작업이 이뤄져 피해가 더 컸다.
이처럼 통신망 관리가 엉망이다 보니 제2, 제3의 사고발생 시 통신대란으로 이어질 가능성이 상존한다는 지적이 나온다.
사고의 확산을 차단할 시스템이 없다는 점은 통신장애가 전국으로 확산되는 걸 막을 수 없게 되는 이유다. 시뮬레이터 같은 오류확인 장치도 전무하다. 통신망 장애 발생시 사람이 직접 확인해야 하기 때문에 실시간 오류 확인은 불가능하다.
조경식 과기부 2차관은 "네트워크가 연결된 채로 라우팅 작업을 진행하는 등 관리적 측면에 문제점이 있었고, 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템도 갖추지 않았다"고 지적했다.
하지만 이같은 치명적 실수와 부실한 업무처리에도 불구하고 제재의 방법은 없다고 과기부는 설명했다. 과기부 관계자는 "이런 장애로 인해 업체(KT) 스스로 피해를 일으켰을 때 그것에 대해서 제재를 가하는 것은 법령을 살펴봤는데, 법적으로 그 근거가 없는 것으로 파악하고 있다"고 말했다.