MBC 노조(제3노조) 성명

"이 XX들이 승인 안 해주면 바이든은 쪽팔려서 어떡하나" (2022.09.22/MBC뉴스)2022. 9. 22.(사진=MBC뉴스 캡처)
"이 XX들이 승인 안 해주면 바이든은 쪽팔려서 어떡하나" (2022.09.22/MBC뉴스)2022. 9. 22.(사진=MBC뉴스 캡처)

윤석열 대통령의 외교순방 중 논란성 발언과 관련해 국민의힘이 국익이 걸린 중차대한 사안을 확인도 없이 ‘바이든’이라고 확정적으로 왜곡 보도한 'MBC 자막조작 국익훼손'으로 규정한 가운데, MBC 제3노조(이하 MBC노조)가 성명을 내고, MBC의 자체 뉴스 자막 생성 시스템에서도 해당 음성에 대해 ‘식별불가’판정이란 결과가 나왔다고 밝혔다.

MBC노조는 지난 2018년 MBC에선 뉴스영상서버 시스템인 마이다스(MIDAS)를 구축하면서, 서버에 등재된 뉴스용 영상의 음성을 자동으로 자막으로 만들어주는 기능을 도입해 기자들의 기사작성을 도와주고 있음을 지적하며, 논란이된 9월 22일 윤 대통령 발언촬영 송출분에 대해서도 당시에 해당 기능을 작동시켰던 것으로 확인됐다고 말했다.

그리고 송출분 중 논란이된 '00시 20분 27초'~'00시 20분 32초'까지 약 5초간의 음성에 대해 자막 자동 생성 기능(STT)을 적용시켰더니 '어떠한 정보도 없다'는 결과가 나왔다"며 반명 윤대통령의 연설내용에 대해서는 77~98%의 정확도를 보였다고 밝혔다. MBC노조는 이런 결과는 이상규 전 국립국어원장이 대통령의 비속어 사용 논란과 관련해 MBC의 자막처리가 잘못됐다고 주장한 사실과 같고 “과학적으로 분별성이 없는 음성을 자막보도에 의해 오염된 선입견을 따라 앞 다퉈 보도한 것이 이번 사태의 원인이라는 주장이 설득력을 얻고 있는 것”이라고 주장했다.

이하 MBC노조의 성명 전문.

[MBC노조성명]

MBC 뉴스 자막생성시스템도 ‘식별불가’ 판정

MBC는 지난 2018년 뉴스영상서버 시스템인 마이다스(MIDAS)를 구축하면서 서버에 등재된 뉴스용 촬영 영상의 음성을 자동으로 문자로 생성해주는 자막생성기능을 도입하여 기자들의 기사작성을 도와주고 있다.

이를 STT 즉 ‘Sound To Text’ 기능이라 하는데, 마이다스 시스템은 지난 9월 22일 뉴욕 글로벌 재정 펀드 행사를 촬영한 ‘58분 송출본’에 이 기능을 작동시켰던 것으로 확인됐다.

문제의 대통령 발언이 녹화되었던 ‘00시 20분 27초’~‘00시 20분 32초’까지 약 5초간의 음성에 대해 STT 기능을 작동시켰더니 “어떠한 정보도 없다”는 결과가 나왔다.

반면 글로벌 재정펀드 회의의 윤 대통령 공식연설이 담긴 동영상 부분에는 대통령의 연설 내용이 77%에서 98%의 정확도로 자막이 정확하게 생성되어 서비스되었다.

이 STT 기능의 정확성은 상당히 높은 수준이라, 당시 이 동영상을 촬영했던 카메라 기자가 동영상을 송출하는 과정에서 혼잣말로 발언했던 “저 매트릭스 조명이 어떤 여자 치마를 다 찢어버리고.. (00시 20분 56초~00시 21분 01초)”라는 음성은 73%의 정확도로 결과가 표시되어 있다.

이 내용을 다시 들어보았더니 “저 매트릭스 조명이 어떤 여자 치마를 다 찢어버릴 뻔했어”로 들렸다.

MBC가 구축한 자막 자동생성 프로그램조차 당시 윤석열 대통령 발언 녹음에 대해 인간의 언어로서 유의미한 음성이 아니라고 판단한 것이다.

이러한 결과는 이상규 전 국립국어원장이 윤 대통령의 ‘비속어 논란’을 보도한 언론사들을 비판하면서 MBC의 자막처리가 잘못됐다고 주장한 사실과 일맥상통한다.

이상규 전 원장은 “음성인식은 기계적 인식, 사람의 청취 인식, ‘네이버 클로바노트’와 같은 기계가 자동 인식하는 세 가지 방식이 있다”면서 “노이즈가 많은 음성에 대한 인식은 사람마다 달라질 수 있다”고 지적한 바 있다.

이 전 원장은 “(소리가) 아주 분명하지 않았을 때 자막을 달아 (인식을 수월하게) 하는데 제가 MBC에서 초대 우리말위원회 위원장을 지내며 당시 자막처리 기술을 향상하기 위한 연구 노력을 많이 했다”고 밝히고, “‘XX끼’라는 단어는 경음 ‘ㄲ’이 들어가 청취음성의 변별성이 매우 높을 뿐만 아니라 음성 파형 분석에서도 식별력이 매우 높다”면서 “서울대학교 성원용 명예교수는 음성파형 분석 권위자로 그 낱말이 들어 있지 않다고 분명히 밝혔고, 본인은 ‘방언 청취 전문가’로 트랜스크라이브로 음성 파형을 확대해서 구간 반복으로 청취해 봐도 성원용 교수의 의견과 동일하다“고 설명한 바 있다.

과학적으로 분별성이 없는 음성을 자막보도에 의해 오염된 선입견을 따라 언론사들이 앞다퉈 보도한 것이 이번 사태의 원인이라는 주장이 설득력을 얻고 있는 것이다.

2022.10.02.

MBC노동조합 (제3노조).

최대현 제작편집부장 dawit74@pennmike.com

이 기사가 마음에 드시나요? 좋은기사 원고료로 응원하세요
원고료로 응원하기
저작권자 © 펜앤드마이크 무단전재 및 재배포 금지