청각장애인을 위한 영상 자막 기술 및 도구 정리

청각장애인이 ZOOM 회의에서 자막 오류를 해결한 사례

알찬찬 2025. 7. 17. 10:08

팬데믹 이후 ZOOM 플랫폼을 활용한 원격 회의가 일상이 되면서  청각장애인 김상훈 씨는 IT 컨설팅 회사를 운영하면서 다양한 외부 미팅과 클라이언트 협업을 진행하고 있습니다.  어느 날 진행된 대규모 프로젝트 킥오프 회의에서 자막 시스템이 심각한 오류를 일으키는 상황이 발생하였습니다. 화면에는 자막이 부분적으로 출력되거나 완전히 멈추는 현상이 반복되었고 결과적으로 그는 회의의 절반 이상을 이해하지 못한 채로 회의에서 소외되는 경험을 하게 되었습니다.

영어 기반 회의였기에 ZOOM의 내장 자동 자막 기능을 사용하고 있었지만 이 기능이 네트워크 상태나 음성 인식 서버 문제에 따라 불안정하다는 사실을 당시에는 몰랐습니다. 또한 말하는 사람이 마이크를 멀리 두거나 발음이 명확하지 않으면 자막이 부정확하거나 생략되는 경우도 많았습니다. 이러한 장애는 단순한 불편이 아니라 그가 주요 업무에서 배제되고 협업의 기회를 상실할 수 있는 중대한 문제였습니다. 이 경험은 김 씨가 자막 오류 해결 방안을 적극적으로 모색하게 된 계기가 되었습니다.

 

 

 ZOOM 자막 오류의 원인 분석과 시스템 한계 파악

김 씨는 이후 회의 영상 녹화를 반복해서 보며 자막 오류의 근본적인 원인을 파악하기 시작했습니다. 첫째, ZOOM 자체의 자동 자막 기능은 Google Speech-to-Text API나 Whisper와 같은 오픈소스 음성 인식 기술에 비해 정확도가 낮은 경우가 많았습니다. 특히, 회의 참가자들이 동시에 말하거나 음성 입력이 불분명할 경우 자막이 누락되거나 왜곡되는 문제가 빈번했습니다. 둘째, 회의 진행 중 사용하는 네트워크 환경에 따라 자막 출력이 지연되거나 멈추는 문제가 나타났습니다. 특히 김 씨는 공용 와이파이를 사용하는 장소에서 접속했을 때 이러한 현상이 두드러졌다는 점을 발견하였습니다.

이외에도 ZOOM이 기본 제공하는 자막은 사용자가 임의로 수정하거나 오류를 실시간으로 조정할 수 없는 구조였기 때문에, 일단 오류가 발생하면 실시간으로는 대처할 수 없다는 점도 한계로 작용했습니다. 이러한 시스템적 한계를 파악한 김 씨는 단순히 플랫폼에 의존하기보다는 대체 수단을 마련하는 것이 필요하다고 판단하였고 외부 자막 연동 솔루션을 적극적으로 검토하게 됩니다. 그 과정에서 그는 다양한 클라우드 기반의 자막 API 서비스와, OBS와 같은 방송 소프트웨어와 연동 가능한 자막 플러그인까지 폭넓게 탐색하였습니다.

 

 

 외부 자막 시스템 도입과 실시간 자막 협업 방식 전환

김상훈 씨는 반복되는 자막 오류 문제를 단순히 플랫폼의 한계로 넘기지 않고, 적극적인 문제 해결을 위해 외부 솔루션을 도입하기로 결심했습니다. 우선 그는 자막 기능이 내장된 다양한 회의 플랫폼을 비교 분석했습니다. Microsoft Teams, Google Meet, Webex 등 각각의 자막 정확도와 반응 속도, 언어 지원 범위 등을 시험해본 결과, 특정 조건에서는 ZOOM보다 안정적인 자막 품질을 제공하는 사례도 있었지만, 정작 대부분의 협업 파트너들은 여전히 ZOOM을 표준으로 사용하고 있다는 점에서 다른 플랫폼으로 완전히 전환하는 것은 현실적으로 어려운 선택이었습니다.

이에 따라 그는 ZOOM을 유지하면서도 외부 자막 시스템을 병행하는 방식을 모색하게 되었습니다. 가장 먼저 테스트한 도구는 ‘Web Captioner’라는 브라우저 기반의 무료 자막 프로그램이었습니다. 이 도구는 Chrome 브라우저 상에서 구동되며, 사용자가 자신의 마이크나 시스템 사운드를 통해 전달된 음성을 자동으로 텍스트로 변환해주는 기능을 갖추고 있습니다. 김 씨는 ZOOM 회의 음성을 Web Captioner에 전달하기 위해 VB-Audio Cable과 같은 가상 오디오 루프백 장치를 설정하여 ZOOM에서 재생되는 음성을 Web Captioner로 직접 전달했습니다. 이 방식은 생각보다 손쉬웠고, 자막 정확도도 ZOOM 기본 기능보다 상당히 높다는 점에서 만족스러웠습니다.

하지만 또 다른 과제가 기다리고 있었습니다. Web Captioner가 출력하는 자막은 브라우저 창에 따로 표시되므로, ZOOM 화면과 자막을 동시에 보려면 화면 배치에 대한 고민이 필요했습니다. 노트북 사용자들에게는 이중 화면 분할이 어려웠기 때문에, 그는 추가로 OBS(Open Broadcaster Software)를 활용해 ZOOM 회의 화면과 Web Captioner 자막을 하나의 통합된 영상으로 출력하는 방식을 개발하였습니다. OBS에 ZOOM 창을 캡처 소스로 설정하고, 자막 브라우저 창을 투명 배경으로 오버레이하여 통합 화면을 구성한 것입니다. 이 방식은 단순히 청각장애인 본인만을 위한 것이 아니라, 회의에 참석하는 다른 참가자들이 자막과 함께 발표를 볼 수 있도록 지원하는 새로운 회의 인터페이스로 자리 잡게 되었습니다.

기술적 해결책 외에도, 김 씨는 사람이 함께하는 보완적 시스템의 필요성을 절감하였습니다. 아무리 자동 자막 기술이 발전했더라도, 기술만으로 놓치는 정보가 있기 때문입니다. 그래서 그는 '자막 도우미'라는 개념을 새롭게 도입하였습니다. 이 역할은 회의 전 사전 자료를 읽고 회의에서 나올 것으로 예상되는 전문 용어와 고유 명사를 미리 정리한 후, 회의 중에 실시간 자막 내용이 누락되거나 잘못 표기되었을 때 즉시 타이핑하거나 메신저로 전달하여 보완하는 방식으로 진행되었습니다. 이 도우미는 회의 참여자 중 한 명이 담당하거나, 중요한 회의에서는 별도로 배정된 인원이 맡았습니다. 특히 다국적 기업과의 영어 회의에서는 이 방식이 매우 유효하게 작동하였고, 자동 자막이 번역하지 못하는 문맥이나 비언어적 의미까지 함께 보완해줄 수 있었습니다.

자막 도우미와의 협업은 단순히 실시간 자막 오류를 수정하는 데에만 그치지 않았습니다. 회의가 끝난 후 김 씨는 자막 로그를 도우미와 함께 검토하며 잘못 기록된 내용이나 미처 인지하지 못했던 중요한 발언들을 재정리했고, 이를 회의록 작성에 반영하였습니다. 이러한 구조화된 리뷰 과정은 회의 내용을 더 정확히 파악하고, 이후 후속 조치나 업무 연계에서 실수를 줄이는 데에도 기여했습니다.

또한 그는 이 방식이 특정 개인에게만 국한된 시스템이 아닌, 회사 전체가 포용적으로 접근할 수 있는 방식이라는 점에서 조직 내 공유를 추진하였습니다. 다양한 배경을 가진 동료들, 예를 들어 영어가 모국어가 아닌 직원들, 조용한 환경에서 회의 참여가 어려운 직원들, 그리고 정보 처리 속도가 상대적으로 느린 신입 사원들까지 이 자막 협업 시스템의 도움을 받게 되었습니다. 이는 자막의 필요성이 단순히 장애인만을 위한 것이 아니라, 모두를 위한 접근성 기술이라는 인식 전환을 불러왔고, 결과적으로 김 씨의 회사는 자막 시스템을 전사적 디지털 협업 체계에 통합하기에 이르렀습니다.

이처럼, 외부 자막 시스템의 도입은 단순히 한 개인의 문제 해결을 넘어서서, 조직의 협업 문화를 더 포용적이고 정교하게 변화시키는 계기가 되었습니다. 기술과 사람의 결합이 만든 이 시스템은 이후 다른 팀, 외부 협력사, 공공기관과의 회의에서도 자연스럽게 채택되었고, 이 모델을 벤치마킹하려는 다른 기업들의 문의도 이어졌습니다.

 

청각장애인이 ZOOM 회의에서 자막 오류를 해결한 사례

 

 기술과 사람이 함께 만든 포용적 화상회의 모델

김 씨의 경험은 단순히 개인의 불편을 해결한 차원을 넘어서, 청각장애인을 포함한 모든 사용자가 참여할 수 있는 포용적 회의 시스템의 가능성을 제시합니다. 그는 이후 자신이 도입한 자막 솔루션과 도우미 모델을 사내 전 직원에게 공유하고, 다양한 배경의 팀원들이 동일한 방식으로 회의에 접근할 수 있도록 표준 가이드라인을 제작하였습니다. 또한, 협력사에게도 해당 방식의 효과를 소개하며, 기술 기반의 접근성과 인간 중심의 협업이 결합된 새로운 회의 문화를 제안하였습니다.

그 결과, 김 씨가 속한 조직은 '청각장애인의 접근성 개선을 위한 내부 우수사례'로 외부 기관에 소개되었고, 그는 ZOOM을 비롯한 타 플랫폼 사용자 커뮤니티에서도 관련 솔루션을 소개하는 강연을 이어가게 되었습니다. 기술만으로는 완전한 해결이 불가능하다는 것을 깨달은 그는, 기술과 사람이 조화를 이루는 접근 방식만이 실질적인 포용성을 구현할 수 있다고 강조합니다. 이 사례는 단지 한 명의 청각장애인이 회의에서 소외되지 않기 위한 노력에 그치지 않고, 전체 회의 문화의 질을 높이는 데 기여한 모범적 모델로 평가받고 있습니다.