영상회의는 이제 단순한 화상통화를 넘어, 업무, 수업, 상담, 협업의 핵심 수단으로 자리 잡았다. 특히 청각장애인이나 외국어 화자, 혹은 소음이 많은 환경에서 근무하는 이들에게 있어 영상회의의 실시간 자막 기능은 단순한 보조기능이 아니라 필수 요소가 되었다. 실시간 자막이란, 영상회의 중 발화자의 음성을 자동으로 텍스트로 변환하여 화면 하단에 띄우는 기술이다. 이 기능은 이해도를 높이고, 회의 내용을 문서화할 수 있는 기반까지 제공한다.
2025년 현재, 시장을 대표하는 두 영상회의 플랫폼인 ZOOM과 구글 Meet은 모두 자사의 영상회의 시스템에 AI 기반 실시간 자막 기능을 탑재하고 있다. 그러나 사용자 사이에서는 자막의 정확도, 반응 속도, 한글 최적화 정도에 대한 의견이 엇갈리는 경우가 많다. 실무에선 미세한 차이가 커뮤니케이션의 질에 큰 영향을 주기 때문에, 두 플랫폼의 실시간 자막 기능을 동일한 조건 하에 비교 실험하여 데이터를 수집하고 분석하는 것은 큰 의미가 있다.
이번 실험은 일반 사용자의 관점이 아니라, 청각장애인을 포함한 자막 의존 사용자 기준에서 실효성과 실사용성을 평가했다. 영상회의 플랫폼은 누구에게나 동일하게 제공되지만, 자막을 의존해야 하는 사람에게는 그 질과 정확성이 회의 참여 자체의 여부를 결정하는 핵심 요소가 되기 때문이다.
영상회의 실험 설계 공정하고 실질적인 비교를 위한 기준 설정
실시간 자막의 비교를 위한 실험은 다음의 기준으로 설계되었다. 첫째, 동일한 환경에서 자막 생성이 진행되도록 하기 위해 하드웨어(노트북 및 마이크), 회의 장소, 인터넷 속도를 통일했다. 둘째, 두 플랫폼의 자막 기능을 모두 기본 설정으로 작동시키되, 언어 설정은 한국어로 고정하고, 발화자의 말투와 속도도 최대한 유사하게 유지했다.
실험은 두 가지 방식으로 진행되었다. 하나는 스크립트를 기반으로 한 발화자 낭독 실험이며, 다른 하나는 실제 즉흥 대화 기반 회의 시뮬레이션이다. 스크립트 실험에서는 약 3분 분량의 표준 뉴스 기사 원고를 사용해 발화자가 읽었고, 즉흥 대화 실험에서는 두 사람이 자유로운 대화를 5분간 이어갔다. 자막은 각각의 플랫폼에서 실시간으로 생성된 것을 화면 녹화 후 별도로 추출했다.
자막 정확도 평가의 기준은 다음과 같다.
① 어휘 정확도: 발화한 단어가 자막에서 정확히 재현되었는가.
② 문맥 일관성: 자막이 전체 문맥 속에서 자연스럽게 이해되는가.
③ 오탈자/왜곡 표현 여부: 말 실수나 속도에 따라 자막이 의미를 왜곡했는가.
이런 기준은 특히 청각장애 사용자가 회의 내용을 정확히 인지하고 이해하는 데 있어 결정적인 역할을 한다. 실험자는 실제 청각장애인이었으며, 자막만을 기반으로 회의 내용을 요약하게 하여 자막의 실질적 정보전달력까지 측정하였다.
ZOOM 영상회의 자막 기능의 실험 결과 분석
ZOOM의 실시간 자막 기능은 2022년부터 기본으로 제공되기 시작했으며, 2024년 이후에는 상당히 고도화된 형태로 개선되었다. 실험 결과에 따르면, 스크립트 낭독 실험에서 ZOOM의 자막 정확도는 평균 86%로 측정되었다. 명확한 발음과 천천히 읽는 속도에서는 단어를 거의 완벽하게 자막으로 변환했으며, 쉼표 단위의 문장 분리도 잘 반영되었다.
그러나 즉흥 대화 실험에서는 정확도가 72%로 하락했다. 특히, 말이 겹치는 경우나 발화 속도가 급격히 변하는 상황에서는 자막이 생략되거나 왜곡되는 경우가 많았다. 또한, ZOOM은 자막이 화면에 표시되는 시간 차(지연 시간)가 평균 1.3초 정도 발생했으며, 이는 화자와 자막 간의 불일치를 느끼게 했다.
청각장애 사용자 평가 결과, ZOOM 자막은 전체적인 전달력은 ‘보통’으로 평가되었지만, 주제나 논지 파악에는 어려움이 있다는 의견이 있었다. 예를 들어 “기술적 과제가 남아있다”는 문장이 “기술 과자 남아 있다”로 출력되는 등의 사례가 발생했기 때문이다. ZOOM의 장점은 문장 구조가 단순한 상황에서는 안정적이라는 점이지만, 복잡한 대화나 비표준어가 섞일 경우에는 실제 회의 이해에 제약이 생긴다는 점이 단점으로 나타났다.
구글 Meet 영상회의 자막 기능의 실험 결과 분석
구글 Meet의 자막 기능은 구글의 AI 음성인식 기술(STT)을 직접 사용하기 때문에 기대 수준이 높았다. 실험 결과, 스크립트 낭독 상황에서의 정확도는 평균 91%, 즉흥 대화에서는 84%의 정확도를 기록했다. ZOOM보다 전반적으로 높은 수치를 보였으며, 특히 명사와 동사의 식별 정확도에서 우위를 점했다.
자막 출력 속도도 평균 0.8초 내외로 지연이 거의 느껴지지 않았고, 자막의 문장 흐름도 자연스러웠다. 예를 들어 “정책은 지속가능성을 기반으로 설계되어야 한다”라는 문장은 거의 동일하게 출력되었으며, 쉼표 처리나 문장 마침 처리도 부드러웠다.
다만 단점도 존재했다. 구글 Meet은 일부 발화자의 억양이나 방언, 부정확한 발음에 대한 반응이 둔감하여 오인식되는 경우가 있었으며, 특히 “되겠습니다” 같은 종결어미를 “되겠습다”로 출력하는 소소한 오류가 반복되었다.
청각장애 사용자는 구글 Meet의 자막 기능에 대해 “전체 회의의 구조와 의도를 파악하는 데 어려움이 없었다”고 평가했다. 특히 대화 내용에 기반한 회의 요약 작성 결과에서도 구글 Meet 사용자가 ZOOM보다 평균 24% 더 많은 정보 요소를 정확히 파악하는 것으로 나타났다.
이러한 결과는 영상회의 플랫폼의 핵심 기능으로 자막이 작동하고 있으며, 그 품질 차이가 실제 회의의 이해도와 직접적으로 연결된다는 사실을 입증했다.
영상회의 자막 기술의 현재와 앞으로의 과제
이번 실험을 통해 영상회의 플랫폼의 자막 기능은 이제 단순한 부가 기능이 아니라, 정보 접근성, 협업 효율, 포용적 환경 조성을 위한 핵심 요소라는 사실이 확인되었다. 구글 Meet은 자막의 정확도와 반응 속도에서 ZOOM보다 앞섰고, 특히 즉흥 대화나 복잡한 문장을 처리하는 능력에서 우위를 점했다. 반면 ZOOM은 비교적 단순한 환경이나 안정적인 대화에서는 무난한 성능을 발휘했지만, 실제 회의 상황에서는 정확도 저하가 두드러졌다.
청각장애 사용자 입장에서는 자막의 질이 회의 참여의 핵심 기준이 되며, 영상회의란 단어 자체가 ‘자막 포함 회의’라는 개념으로 인식되고 있다. 따라서 향후 플랫폼은 자막 기능의 고도화는 물론, 사용자가 선택할 수 있는 자막 스타일, 배경색, 폰트 크기 조절 등의 UI/UX 측면 개선도 병행해야 한다.
또한 이번 실험은 단순히 기술 비교에 그치지 않고, 청각장애인뿐 아니라 소음 환경, 외국어 회의, 다문화 커뮤니케이션 등 다양한 사용자 층에도 실시간 자막이 필수화되고 있다는 흐름을 보여준다. 플랫폼 간 경쟁은 단지 기능 차원이 아니라, 포용성과 연결의 기술을 누가 더 잘 구현하느냐의 경쟁으로 확장되고 있다.
결론적으로 영상회의에서 자막 기술은 미래의 선택이 아닌 현재의 기준이다. 향후 ZOOM과 구글 Meet는 기술적 정교함을 넘어서, 누구나 이해하고 참여할 수 있는 회의 환경을 얼마나 효율적으로 제공할 수 있는지가 진정한 경쟁력이 될 것이다.
'청각장애인을 위한 영상 자막 기술 및 도구 정리' 카테고리의 다른 글
청각장애인을 위한 자동 자막 편집툴 UX 분석 (0) | 2025.06.26 |
---|---|
청각장애인 AI 기반 실시간 자막과 사람 자막 기사의 정확도 차이 (0) | 2025.06.26 |
스마트폰 내장 자막 기능이 청각장애인 교육에 끼친 변화 (0) | 2025.06.26 |
청각장애인을 위한 상용화된 음성-텍스트 전환 오류율 비교 (0) | 2025.06.25 |
AI 실시간 자막 기술이 청각장애인에게 미치는 영향 (0) | 2025.06.25 |