청각장애인을 위한 영상 자막 기술 및 도구 정리

청각장애인을 위한 상용화된 음성-텍스트 전환 오류율 비교

anchanny 2025. 6. 25. 20:24

2025년 현재, 대한민국의 사업 현장은 이전과는 전혀 다른 언어 환경 속에서 움직이고 있다. 그 이유는 음성-텍스트 전환 기술(STT: Speech-To-Text)의 상용화가 본격화되었기 때문이다. 회의록 작성을 위한 녹취, 고객센터 상담 로그 분석, 유튜브 영상 자막 생성, 실시간 통역까지 음성 데이터를 텍스트로 전환하는 기술은 사업 전반에 깊숙이 침투하고 있는 핵심 자동화 도구로 자리잡았다.

과거에는 전문 속기사나 사내 오퍼레이터의 손에 의해 일일이 텍스트화되던 정보가, 이제는 AI 모델 기반 STT 엔진을 통해 실시간으로 변환된다. 특히 한국어의 경우 고유한 어순 구조와 종결어미, 존댓말 체계로 인해 STT 기술 개발이 늦춰졌지만, 2023년 이후 네이버, 카카오, KT, 구글, 아마존 등이 국내 언어 데이터 학습을 기반으로 STT 엔진을 상용화하면서 시장이 급속히 성장했다.

사업자가 회의를 끝내고 나면, 자동 생성된 회의록 초안이 메일로 도착하고, 고객과의 통화를 마치면 상담 로그가 자동으로 분류되고 분석되는 시대이다. 그만큼 STT의 정확도와 오류율은 곧바로 사업 운영의 효율성과 연결되는 실질적 지표가 된다.

 

사업 환경과 유사한 조건에서의 정확도 측정

음성-텍스트 전환(STT) 기술의 성능을 객관적으로 비교하기 위해서는, 단순한 기술 시연 수준이 아닌 현실 사업 환경에 최대한 가깝게 구성된 실험 설계가 필요하다. 따라서 이번 실험은 실제로 기업에서 자주 발생하는 업무 상황을 반영하여, 현장 중심의 시나리오 기반 실험 구조로 설계되었다.

먼저 실험 대상이 되는 음성 데이터는 크게 두 가지 유형으로 나누어 구성했다. 첫 번째는 정형화된 발표형 콘텐츠다. 이는 회의 중 사업계획을 보고하거나, 제품 설명을 공식적으로 발표하는 상황을 가정한 것으로, 정제된 문장과 구조화된 어휘가 사용된다. 두 번째는 비정형 실무 대화형 콘텐츠다. 실무자 간의 빠른 협의, 전화 상담, 고객 응대 상황을 기반으로 설계된 이 유형은, 실제 대화에서 발생하는 음성 겹침, 망설임, 반복, 불완전 문장 등 현실적 오류 요소를 반영한 자연어 데이터로 구성됐다.

또한 발화자의 스펙트럼도 중요하게 고려되었다. 동일한 문장을 3명의 발화자가 각각 읽었으며, 그 중 한 명은 표준 서울말, 한 명은 지방 억양이 섞인 발음, 나머지 한 명은 빠른 말투를 사용하는 경우로 구분했다. 이를 통해 단순히 ‘이상적인 음성’이 아니라, 실제 기업 내에서 존재할 수 있는 다양한 발화 환경을 반영하고자 했다. 마이크는 노트북 기본 내장형을 사용했으며, 별도의 스튜디오 환경이 아닌 일반 사무실 내에서 녹음이 진행되어 배경 소음을 일정 수준 포함시켰다.

실험 방식은 각각의 음성 파일을 STT 엔진에 입력하여 자막 또는 텍스트 형태로 실시간 변환되도록 하고, 이후 수작업으로 원문과 비교하여 정확도를 평가했다.

평가 기준은 총 4가지로 다음과 같다.

  1. 단어 정확도 (Word Accuracy Rate, WAR): 총 단어 중 올바르게 변환된 단어의 비율
  2. 문맥 일관성 (Contextual Coherence): 오인식 단어가 전체 문장의 의미를 왜곡했는지 여부
  3. 문장 단절 및 어미 오류율 (Sentence Boundary Misrecognition): 문장 끝맺음, 높임말, 조사 등 한국어 특유의 어미 표현이 올바르게 처리되었는지
  4. 전문 용어 인식률 (Terminology Accuracy): ‘ROI’, ‘B2B 플랫폼’, ‘이중인증’, ‘자동화 프로토콜’ 등 비즈니스 특화 단어의 처리율

특히 네 번째 기준은 기존 STT 평가에 잘 반영되지 않는 요소로, 사업 환경에서만 나타나는 고유한 언어 집합의 처리 능력을 검증하는 데 초점을 맞췄다. 이는 단순한 문자 전환 능력을 넘어, 실제 회의록 생성이나 고객상담 텍스트화에 적합한지를 가늠하는 핵심 지표로 작용한다.

정확도 수치는 기계가 아닌 사람에 의해 측정되었다. 각 STT 엔진의 결과물은 전문 속기사 출신 평가자 2명이 독립적으로 비교 분석하였으며, 평균치를 기준으로 오차를 보정하였다. 이는 AI 평가 결과의 신뢰성과 공정성을 확보하기 위한 조치였다. 모든 실험은 3회 반복 측정되었으며, 결과 값은 통계적으로 ±1.5% 오차 범위 내에서 수렴했다.

실험 환경도 중요했다. 인터넷 속도는 평균 300Mbps로 고정되었고, STT API 호출은 오전 10시~12시, 오후2시~4시 사이에 진행되어 트래픽에 따른 응답 속도 편차를 최소화하였다.
이는 많은 STT 엔진들이 API 응답 속도에 따라 일시적인 오류율 변화가 발생할 수 있기 때문에 시간대별 부하 차이를 고려한 실험 설계가 반드시 필요했기 때문이다.

마지막으로, 실험은 청각장애인을 포함한 자막 의존 사용자 그룹과 실무 담당자 그룹 모두에게 동일한 자막 결과를 제공하여, “이 자막만 보고 회의 내용을 요약할 수 있느냐”는 평가도 병행되었다. 이로써 STT 기술의 진짜 성능은 단순히 글자를 얼마나 정확히 옮기는가가 아니라, 의미 있는 정보로 얼마나 잘 해석되느냐에 있음을 실험을 통해 실증할 수 있었다.

2025년 청각장앤인을 위한 상용화된 음성-텍스트 전환 오류율 비교

 

국내 기술의 한계와 가능성(네이버·카카오·KT의 결과 분석)

 

국내 3대 기업이 제공하는 STT 기술은 각각 독자적인 데이터셋과 음성 알고리즘을 바탕으로 하고 있다.
먼저 네이버 CLOVA Speech는 전반적인 문장 완성도에서 가장 안정적인 결과를 보여주었다. 전체 단어 정확도는 91.2%, 구문 단절 오류는 1분당 평균 2회로 나타났고, “사업계획서” “ROI” “구매전환율” 등의 용어는 대부분 정확히 인식했다. 특히 CLOVA는 자사 검색엔진 및 블로그 학습 기반으로 한국어 특유의 종결어미 및 높임말 처리에 강점을 드러냈다.

카카오 음성 API는 전체 정확도에서는 88.7%로 나타났으나, 억양이 강한 발화자에 대한 인식률이 크게 하락하며 실시간 회의 환경에는 다소 약점을 보였다. 다만 카카오 STT는 대화 속 어조를 고려하여, 문장을 완결된 표현으로 다듬는 능력이 뛰어나, 상담 기록이나 고객 응대 후 텍스트 정리에 강한 성능을 나타냈다. 조사 오인식률이 높아 “고객이 불만을 제기했습니다”를 “고객이 불만을 제기했다”로 변환하는 오류가 다소 잦았다.

KT GiGA Genie STT는 통신 기반 기술력을 바탕으로 음질이 불안정한 상황에서도 일정한 인식률을 유지했으나, 전체 정확도는 85.4%로 나타났다. 특히 기술 용어 인식률은 72% 수준으로, 전문적인 사업 설명회에는 적합하지 않았다. 그러나 KT는 하드웨어 연동성이 좋아서 콜센터나 무선 환경 사업장에서는 실용성이 높다는 평가를 받았다.

 

구글과 아마존의 최신 성능 비교

구글 Speech-to-Text API는 기존 버전 대비 한국어 최적화가 크게 개선되었다. 전체 단어 정확도는 93.8%, 조사 및 어미 오류는 가장 낮은 수치를 기록했다. 특히 발음이 모호한 상황에서도 문맥 기반 보정 알고리즘을 통해 “사업제안서 제출 기한은 다음 주 화요일입니다”라는 문장을 완벽히 재현해냈다. 다만 약점은 한자어가 다수 포함된 기술 용어, 특히 “사업비 집행 절차” 같은 표현에서 가끔 “사업 비 집행 절차”로 분리 처리되는 오류가 발견되었다.

아마존 Transcribe는 2025년 1월 업데이트 이후, 한국어 인식률이 크게 향상되었으며, 특히 자연스러운 띄어쓰기와 문장 재구성 기능이 강점으로 작용했다. 예를 들어 빠르게 말한 “상반기실적보고는완료되었습니다” 문장을 “상반기 실적 보고는 완료되었습니다”로 자동 구분하는 능력을 보였다. 그러나 전체 정확도는 89.5%로 구글보다는 낮았고, 고유명사 처리에서는 상대적으로 약했다.

해외 기술은 사업 규모가 큰 기업에서 글로벌 회의나 영문 혼용 환경에서 유리하게 작용할 수 있으나, 일상 회의나 내수 중심 비즈니스에서는 여전히 일부 미세한 차이가 불편요소로 작용할 수 있다.

 

STT 기술이 사업 운영에 주는 실질적 의미와 선택 기준

2025년 현재, 사업자는 단순히 STT 기술을 “쓸 수 있는가”가 아니라, “정확하고 빠르게 실무에 적용할 수 있는가”를 기준으로 선택하게 된다. 특히 회의록 자동화, 실시간 상담분석, 영상 콘텐츠 자막 생성, 교육 콘텐츠 문서화 등 다양한 분야에서 음성-텍스트 전환 기술은 업무 자동화의 허리 역할을 수행하고 있다.

이번 실험에서 구글 API는 가장 높은 정확도와 일관성을 보여주었고, 네이버 CLOVA는 한국어 특화 환경에 적합했으며, 카카오는 비정형 대화 기록에 강한 편집형 STT로 구분되었다. KT는 음성 환경에 강한 안정성을 보였고, 아마존은 문장 구조 재구성이 우수하다는 특징을 나타냈다.

결국 어떤 STT 기술이 더 우수한가는 사업의 성격과 요구 환경에 따라 달라진다. 회의 위주의 텍스트 기록이 필요한 기업은 구글이나 네이버를, 고객 응대 기반의 빠른 상담 자동화가 필요한 조직은 카카오나 KT를, 콘텐츠 제작 중심의 기업은 아마존 Transcribe를 선택하는 것이 합리적이다.

STT 기술은 이제 단순한 인식률을 넘어서, 사업 모델의 신속성·정확성·효율성을 좌우하는 전략 도구로 자리잡고 있다. 기업이 이 기술을 어떻게 선택하고, 어떤 환경에 배치하는가에 따라 조직의 정보 처리 역량 전체가 달라지는 시대가 도래한 것이다.