블로그

Voice AI 모델 선택, 이제 “사람처럼 들리는가”를 측정해야 합니다

Voice AI 모델 선택, 이제 “사람처럼 들리는가”를 측정해야 합니다

보이스 AI 모델을 고를 때 대부분의 팀은 먼저 두 가지를 봅니다. 말을 정확히 읽는가, 그리고 얼마나 빨리 대답하는가. Vapi의 백서 *The Humanness Index™*는 여기에 세 번째 질문을 붙입니다. 고객이 듣기에 이 목소리가 사람처럼 느껴지는가?

이 질문은 단순한 취향 문제가 아닙니다. 실제 통화에서는 빠르고 정확한 음성도 상담원처럼 느껴지지 않으면 신뢰를 잃습니다. 고객은 WER이나 TTFB를 체감하지 않습니다. 대신 첫 문장의 호흡, 말끝의 온도, 끼어들기를 처리하는 타이밍, 잠깐의 침묵이 어색한지 여부로 “이 대화가 자연스러운가”를 판단합니다.

Vapi가 제기한 문제: 좋은 음성 모델의 3번째 축

백서는 음성 AI 모델의 품질을 세 축으로 나눕니다. 첫 번째는 Accuracy입니다. 입력 텍스트가 음성으로 얼마나 충실하게 구현되는지, 숫자나 이름이 틀리지 않는지, 문장이 누락되지 않는지를 보는 기준입니다. 두 번째는 Latency입니다. 사용자가 말을 마친 뒤 AI가 얼마나 빨리 반응하는지, 첫 음성이 나오기까지 시간이 얼마나 걸리는지를 봅니다.

세 번째가 Vapi가 강조하는 Humanness입니다. 음성이 자연스럽고 생생하며 실제 사람 말처럼 들리는 정도입니다. 기존 모델 선택에서는 이 세 번째 축이 가장 덜 측정됐지만, 고객-facing Voice AI에서는 오히려 가장 먼저 체감되는 품질일 수 있습니다.

Voice AI 모델 평가 3축
1. Accuracy  = 말한 내용이 맞는가
2. Latency   = 대화 리듬을 깨지 않을 만큼 빠른가
3. Humanness = 고객이 사람과 대화한다고 느끼는가

여기서 중요한 점은 세 축이 서로 대체되지 않는다는 것입니다. 정확도가 높아도 로봇처럼 들릴 수 있고, 빠르게 응답해도 감정 밀도가 어색할 수 있습니다. 반대로 아주 사람 같아도 지연시간이 길면 통화 흐름은 무너집니다. Vapi가 제안한 Humanness Index는 이 중 “사람 같음”을 독립된 평가 축으로 끌어올리려는 시도입니다.

기존 음성 벤치마크가 놓친 것

전통적인 TTS 평가는 MOS, 즉 Mean Opinion Score처럼 고립된 오디오 클립에 점수를 매기는 방식이 많았습니다. 이 방식은 음질 평가에는 쓸모가 있지만, 실제 대화형 Voice AI의 경험을 충분히 설명하지 못합니다. 통화는 정지된 샘플이 아니라 여러 턴으로 이어지는 상호작용이고, 고객은 음성만 듣는 것이 아니라 타이밍과 맥락까지 함께 듣습니다.

Vapi가 지적하는 한계는 크게 네 가지입니다.

  • 클립이 짧고 고립되어 실제 대화 맥락이 없다.
  • 평가가 끝날 때쯤 모델 버전이 이미 바뀌어 있을 수 있다.
  • 서로 다른 source voice를 쓰면 모델 차이와 입력 샘플 차이가 섞인다.
  • prosody, timing, tone을 각각 잘 측정해도 전체 인상은 설명되지 않을 수 있다.

이 마지막 지점이 특히 중요합니다. 사람은 목소리를 분석적으로 듣지 않습니다. 억양 20점, 호흡 30점, 감정 25점처럼 계산하지 않고, 몇 초 안에 “사람 같다” 또는 “AI 같다”를 판단합니다. 그래서 Vapi는 Humanness를 하위 요소의 합산 점수가 아니라 전체 인상에 대한 인간 판단으로 봅니다.

Humanness Index의 측정 방식

Humanness Index는 자동 점수를 만들기보다 사람에게 직접 묻습니다. 평가자는 두 개의 음성 샘플을 듣고 “Which voice sounds more human?”에 답합니다. 이 쌍대비교 결과를 모아 Bradley-Terry pairwise ranking model로 모델별 랭킹을 계산합니다.

백서가 설명한 통제 방식은 꽤 명확합니다. 실제 인간 음성 source clip을 가져오고, 각 provider의 voice cloning 기능으로 같은 클립을 재생성합니다. 그런 다음 같은 source voice, 같은 quote, 같은 audio filter를 유지한 상태에서 모델만 다르게 놓고 비교합니다.

평가 단위: 두 음성의 head-to-head 비교
질문: 어느 쪽이 더 사람처럼 들리는가?
통제 변수: same source voice / same quote / same audio filter
변수: TTS 또는 voice cloning model
집계: Bradley-Terry ranking → winning percentage

이 설계의 핵심은 “입력 샘플이 좋아서 더 자연스럽게 들린 것”과 “모델 자체가 더 자연스러운 것”을 분리하려는 데 있습니다. 백서 예시에서는 인간 baseline을 100으로 두고, 모델들은 78, 75, 66, 63처럼 상대 점수로 제시됩니다. 이 점수는 절대적인 자연스러움 지수가 아니라 현재 비교군 안에서의 상대적 승률에 가깝습니다.

Vapi는 왜 이 벤치마크를 만들고 싶어 할까

이 문서는 순수 연구 논문이라기보다 Vapi의 전략적 포지셔닝 문서로 읽는 편이 맞습니다. Vapi는 model-agnostic voice AI 플랫폼입니다. 여러 TTS provider를 한곳에서 연결하고, 개발자가 use case에 맞게 모델을 바꾸도록 돕습니다. 따라서 특정 모델 하나를 홍보하기보다 “어떤 모델을 언제 써야 하는가”를 판단하는 레이어가 되는 것이 Vapi에게 중요합니다.

백서가 강조한 Vapi의 규모 지표도 이 포지셔닝과 연결됩니다.

  • 1B+ calls supported
  • 99.9% uptime for enterprise clients
  • 2.5M+ agents launched
  • 750K+ developers
  • 본문에서는 over one million developers 표현도 사용

즉 Vapi의 메시지는 “우리는 여러 provider를 실제 프로덕션 맥락에서 관찰하는 플랫폼이므로, provider 자체 발표보다 더 현실적인 비교 기준을 만들 수 있다”에 가깝습니다. Humanness Index는 단순 벤치마크가 아니라 Vapi가 voice model selection layer가 되겠다는 선언입니다.

좋은 모델을 직접 만드는 회사가 아니라, 좋은 모델을 고르고 교체하고 운영하는 기준을 장악하는 회사가 되겠다는 움직임입니다.

점수보다 중요한 것은 사용 맥락입니다

백서는 Humanness를 무조건 최대화하라고 말하지 않습니다. 오히려 어느 상황에서 사람 같아야 하고, 어느 상황에서는 AI임이 명확해야 하는지를 구분해야 한다고 봅니다. 이 지점은 실제 도입 의사결정에서 중요합니다.

Vapi는 대략적인 기준을 제시합니다. 85% 이상은 엔터프라이즈 세일즈, 헬스케어 커뮤니케이션, 프리미엄 고객지원처럼 고객 신뢰가 중요한 상황에 적합합니다. 70~85%는 일반 고객지원과 outbound notification에 적합할 수 있습니다. 70% 미만은 내부 도구나 low-touch automation처럼 처리량과 비용이 더 중요한 업무에서는 허용될 수 있습니다.

하지만 의료, 금융, 법률처럼 고지와 책임이 중요한 산업에서는 이야기가 달라집니다. 너무 사람처럼 들리는 음성이 오히려 disclosure risk를 만들 수 있습니다. 그래서 BringTalk 관점에서는 Humanness와 함께 Disclosure Fit을 봐야 합니다. “얼마나 사람 같은가”만큼이나 “이 상황에서 사람처럼 들려도 되는가”가 중요합니다.

한국어 Voice AI에는 별도의 Humanness 기준이 필요합니다

Vapi의 백서는 글로벌 TTS 시장을 다루지만, 한국어 상담 음성은 별도 평가가 필요합니다. 영어권 naturalness가 좋다고 해서 한국어 상담 품질이 자동으로 좋아지는 것은 아닙니다. 한국어 통화에서는 존댓말, 말끝 처리, 맞장구, 호흡, 감정 과잉 여부가 훨씬 민감하게 작동합니다.

예를 들어 한국어 상담원 톤에서는 “네, 확인해보겠습니다”의 속도와 억양만으로도 고객이 안정감을 느끼거나 불편함을 느낄 수 있습니다. “제가 도와드릴게요”가 너무 자주 반복되면 친절이 아니라 AI 패턴처럼 들립니다. 숫자, 이름, 날짜를 읽는 방식도 자연스러움에 큰 영향을 줍니다.

BringTalk이 한국어 Humanness Eval을 만든다면 다음 요소를 별도 taxonomy로 관리해야 합니다.

  1. 존댓말 안정성 — 높임 표현이 상황에 맞게 유지되는가
  2. 말끝 자연스러움 — 문장 끝이 기계적으로 닫히지 않는가
  3. 맞장구 타이밍 — 고객 말을 끊지 않고 적절히 반응하는가
  4. 과친절/감정 과잉 — 상담 톤이 부담스럽게 과장되지 않는가
  5. AI 티 패턴 — 반복 연결어, 템플릿 문장, 부자연스러운 사과가 반복되지 않는가
  6. 업종별 disclosure fit — 사람 같아야 하는 구간과 AI임을 밝혀야 하는 구간이 구분되는가

BringTalk 모델 선정표는 4축이 되어야 합니다

이 백서를 BringTalk 운영에 적용하면 모델 선정표는 세 축이 아니라 네 축으로 정리하는 편이 좋습니다. Accuracy, Latency, Humanness에 더해 Disclosure Fit을 독립 항목으로 둬야 합니다.

BringTalk Voice AI Model Scorecard
- Accuracy: 발음, 숫자, 이름, 문장 누락, STT/TTS 왜곡
- Latency: 첫 응답, turn-taking, barge-in, 침묵 복구
- Humanness: 호흡, 억양, 감정 밀도, 상담원 같은 자연스러움
- Disclosure Fit: 업종·업무별 AI 고지 적합성

이 4축은 단순 평가표가 아니라 운영 루프가 될 수 있습니다. 모델 업데이트가 있을 때마다 같은 상담 스크립트를 여러 모델로 생성하고, 사람의 쌍대비교로 Humanness regression을 확인합니다. 이후 LQA/FUA 결과와 연결해 어느 목소리가 실제 통화 완료율, 상담원 전환율, 고객 이탈 구간에 영향을 주는지 볼 수 있습니다.

이렇게 되면 “듣기 좋은 목소리”라는 막연한 표현이 운영 지표로 바뀝니다. Voice AI 품질관리에서 가장 위험한 것은 평균이 아니라 분산입니다. 어떤 통화에서는 자연스럽고 어떤 통화에서는 갑자기 AI처럼 느껴진다면 고객 경험은 안정되지 않습니다. Humanness Eval은 이 분산을 줄이는 품질 게이트가 될 수 있습니다.

결론: Humanness는 브랜드 경험의 품질 지표입니다

Vapi의 Humanness Index는 Voice AI 업계가 “정확도와 속도” 이후로 무엇을 봐야 하는지 보여주는 문서입니다. 특히 고객-facing agent에서는 목소리의 인간다움이 단순 UI 요소가 아니라 신뢰, 전환, 이탈, 규제 리스크와 연결됩니다.

BringTalk 입장에서는 이 백서를 외부 벤치마크로만 볼 필요가 없습니다. 오히려 한국어 Voice AI 상담 품질을 평가하는 내부 운영 프레임으로 가져올 수 있습니다. 같은 스크립트, 같은 상황, 다른 모델을 비교하고, 사람이 직접 “더 상담원처럼 들리는 쪽”을 고르게 하는 방식입니다.

그 결과는 모델 선택뿐 아니라 프롬프트, disclosure, LQA/FUA, 고객 응대 playbook까지 연결될 수 있습니다. 결국 Voice AI의 경쟁력은 가장 화려한 데모 음성이 아니라, 실제 고객이 전화를 끊을 때 “대화가 자연스러웠다”고 느끼는 일관성에서 나옵니다.

핵심 지표: Accuracy / Latency / Humanness / Disclosure Fit.
Voice AI 모델 선택은 이제 “빠르고 정확한가”에서 “고객이 신뢰할 수 있는 대화로 느끼는가”로 이동하고 있습니다.

음성 AI 운영의 다음 한 걸음

BringTalk이 실제 운영에 어떻게 들어가는지 1주일 안에 보여드립니다.