
Неочевидные проблемы в Text‑to‑Speech, о которых редко говорят
tomattopizza 40 минут назад Неочевидные проблемы в Text‑to‑Speech, о которых редко говорят Средний 5 мин 1.3K Машинное обучение * Звук Обзор Из песочницы Когда приходишь в Text‑to‑Speech из классического ML (или даже из...
Anthropic — What company has the best second artificial intelligence model at the end of June?
Значимый прорыв формирует отрасль ИИ: tomattopizza 40 минут назад Неочевидные проблемы в Text‑to‑Speech, о которых редко говорят Средний 5 мин 1. 3K Машинное обучение * Звук Обзор Из песочницы Когда приходишь в Text‑to‑Speech из классического ML (или даже из CV/NLP), кажется, что всё знакомо: датасет, модель, loss, валидация, поехали. А потом довольно быстро ловишь себя на мысли, что что‑то тут не так.
В TTS есть набор проблем, которые:не очевидны на старте;почти не обсуждаются;и при этом регулярно бьют по разработке. Причём это не какие‑то редкие кейсы. Это вещи, которые встречаются постоянно.
Технические детали
Попробую описать несколько таких моментов, о которые обжегся сам во время работы над аудио ассистентом в одном из российских бигтехов. Пытаюсь понять, какая модель звучит лучшеМетрики, которым не очень хочется веритьНаверное, самое болезненное место. Если коротко: в TTS нет одной нормальной метрики, на которую можно спокойно опереться и сказать «всё, модель стала лучше».
Точнее опереться то можно, но с оговорками. WER / CER — вроде всё ок, но не совсемСамое очевидное — взять Word Error Rate (WER) и Character Error Rate (CER). Схема простая:синтезируем аудио;прогоняем через модель распознавания речи;сравниваем с исходным текстом, считая долю слов (WER) и символов (CER), где допущена ошибка.
Получаем долю ошибок. Проблема в том, что это проверяет только правильность текста, но не качество звука. Модель может звучать неестественно, иметь странную интонацию, звучать как робот.
Отраслевые последствия
Но показывать хороший WER и CER. Для раннего фильтра и sanity check подходит, но не как финальная метрика качества. Инструкции для асессоровДля подсчета метрик финального качества чаще всего используют разметки асессоров.
Далее я расскажу про 2 такие метрики, которые используют чаще всего, но у них есть одна общая проблема. Задача установки «качества» аудио речи нетривиальна. На первых этапах фикса самых явных проблем (неправильные звуки, артефакты аудио, отсутствие вопросительных интонаций в вопросах и так далее) может хватить инструкции из пары предложений.
Но когда надо решать менее тривиальные проблемы, начинается жесть. Я лично переписывал наши инструкции для асессоров. Оказалось, что до этого они были длиной буквально в несколько строчек, из‑за чего мы не могли поймать, например, «ненатуральные» интонации, или неестественные паузы и плохую работу с пунктуацией (в некоторых случаях паузы должны быть короче, чем в других).
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





