tomattopizza 40 минут назад Неочевидные проблемы в Text‑to‑Speech, о которых редко говорят Средний 5 мин 1.3K Машинное обучение * Звук Обзор Из песочницы Когда приходишь в Text‑to‑Speech из классического ML (или даже из...

Значимый прорыв формирует отрасль ИИ: tomattopizza 40 минут назад Неочевидные проблемы в Text‑to‑Speech, о которых редко говорят Средний 5 мин 1. 3K Машинное обучение * Звук Обзор Из песочницы Когда приходишь в Text‑to‑Speech из классического ML (или даже из CV/NLP), кажется, что всё знакомо: датасет, модель, loss, валидация, поехали. А потом довольно быстро ловишь себя на мысли, что что‑то тут не так.

В TTS есть набор проблем, которые:не очевидны на старте;почти не обсуждаются;и при этом регулярно бьют по разработке. Причём это не какие‑то редкие кейсы. Это вещи, которые встречаются постоянно.

Технические детали

Попробую описать несколько таких моментов, о которые обжегся сам во время работы над аудио ассистентом в одном из российских бигтехов. Пытаюсь понять, какая модель звучит лучшеМетрики, которым не очень хочется веритьНаверное, самое болезненное место. Если коротко: в TTS нет одной нормальной метрики, на которую можно спокойно опереться и сказать «всё, модель стала лучше».

Точнее опереться то можно, но с оговорками. WER / CER — вроде всё ок, но не совсемСамое очевидное — взять Word Error Rate (WER) и Character Error Rate (CER). Схема простая:синтезируем аудио;прогоняем через модель распознавания речи;сравниваем с исходным текстом, считая долю слов (WER) и символов (CER), где допущена ошибка.

Получаем долю ошибок. Проблема в том, что это проверяет только правильность текста, но не качество звука. Модель может звучать неестественно, иметь странную интонацию, звучать как робот.

Отраслевые последствия

Но показывать хороший WER и CER. Для раннего фильтра и sanity check подходит, но не как финальная метрика качества. Инструкции для асессоровДля подсчета метрик финального качества чаще всего используют разметки асессоров.

Далее я расскажу про 2 такие метрики, которые используют чаще всего, но у них есть одна общая проблема. Задача установки «качества» аудио речи нетривиальна. На первых этапах фикса самых явных проблем (неправильные звуки, артефакты аудио, отсутствие вопросительных интонаций в вопросах и так далее) может хватить инструкции из пары предложений.

Но когда надо решать менее тривиальные проблемы, начинается жесть. Я лично переписывал наши инструкции для асессоров. Оказалось, что до этого они были длиной буквально в несколько строчек, из‑за чего мы не могли поймать, например, «ненатуральные» интонации, или неестественные паузы и плохую работу с пунктуацией (в некоторых случаях паузы должны быть короче, чем в других).

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

Неочевидные проблемы в Text‑to‑Speech, о которых редко говорят

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News