
Как мы голос для ИИ-ассистента выбирали или критерии оценки TTS-движков
dmzubr 17 минут назад Как мы голос для ИИ-ассистента выбирали или критерии оценки TTS-движков Средний 5 мин 655 Natural Language Processing * Open source * Искусственный интеллект Машинное обучение * Обзор targetai...
GPT-5.6 31 Temmuz 2026'da yayınlanacak mı?
Вот важная новость с фронта ИИ: dmzubr 17 минут назад Как мы голос для ИИ-ассистента выбирали или критерии оценки TTS-движков Средний 5 мин 655 Natural Language Processing * Open source * Искусственный интеллект Машинное обучение * Обзор targetai специализируется на создании ИИ-ассистентов для клиентского сервиса. И голосовые агенты для нас — один из ключевых сценариев: телефония, входящие и исходящие звонки, сервисные диалоги. На определённом этапе мы с командой пришли к пониманию, что зависимость от вендорских TTS-сервисов — это риск: по стоимости, по контролю над качеством, по гибкости под конкретных клиентов.
И тогда перед нами встал вопрос о собственном сервисе синтеза речи. Первый шаг, который оказался совсем не тривиальным — договориться между собой о том, что вообще считать «хорошим голосом» для ИИ-агента. Без четких критериев любое сравнение превращается в спор о вкусах, а он их, как говорится, не спорят:) Если один говорит «звучит нормально», а другой — «меня раздражает», третий вообще никакой разницы не слышит, то в продакшене на таких субъективных оценках далеко не уедешь.
Технические детали
я долго собирался с мыслями и решил написать на эту тему подробный отчет. Эта статься посвящена первому шагу — формированию критериев отбора TTS-движка. Сравнение моделей я тут затрону вскользь, пока можно ориентироваться на данные, которые наш маркетинг опубликовал во время релиза нашего движка targetspeak.
И, кстати, есть хороший обзор open source TTS-решений с точки зрения метрик у коллег из Raft. И если хватит сил и энергии, то чуть позже напишу собственный полноценный обзор. Дисклеймеры: Всё описанное ниже не претендует на объективную истину.
Выводы и трактовки основаны исключительно на моем личном опыте и опыте моей команды в работе с конкретными решениями в конкретном продакшен-контексте. Уровень технических деталей в тексте намеренно упрощен — этот текст ориентирован в первую очередь на технических менеджеров и CTO, принимающих архитектурные решения. Онлайн vs офлайн: принципиально разные задачиПрежде чем перейти к критериям — важное разграничение, которое часто упускают.
Отраслевые последствия
Офлайн-синтез — это озвучка роликов, аудиокниг, маркетинговых материалов. Там можно взять время на генерацию, перегенерировать неудачный вариант, выбрать лучший из нескольких прогонов. Онлайн-синтез — это то, что нужно нам: голосовой ассистент в реальном времени.
Агент получил текст реплики → должен начать говорить достаточно быстро, чтобы диалог ощущался живым. Здесь всё иначе: задержка в 2–3 секунды — это уже дискомфорт для абонента. Нестабильная задержка — ещё хуже: агент то отвечает быстро, то «думает» неприлично долго без видимой причины.
Это разграничение напрямую влияет на приоритизацию критериев. Шесть критериев, которые мы зафиксировали1. Поддержка онлайн-режима: задержка и стабильностьТри конкретных параметра, которые нас интересовали:Time-to-first-audio — как быстро агент «начинает говорить» после получения текста.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





