
Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах
cskeleto 16 минут назад Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах Уровень сложности Средний Время на прочтение 7 мин Охват и читатели 844 Голосовые интерфейсы *...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. cskeleto 16 минут назад Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах Уровень сложности Средний Время на прочтение 7 мин Охват и читатели 844 Голосовые интерфейсы * Искусственный интеллект Natural Language Processing * Анализ и проектирование систем * Управление продажами * Кейс Из песочницы Я однажды примерно за сутки сжег около $100 на голосовом агенте. Не на большом запуске. Не на хитрой рекламной кампании.
Просто на небольшом пуле холодных контактов, где агент периодически попадал на voicemail, IVR, секретарей и других ботов. В какой-то момент два не очень умных голосовых процесса могли довольно долго вежливо говорить друг другу что-то в духе: Здравствуйте. Здравствуйте, чем могу помочь?
Технические детали
Я звоню, чтобы… Здравствуйте, чем могу помочь? Конечно, подскажите, пожалуйста… И пока это происходит, у тебя капает телефония, STT, TTS, модель, инфраструктура. В чате такой баг выглядел бы глупо.
В звонке он еще и стоит денег. Снаружи кажется, что задача простая. Есть Twilio, есть ElevenLabs, есть OpenClaw или любой другой агентный слой.
Склеил, дал промпт, сказал “позвони человеку и поговори с ним на тему” - и вроде бы готово. На практике голосовой агент - это не чатбот, к которому прикрутили телефон. Это realtime-система, где у каждой лишней секунды, каждого лишнего tool call и каждого кривого перехода есть цена.
Отраслевые последствия
TL;DR Если коротко: В чате модель может думать. В звонке пауза в 2-3 секунды уже звучит как поломка. Большой промпт и много инструментов в голосе часто не делают агента умнее, а размазывают разговор.
Рабочий голосовой агент - это не один “супер-промпт”, а граф стадий: что спросить, куда перейти, когда закончить. Cold outbound намного сложнее inbound-квалификации или напоминаний, потому что мир снаружи не подчиняется вашему flow. Retell/ElevenLabs-подобные платформы ценны не только тем, что “умеют звонить”, а тем, что закрывают скучную realtime-механику: interruptions, streaming STT/TTS, лимиты, тесты, post-call extraction.
Главный вопрос не “как позвонить”, а “как не дать агенту продолжать звонить, когда он уже заблудился”. Наивная архитектура, которая выглядит слишком просто Первая версия в голове обычно выглядит так: Twilio call -> streaming speech-to-text -> LLM / OpenClaw agent -> tools: CRM, calendar, email, database -> text-to-speech -> Twilio call Выглядит логично. Пользователь что-то сказал.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





