
Как сделать свой сервис распознавания голоса вместо PLAUD и закрытых ИИ-диктофонов
Voodoo_media 1 час назад Как сделать свой сервис распознавания голоса вместо PLAUD и закрытых ИИ-диктофонов Простой 7 мин 2.5K Звук GitHub * Кейс Картинка для привлечения внимания. Генерация ChatGPTЗвук сегодня является...
GPT-5.6 31 Temmuz 2026'da yayınlanacak mı?
Значимый прорыв формирует отрасль ИИ: Voodoo_media 1 час назад Как сделать свой сервис распознавания голоса вместо PLAUD и закрытых ИИ-диктофонов Простой 7 мин 2. 5K Звук GitHub * Кейс Картинка для привлечения внимания. Генерация ChatGPTЗвук сегодня является важным интерфейсом.
Работа с чат-ботом своей "ИИшечки" с управлением через голос упрощается в разы. Есть еще и обычная жизнь: с совещаниями, лекциями, собраниями, которых столько, что не успеваешь фиксировать все, о чем было обсуждение. С этими мыслями, а также увидев потрясающий по своей внешней эстетике приборчик, был заказан ИИ-диктофон PLAUD.
Технические детали
Но, ограничения для России такие, что заплатить за сервис (ок 20 тыс. ) нормальным гарантированным образом не получилось. Но уже появилось желание (и даже потребность) в удобном цифровом распознавании.
Сначала были установлены все простые приложения на телефон, а также распознавание в Telegram, но, по факту, все это было не то - не удобно, мало, низкое качество. Сформулировал требования, которые предъявлял бы к "распознавателю": Уметь работать с длинными аудиофайлами - до нескольких часовПоддерживать русский язык на приемлемом уровне. Не зависеть от зарубежной оплаты и подписок.
Иметь обычные файлы на выходе: Markdown, папки, Obsidian. Сначала я хотел решить задачу готовым устройством. Купить другой ИИ-диктофонСтал смотреть аналоги на маркетплейсах.
Отраслевые последствия
Сейчас таких устройств уже много: отдельные диктофоны с ИИ, мини-рекордеры, гаджеты с приложениями, устройства в разных форм-факторах. По ценам встречаются разные уровни:Тип устройстваОриентир по ценеЧто смущаетПростые ИИ-диктофоны6–8 тыс. закрытое приложение, непонятное качество распознаванияБолее продвинутые модели12–15 тыс.
всё равно закрытая экосистемаPLAUD и близкие устройстваоколо 20 тыс. и вышеподписка, облако, ограничения по оплатеНо по мере погружения в этот мир - стало понятно, что дело даже не в стоимости гаджета, а в логике организации работы: устройство + приложение + облачный сервис. Что именно происходит с аудио, какие модели используются, можно ли забрать данные в удобном формате, можно ли заменить модель распознавания — обычно неизвестно или невозможно.
Для бытовых заметок это может быть нормально. Для лекций, рабочих встреч и длинных записей мне хотелось больше контроля. Решение сделать свой сервис на VDSУ меня уже был небольшой VDS.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.




