Govorun PC: переносим офлайн-диктовку с Android на Windows за один вечер (с Claude)
size222 15 минут назад Govorun PC: переносим офлайн-диктовку с Android на Windows за один вечер (с Claude) Уровень сложности Простой Время на прочтение 5 мин Охват и читатели 624 Python * Из песочницы Предыстория На...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. size222 15 минут назад Govorun PC: переносим офлайн-диктовку с Android на Windows за один вечер (с Claude) Уровень сложности Простой Время на прочтение 5 мин Охват и читатели 624 Python * Из песочницы Предыстория На Android у меня живёт Govorun Lite — офлайн-диктовка на русском. Нажал кнопку, сказал, текст вставился. Никаких облаков, никакой отправки голоса на серверы.
Работает через GigaAM v2 от Сбера. Проблема одна: на ПК такого нет. Встроенная Windows-диктовка — онлайн.
Технические детали
Whisper — либо медленный, либо требует видеокарту. Сторонние сервисы — снова облако. Я решил портировать Govorun на Windows, и для ускорения взял Claude как пару-программиста.
Что из этого вышло — в этой статье. Стек Компонент Библиотека Лицензия Распознавание речи GigaAM v2 (NeMo CTC) MIT ONNX-рантайм sherpa-onnx Apache 2. 0 Захват звука sounddevice MIT Глобальные хоткеи keyboard MIT Буфер обмена pyperclip BSD Пунктуация punctuators (xlm-roberta) Apache 2.
После первоначальной загрузки моделей (~380 МБ суммарно) интернет не нужен. Как это устроено внутри Программа делает четыре простых вещи последовательно: 1. Слушает нажатие клавиш Фоновый хук отслеживает Alt+X во всей системе — в любом окне, в любом приложении.
Отраслевые последствия
Пишет микрофон Первое нажатие Alt+X — открывается поток с микрофона (16 кГц, моно). Звук накапливается в памяти кусками. Второе нажатие — поток закрывается, все куски склеиваются в один массив чисел.
Распознаёт речь Массив уходит в GigaAM v2 через sherpa-onnx. Модель работает офлайн прямо на процессоре, возвращает строку без знаков препинания — это особенность CTC-архитектуры. Восстанавливает пунктуацию и вставляет Строка проходит через вторую модель (xlm-roberta ONNX) — она расставляет запятые, точки и заглавные буквы.
Готовый текст копируется в буфер обмена и вставляется через Ctrl+V в то окно, где стоял курсор. Ключевые куски кода Запись звука class Recorder: def _callback(self, indata, frames, time_info, status): if status: print(f" sounddevice: {status}") with self. copy()) def start(self) -> None: with self.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





