
Выходной со Spring: pet-проект по распознаванию речи
rurikovich 46 минут назад Выходной со Spring: pet-проект по распознаванию речи Простой 6 мин 1.2K Программирование * Java * Веб-разработка * Искусственный интеллект Анализ и проектирование систем * Туториал Привет Хабр...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. rurikovich 46 минут назад Выходной со Spring: pet-проект по распознаванию речи Простой 6 мин 1. 2K Программирование * Java * Веб-разработка * Искусственный интеллект Анализ и проектирование систем * Туториал Привет Хабр ! Не писал на Spring уже лет 8 и решил по фану написать мини пет проект с api и распознаванием речи.
Звучит круто, лет 8-10 назад это заняло бы … вечность, тогда и llm, достаточно качественно распознающих русскую речь, да еще на скромном домашнем пк не было. В общем решил в выходной повеселиться. Итого я собрал маленькое Spring Boot приложение, которое принимает короткий WAV-файл, отправляет его в локальную модель распознавания речи и показывает текст на странице.
Технические детали
Проект лежит на GitHub: Что делает приложениеСценарий простой:Открываем страницу WAV-файл с русской речью. Нажимаем кнопку перевести в текст. Сервер принимает файл.
Vosk распознаёт речь. Страница показывает результат. Ограничение специально небольшое: аудио до 10 секунд.
Для учебного проекта этого хватает. На чём написаноСтек получился такой:Java 21Spring Boot 4Spring WebVosk Java APIпростая HTML-страница без React и прочего фронтенд-зоопаркамодель vosk-model-small-ru-0. 22Vosk подключается как Maven-зависимость:pom.
Отраслевые последствия
xml: зависимости org. boot spring-boot-starter-web com. 45 Тут есть маленькая деталь: именно com.
alphacephei:vosk, а не org. Немного про модельДля распознавания используется vosk-model-small-ru-0. Это небольшая русская модель для Vosk.
Она работает локально и не требует облачного API. То есть не нужны токены, аккаунты, лимиты запросов и оплата за каждую попытку. Плюсы:работает офлайн;есть Java API;легко положить рядом с учебным проектом;для коротких фраз качество нормальное.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





