Flampanzer 14 минут назад Погружаем модели в сказки русские, да рассказы древние – тестируем возможности Qwen и Whisper на дореволюционномъ Простой 15 мин 705 Блог компании Selectel Искусственный интеллект Машинное...

Значимый прорыв формирует отрасль ИИ: Flampanzer 14 минут назад Погружаем модели в сказки русские, да рассказы древние – тестируем возможности Qwen и Whisper на дореволюционномъ Простой 15 мин 705 Блог компании Selectel Искусственный интеллект Машинное обучение * Звук Тестирование IT-систем * Хотите не забывать детали диалога или то, что вас просили купить в магазине? Конечно, можно по старинке открывать блокнот в телефоне или чат в избранном и записывать все руками, но в потоке задач это неудобно. Гораздо проще надиктовать мысли или записать разговор, а расшифровку доверить сервису.

Сегодня ASR-системы нового поколения способны учитывать контекст беседы и выдавать осмысленный текст. Однако у любой медали есть обратная сторона — архитектурные ограничения. Чтобы понять, готовы ли эти модели к жизненным сценариям, мы устроили им бенчмарк на Hugging Face.

Технические детали

Ниже — разбор того, ломается ли контекстное окно алгоритмов на длинных аудиозаписях и как фоновый шум влияет на итоговое качество транскрибации. Первый испытуемый: Qwen-ASR DEMOНачнем тестирование с модели Qwen3-ASR DEMO, представляющей собой веб-интерфейс для работы с моделью распознавания речи Qwen3-ASR-1. 7B в сочетании с модулем Qwen3-ForcedAligner-0.

6B, который сопоставляет распознанный текст с временными метками аудиозаписи. Что умеет модель:поддерживает 30 языков и автоматически определяет язык общения;создает временные метки на уровне отдельных слов и даже символов;генерирует расшифровку с привязкой к времени. Интерфейс состоит из области загрузки аудиофайлов, выбора языка распознавания, настройки временных меток, поля для отображения результата и окна с данными временных меток в формате JSON.

Что интересно, автоматическое определение языка и режима работы модели реализовано через специальные токены-системы — модель сама вставляет метку языка до транскрипта. Первый тестПервый аудио-файл, который был успешно транскрибирован, содержал в себе «Сказку о попе и работнике его Балде» («Сказку о царе Салтане» не осилили). Модель определила язык как русский, предоставила результат транскрипции и расставила точные временные метки.

Отраслевые последствия

Результат генерации (сохранены ошибки модели)Сказка о попе и о работнике его Балде. Жил-был поп, толоконный лоб. Пошел поп по базару посмотреть кое-какого товару.

Идет, сам не зная куда. Что, батька, так рано поднялся? Нужен мне работник, повар, конюх и плотник.

А где найти мне такого служителя не слишком дорогого? Балда говорит, буду служить тебе славно, Усердно и очень исправно. В год за три щелка тебе полбу.

Событие, по словам экспертов, усилит конкуренцию в сфере ИИ.

Погружаем модели в сказки русские, да рассказы древние – тестируем возможности Qwen и Whisper на дореволюционномъ

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News