
Аудио-токенизатор KVAE-Audio от Сбера
bar_bar 4 минуты назад Аудио-токенизатор KVAE-Audio от Сбера Средний 8 мин 93 Блог компании Сбер Искусственный интеллект Звук Машинное обучение * Обзор Привет, Хабр. Мы уже показывали токенизаторы для изображений и...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. bar_bar 4 минуты назад Аудио-токенизатор KVAE-Audio от Сбера Средний 8 мин 93 Блог компании Сбер Искусственный интеллект Звук Машинное обучение * Обзор Привет, Хабр. Мы уже показывали токенизаторы для изображений и видео, рассказывали про обновление видеомоделей KVAE-2. 0, а теперь закрываем третью модальность — публикуем KVAE-Audio, непрерывный полнодиапазонный (48 кГц) токенизатор для звука.
По результатам тестов наш VAE (вариационный автоэнкодер, Variational Autoencoder) показывает лучшее качество генераций в задаче text-to-audio (генерирование звука по текстовому описанию) в общем домене, при этом не отставая в качестве реконструкций от моделей конкурентов, и имея заметно меньше параметров и каналов в латентном представлении. Код, инференс — в открытом доступе под лицензией MIT, веса на HF. VAE для генерированияКак и в случае с картинками и видео, аудио-VAE нам нужен не просто для сжатия.
Технические детали
Мы хотим получить преобразование в латентное пространство, пригодное для обучения диффузионных генеративных моделей — text-to-audio и text-to-video + audio (совместное генерирование видео со звуком). Диффузия учится жить в латентом пространстве токенизатора, и его качество напрямую задаёт потолок возможностей генерирования. В открытых моделях T2AV (text-to-audio-video — совместное генерирование видео со звуком по тексту) под капотом диффузии обычно стоит один из нескольких автоэнкодеров.
Как основной бейзлайн мы взяли VAE из MMAudio (код, версию на 44,1 кГц), часто используемый в open source-решениях T2AV. Также из открытых моделей мы сравнили свою разработку с автоэнкодером из MovieGen Audio (Meta), потому что он, как и наш, основан на DAC (Descript Audio Codec, код), и с VAE из свежей работы Stable Audio 3 — автоэнкодером SAME-L (Semantically-Aligned Music autoEncoder, веса). АрхитектураDAC — полностью свёрточный автоэнкодер, работающий напрямую с волновой формой.
MMAudio кодирует не волновую форму напрямую, а mel-спектрограмму, и после декодирования подаёт её на вход ещё одной модели — вокодера, — чтобы превратить в звук. Мы решили отказаться от такого подхода, чтобы лучше восстанавливать информацию о фазах и не тратить вычисления на дополнительную модель. Энкодер собран из последовательности блоков: residual-блоки с dilated-свёртками, а затем strided-свёртка, которая сжимает сигнал по времени и увеличивает количество каналов.
Отраслевые последствия
Произведение страйдов (шагов свёрток) даёт итоговое временное сжатие. Ключевая деталь — Snake-активация : её периодическая природа задаёт правильный inductive bias для звука, помогает моделировать колебательные сигналы и снижает тональные артефакты. Декодер устроен зеркально, но с транспонированными свёртками для разжатия.
Под нашу задачу — сжатие fullband-звука (полнодиапазонного, 48 кГц) в компактный непрерывный латент, с которым диффузии будет легко учиться, — исходный DAC пришлось заметно изменить:Регуляризация латентного пространства во время обучения делает его удобнее для диффузии, что улучшает следование инструкциям пользователя.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.




