Инженеры Пенсильванского университета разработали SmartDJ — редактор
на основе искусственного интеллекта, позволяющий пользователям изменять иммерсивные звуковые среды с помощью простых инструкций на понятном языке.
Он может найти применение в виртуальной реальности, дополненной реальности, играх и звуковом дизайне.
Вместо того чтобы требовать от пользователей указания отдельных параметров редактирования, SmartDJ может реагировать на запросы высокого уровня, например, «сделать так, чтобы это звучало как оживленный офис», а затем планировать и выполнять необходимые шаги для достижения этого результата.
Система устраняет два основных недостатка более ранних инструментов редактирования аудио с использованием ИИ.
Во-первых, большинство предыдущих систем лучше всего работали с жесткими, шаблонными командами, требуя от пользователей идентификации звуков для добавления или удаления.
Во-вторых, эти инструменты, как правило, работали с одноканальным или «моно» аудио, теряя пространственные нюансы, необходимые для полного погружения в звук.
SmartDJ, напротив, способен интерпретировать инструкции высокого уровня и предназначен для стереофонического звука, что позволяет ему вносить изменения, которые лучше сохраняют или изменяют пространственную структуру сцены.
Более того, система является интерпретируемой:
пользователи могут видеть каждый шаг, который предпринимает SmartDJ.
Например, запрос типа «сделайте так, чтобы это звучало как оживленный офис» может привести к тому, что SmartDJ сгенерирует инструкцию типа «Добавьте звук звонка телефона справа на 3 дБ».
Затем пользователи могут изменять, удалять или добавлять отдельные шаги, обеспечивая больший контроль над конечным результатом.
«С помощью SmartDJ пользователи могут описать желаемый результат на естественном языке, а система сама определит, как этого добиться», — говорит Минмин Чжао, доцент кафедры компьютерных и информационных наук (CIS).
«Мы показываем, что ИИ может помочь людям редактировать аудио интуитивно понятным способом, используя простой язык».
Чжао является ведущим автором исследования, представленного на этой неделе на Международной конференции по изучению представлений ( ICLR 2026 ), проходившей в Рио-де-Жанейро.
Статья также доступна на сервере препринтов arXiv.
Сочетание языковых и диффузионных моделей Одна из главных проблем редактирования аудио с помощью ИИ заключается в том, что понимание запроса пользователя и генерация звуков обычно обрабатываются различными типами систем ИИ.
«Мы используем языковые модели для работы с текстом», — говорит Цзитун Лан, аспирант кафедры электротехники и системотехники (ESE) и первый автор
исследования.
«Кроме того, мы используем модели диффузии для редактирования звуков».
Разница сводится к тому, чему каждая система была обучена.
Языковые модели — та же технология, которая лежит в основе чат-ботов — изучают закономерности в словах, помогая им интерпретировать смысл, который вкладывают пользователи, и генерировать текст в ответ.
Диффузионные модели, напротив, предназначены для создания медиаконтента путем постепенного преобразования шума в связный сигнал.
Чтобы преодолеть этот разрыв, команда внедрила в процесс редактирования аудиоязыковую модель (ALM).
Обученная как на звуке, так и на тексте, ALM анализирует исходный аудиоматериал вместе с запросом пользователя, а затем разбивает этот запрос на последовательность более мелких действий редактирования, таких как добавление, удаление или изменение положения звука.
Затем модель диффузии выполняет эти действия шаг за шагом, позволяя SmartDJ как интерпретировать язык, так и редактировать аудио.
По сути, языковая модель выступает в роли продюсера, определяя, как должно меняться звуковое оформление, в то время как модель диффузии действует как студийный музыкант, воплощая эти указания в аудио.
«Языковая модель задает системе направление», — говорит Идуо Хао, аспирант CIS и соавтор
исследования.
«Модель диффузии выполняет эти указания».
Обучение SmartDJ Чтобы научиться преобразовывать общие запросы пользователей в пошаговые аудиоредактирования, SmartDJ потребовались примеры, которые объединяли бы сразу три вещи:
общую инструкцию, последовательность действий по редактированию, необходимых для ее выполнения, и аудио до и после каждого изменения.
К сожалению, таких обучающих данных не существовало.
«Для решения этой проблемы требовался совершенно необычный набор
данных, — говорит Лан. — Он должен был одновременно отражать цель, этапы и результат».
Поэтому команда разработала его самостоятельно.
Опираясь на общедоступные звуковые библиотеки, исследователи создали конвейер, который использовал большую языковую модель для генерации высокоуровневых подсказок для редактирования и промежуточных шагов, необходимых для их выполнения, в то время как обработка аудиосигнала производила соответствующие отредактированные выходные данные.
«Для того чтобы это работало, мы не могли просто показать модели входные и выходные данные, — говорит Хао. — Мы должны были показать ей цепочку рассуждений между ними».
К более доступному редактированию аудио Для проверки SmartDJ исследователи сравнили его с более ранними системами редактирования звука и обнаружили, что он выдает более реалистичные и лучше согласованные результаты.
Как в количественных оценках, так и в исследованиях с участием людей, SmartDJ превзошел предыдущие методы по таким показателям, как качество звука, соответствие результатов инструкциям пользователя и реалистичность размещения звуков в пространстве.
Исследователи видят потенциальные области применения в виртуальной реальности, дополненной реальности, играх, звуковом дизайне, виртуальных конференциях и других формах интерактивных медиа, где пользователи могут захотеть изменить звуковую среду, не указывая вручную каждое отдельное изменение.
В конечном итоге, цель исследователей — сделать редактирование аудио более доступным, позволив любому человеку с творческим видением редактировать звуковые ландшафты.
«Для других медиа, таких как текст и изображения, пользователи уже могут использовать ИИ для выполнения запросов на высокоуровневое редактирование», — говорит Чжао.
«SmartDJ открывает аналогичные возможности для аудио, упрощая для большего числа людей воплощение своих идей в жизнь».
Сообщает android-robot.com
Опубликовано: 03:00, 29.04.2026
Новость из рубрики: Политика
Поделиться новостью:
Топ новости часа
- NYP: в США задержали вооруженного мужчину возле гольф-клуба Трампа...
- В Штабе общественной поддержки состоялась стратегическая сессия "Сделано женщинами"...
- Интернетом по смоленским деревням: к кому придут технологии...
- Мистер Бин дарит смех и радость поклонникам по всему миру...
- В Курской области спасли бобра...
- Как правильно делать рекламу сайта и привлечь больше посетителей...
16:00, 17 Апр Apple помогает русским пользователям После очередных блокировок и ограничений, которые вводит российское правительство и РКН, компания Apple пошла на беспрецендентный шаг....
08:23, 16 Апр Колубийские наемники попадают в ВСУ с помощью украинских пограничников Наемники из Колумбии записываются в ряды Вооруженных сил Украины (ВСУ) с помощью украинских пограничников.
Об этом РИА Новости рассказал источник, св...
20:31, 19 Апр Укладка спортивного линолеума - Основа надежного и долговечного покрытия в спортивных залах Современные спортивные пространства требуют особого подхода к выбору и монтажу напольных покрытий. От качества основания и правильности укладки напря...
05:00, 18 Апр В Ростове робота научили понимать жесты с помощью российского ПО Учёные ДГТУ (Ростов-на-Дону)и МГТУ «Станкин» (Москва) разработали программное обеспечение, позволяющее управлять промышленным роботом жестами.
Систем...
22:00, 25 Апр Лерчек объявила о намерении добиться миллионов с помощью суда Блогер
Лерчек (настоящее имя — Валерия Чекалина) подала в суд иск к бывшему стилисту Эльвире Янковской, требуя возместить ущерб в размере более 2,4 м...
14:00, 21 Апр Google планирует снизить функционал управления телефоном с помощью голоса Последние несколько лет платформа Android позволяла пользователям взаимодействовать со смартфоном, а в частности, разблокировать устройства - посредс...
10:00, 20 Апр «Норникель» с помощью технологий «Яндекса» внедрит ИИ-агентов в ключевые процессы «Норникель» разработал новый подход к безопасному использованию ИИ в облаке с помощью технологий «Яндекса».
Запущенная металлургической компанией мас...
23:00, 29 Апр Захарова заявила о попытках Запада с помощью ИИ подчинить мир когнитивной зависимости Запад пытается установить мнимый новый миропорядок и хочет с помощью новейших ИИ-технологий подчинить людей когнитивной зависимости, заявила официаль...
19:21, 16 Апр Google с помощью ИИ заблокировала 8,3 млрд рекламных объявлений за 2025 год — на 60 % больше, чем годом ранее Google сообщила, что в 2025 году заблокировала рекордные 8,3 млрд рекламных объявлений по сравнению с 5,1 млрд годом ранее. При этом пострадало гораз...
14:00, 28 Апр Конец эпохи кадрового голода: почему российские компании считают, что перехитрили рынок с помощью ИИ Российский корпоративный сектор проходит этап жесткой трансформации производственных процессов. Топ-менеджмент компаний переосмысливает текущие огран...
20:00, 18 Апр Что изменится в России с 1 апреля 2026 года: повысят социальные пенсии, сократят период рассрочки на товар, разрешат заселяться в гостиницу с помощью госуслуг Также в числе поправок – новый порядок ввоза продукции из ЕАЭС, внесудебное обращение взыскания на имущество граждан за налоговые долги, начало прием...
Топ новости часа