Инженеры Пенсильванского университета разработали SmartDJ — редактор
на основе искусственного интеллекта, позволяющий пользователям изменять иммерсивные звуковые среды с помощью простых инструкций на понятном языке.
Он может найти применение в виртуальной реальности, дополненной реальности, играх и звуковом дизайне.
Вместо того чтобы требовать от пользователей указания отдельных параметров редактирования, SmartDJ может реагировать на запросы высокого уровня, например, «сделать так, чтобы это звучало как оживленный офис», а затем планировать и выполнять необходимые шаги для достижения этого результата.
Система устраняет два основных недостатка более ранних инструментов редактирования аудио с использованием ИИ.
Во-первых, большинство предыдущих систем лучше всего работали с жесткими, шаблонными командами, требуя от пользователей идентификации звуков для добавления или удаления.
Во-вторых, эти инструменты, как правило, работали с одноканальным или «моно» аудио, теряя пространственные нюансы, необходимые для полного погружения в звук.
SmartDJ, напротив, способен интерпретировать инструкции высокого уровня и предназначен для стереофонического звука, что позволяет ему вносить изменения, которые лучше сохраняют или изменяют пространственную структуру сцены.
Более того, система является интерпретируемой:
пользователи могут видеть каждый шаг, который предпринимает SmartDJ.
Например, запрос типа «сделайте так, чтобы это звучало как оживленный офис» может привести к тому, что SmartDJ сгенерирует инструкцию типа «Добавьте звук звонка телефона справа на 3 дБ».
Затем пользователи могут изменять, удалять или добавлять отдельные шаги, обеспечивая больший контроль над конечным результатом.
«С помощью SmartDJ пользователи могут описать желаемый результат на естественном языке, а система сама определит, как этого добиться», — говорит Минмин Чжао, доцент кафедры компьютерных и информационных наук (CIS).
«Мы показываем, что ИИ может помочь людям редактировать аудио интуитивно понятным способом, используя простой язык».
Чжао является ведущим автором исследования, представленного на этой неделе на Международной конференции по изучению представлений ( ICLR 2026 ), проходившей в Рио-де-Жанейро.
Статья также доступна на сервере препринтов arXiv.
Сочетание языковых и диффузионных моделей Одна из главных проблем редактирования аудио с помощью ИИ заключается в том, что понимание запроса пользователя и генерация звуков обычно обрабатываются различными типами систем ИИ.
«Мы используем языковые модели для работы с текстом», — говорит Цзитун Лан, аспирант кафедры электротехники и системотехники (ESE) и первый автор
исследования.
«Кроме того, мы используем модели диффузии для редактирования звуков».
Разница сводится к тому, чему каждая система была обучена.
Языковые модели — та же технология, которая лежит в основе чат-ботов — изучают закономерности в словах, помогая им интерпретировать смысл, который вкладывают пользователи, и генерировать текст в ответ.
Диффузионные модели, напротив, предназначены для создания медиаконтента путем постепенного преобразования шума в связный сигнал.
Чтобы преодолеть этот разрыв, команда внедрила в процесс редактирования аудиоязыковую модель (ALM).
Обученная как на звуке, так и на тексте, ALM анализирует исходный аудиоматериал вместе с запросом пользователя, а затем разбивает этот запрос на последовательность более мелких действий редактирования, таких как добавление, удаление или изменение положения звука.
Затем модель диффузии выполняет эти действия шаг за шагом, позволяя SmartDJ как интерпретировать язык, так и редактировать аудио.
По сути, языковая модель выступает в роли продюсера, определяя, как должно меняться звуковое оформление, в то время как модель диффузии действует как студийный музыкант, воплощая эти указания в аудио.
«Языковая модель задает системе направление», — говорит Идуо Хао, аспирант CIS и соавтор
исследования.
«Модель диффузии выполняет эти указания».
Обучение SmartDJ Чтобы научиться преобразовывать общие запросы пользователей в пошаговые аудиоредактирования, SmartDJ потребовались примеры, которые объединяли бы сразу три вещи:
общую инструкцию, последовательность действий по редактированию, необходимых для ее выполнения, и аудио до и после каждого изменения.
К сожалению, таких обучающих данных не существовало.
«Для решения этой проблемы требовался совершенно необычный набор
данных, — говорит Лан. — Он должен был одновременно отражать цель, этапы и результат».
Поэтому команда разработала его самостоятельно.
Опираясь на общедоступные звуковые библиотеки, исследователи создали конвейер, который использовал большую языковую модель для генерации высокоуровневых подсказок для редактирования и промежуточных шагов, необходимых для их выполнения, в то время как обработка аудиосигнала производила соответствующие отредактированные выходные данные.
«Для того чтобы это работало, мы не могли просто показать модели входные и выходные данные, — говорит Хао. — Мы должны были показать ей цепочку рассуждений между ними».
К более доступному редактированию аудио Для проверки SmartDJ исследователи сравнили его с более ранними системами редактирования звука и обнаружили, что он выдает более реалистичные и лучше согласованные результаты.
Как в количественных оценках, так и в исследованиях с участием людей, SmartDJ превзошел предыдущие методы по таким показателям, как качество звука, соответствие результатов инструкциям пользователя и реалистичность размещения звуков в пространстве.
Исследователи видят потенциальные области применения в виртуальной реальности, дополненной реальности, играх, звуковом дизайне, виртуальных конференциях и других формах интерактивных медиа, где пользователи могут захотеть изменить звуковую среду, не указывая вручную каждое отдельное изменение.
В конечном итоге, цель исследователей — сделать редактирование аудио более доступным, позволив любому человеку с творческим видением редактировать звуковые ландшафты.
«Для других медиа, таких как текст и изображения, пользователи уже могут использовать ИИ для выполнения запросов на высокоуровневое редактирование», — говорит Чжао.
«SmartDJ открывает аналогичные возможности для аудио, упрощая для большего числа людей воплощение своих идей в жизнь».
Сообщает android-robot.com
Опубликовано: 03:00, 29.04.2026
Новость из рубрики: Политика
Поделиться новостью:
Топ новости часа
- NYP: в США задержали вооруженного мужчину возле гольф-клуба Трампа...
- В Штабе общественной поддержки состоялась стратегическая сессия "Сделано женщинами"...
- Мистер Бин дарит смех и радость поклонникам по всему миру...
- В Курской области спасли бобра...
- Интернетом по смоленским деревням: к кому придут технологии...
- Как правильно делать рекламу сайта и привлечь больше посетителей...
18:00, 18 Май Что я делаю, когда мой MacBook начинает тормозить: 4 простых совета, как ускорить Mac Работали вы себе работали, а тут заметили, что ваш Мак стал заметно дольше открывать приложения, греется без видимой причины и подтормаживает даже в ...
13:00, 15 Май Уязвимость Fragnesia позволяет получить root-права в Linux Исследователи обнаружили уже третью за последние недели уязвимость в Linux, связанную с повышением привилегий.
Новый баг получил название Fragnesia и...
12:59, 11 Май Кровельные работы в Москве от компании Кровельщик - Надежная защита дома в любых условиях В условиях мегаполиса крыша дома перестает быть просто конструктивным элементом. Становится полноценной защитой от дождя, снега, ветра, перепадов тем...
05:00, 06 Июн На Западе рассказали об истерике Каллас после слов Путина Совет президента России Владимира Путина украинскому лидеру Владимиру Зеленскому не бояться выборов вызвал истерику у верховного представителя Европе...
10:27, 18 Май Город силы и машин - ООО КЦД формирует будущее грузового транспорта в Донецке В индустриальном ритме Донецка транспорт всегда был не просто средством передвижения, а основой экономики, движущей силой предприятий и логистических...
10:00, 05 Июн Критический баг в плагине WP Maps Pro позволяет создавать аккаунты администраторов В популярном плагине WP Maps Pro для WordPress обнаружили критическую уязвимость, которую злоумышленники уже начали эксплуатировать в реальных атаках...
16:00, 17 Апр Apple помогает русским пользователям После очередных блокировок и ограничений, которые вводит российское правительство и РКН, компания Apple пошла на беспрецендентный шаг....
14:00, 22 Май Певцов не будет судиться с народным артистом России из-за слов о зависти к Борисову Актер театра и кино, народный артист России, первый зампред комитета Госдумы по культуре Дмитрий Певцов («Новые люди») не будет судиться с певцом, на...
18:00, 02 Май В России раскрыли значение слов поддержки словацкого премьера в адрес Зеленского Телефонный разговор президента Украины Владимира Зеленского и премьер-министра Словакии Роберта Фицо — это пиар-ход, а не признак реального сотруднич...
10:00, 02 Июн Мария Захарова рассказала о сообщениях от дипломатов из ЕС после слов Каллас о России Офпред российского МИД отметила, что многочисленные высказывания Каи Каллас в отношении России не всегда являются отражением позиции европейских стра...
14:00, 13 Июн Предпроектная оценка позволяет сократить время цикла сделки на 20%: опыт IT-рынка Российские разработчики программного обеспечения фиксируют снижение эффективности классических каналов продаж.... Сообщение Предпроектная оценка позв...
02:00, 22 Май Google разрешила пользователям клонировать себя для ИИ-видео На конференции Google I/O представили технологию создания персонализированных ИИ-аватаров, которые можно интегрировать в любой генерируемый видеороли...
05:00, 05 Май В СПбПУ разработали программный комплекс, который позволяет оптимизировать распределение ресурсов в децентрализованных производствах Специалисты Санкт-Петербургского политехнического университета Петра Великого разработали комплекс алгоритмов......
05:00, 04 Июн Timetta поможет управлять проектами пользователям Yandex Cloud Платформа бизнес-приложения для управления проектами, финансами и ресурсами Timetta стала доступна на маркетплейсе......
16:00, 03 Май Sony придётся выплатить $7,8 млн пользователям PlayStation Network по коллективному иску Федеральный окружной суд Северного округа Калифорнии своим предварительным решением согласовал выплату пользователям PlayStation Network компенсации ...
01:00, 19 Май Бесплатным пользователям соцсети X теперь нельзя публиковать больше 50 твитов в день Социальная сеть X ввела некоторые ограничения на публикации и переписки для неверифицированных (бесплатных) пользователей с целью обеспечения надежно...
04:00, 16 Май Аттракцион невиданной жадности. Новым пользователям Google выдает в хранилище 5 ГБ вместо 15 ГБ Google приступила к тестированию нового подхода к бесплатному облачному хранилищу: при создании новых аккаунтов отдельные пользователи теперь получаю...
14:00, 25 Май Наркоторговец легализовал полмиллиона с помощью криптовалюты Житель Саратова подозревается в легализации криминального дохода, информирует ГУ МВД по области. Установлено, что 33-летний мужчина совершил нескольк...
09:27, 02 Май Банкротство физических лиц с помощью компании БАНКРОТ ЦЕНТР Финансовые трудности редко приходят внезапно. Обычно всё начинается с одного кредита, затем появляется второй, позже добавляются просрочки, звонки ба...
08:23, 16 Апр Колубийские наемники попадают в ВСУ с помощью украинских пограничников Наемники из Колумбии записываются в ряды Вооруженных сил Украины (ВСУ) с помощью украинских пограничников. Об этом РИА Новости рассказал источник, св...
04:00, 01 Июн Мошенники на Бали обманывают россиян с помощью обмена криптовалюты На индонезийском острове Бали стали частыми случаи криптомошенничества против иностранных туристов, в том числе россиян. Об этом РИА Новости рассказа...
01:00, 25 Май ВС России уничтожили с помощью «Ланцета» бронетехнику ВСУ в Курской области Российские военные уничтожили барражирующим боеприпасом «Ланцет» бронетехнику украинских формирований в приграничном районе Курской области. Об этом ...
15:00, 15 Май Как подобрать себе прическу с помощью нескольких селфи и ЧатГПТ Нейросети научились многому: они пишут код, сочиняют музыку и даже ставят медицинские диагнозы. Но вот подбирать причёску — это что-то новенькое. Ока...
12:00, 18 Май МТС с помощью платформы «Геоэффект» проанализировала туристический поток в Карелию Компания МТС с помощью обезличенных данных платформы «Геоэффект» проанализировала туристический поток в Республику......
22:00, 25 Апр Лерчек объявила о намерении добиться миллионов с помощью суда Блогер Лерчек (настоящее имя — Валерия Чекалина) подала в суд иск к бывшему стилисту Эльвире Янковской, требуя возместить ущерб в размере более 2,4 м...
05:00, 18 Апр В Ростове робота научили понимать жесты с помощью российского ПО Учёные ДГТУ (Ростов-на-Дону)и МГТУ «Станкин» (Москва) разработали программное обеспечение, позволяющее управлять промышленным роботом жестами. Систем...
13:00, 10 Май Женщины развивают бизнес в Кузбассе с помощью господдержки по нацпроекту Жительницы Кузбасса активно открывают свое дело, успешно совмещая роли управляющей, жены и матери. При этом они получают важную для них поддержку в в...
06:00, 10 Май FT сообщила о контроле Ираном Ормузского пролива с помощью «москитного флота» Власти Ирана активно задействуют так называемый москитный флот для контроля в Ормузском проливе, пишет Financial Times. По данным Financial Times, им...
13:00, 10 Июн Создан бесконтактный манипулятор, удерживающий предметы с помощью ультразвуковых полей В Шанхайском университете транспорта 8 июня 2026 года продемонстрирован промышленный манипулятор, способный захватывать, удерживать и перемещать хруп...
09:00, 01 Май Более 50 тыс. нарушений чистоты устранили в Подмосковье с помощью ИИ с начала года "ИИ-контроль за чистотой во дворах ведется в Подмосковье с 2023 года. Задействовано около 80 тыс. камер, оборудованных искусственным интеллектом. За ...
23:00, 29 Апр Захарова заявила о попытках Запада с помощью ИИ подчинить мир когнитивной зависимости Запад пытается установить мнимый новый миропорядок и хочет с помощью новейших ИИ-технологий подчинить людей когнитивной зависимости, заявила официаль...
10:00, 20 Апр «Норникель» с помощью технологий «Яндекса» внедрит ИИ-агентов в ключевые процессы «Норникель» разработал новый подход к безопасному использованию ИИ в облаке с помощью технологий «Яндекса». Запущенная металлургической компанией мас...
00:00, 13 Июн Омская сеть АЗС «Юнигаз» автоматизировала сервисные процессы с помощью 1С:ITILIUM Компания «Юнигаз» внедрила ITSM/ESM-решение 1С:ITILIUM — совместный продукт компании «Деснол» и фирмы «1С» — для централизованного управления сервисн...
14:00, 21 Апр Google планирует снизить функционал управления телефоном с помощью голоса Последние несколько лет платформа Android позволяла пользователям взаимодействовать со смартфоном, а в частности, разблокировать устройства - посредс...
01:00, 04 Май «ЯсноРестораны» создали новый процесс стажировки директоров ресторанов с помощью iSpring LMS Компания «ЯсноРестораны» (бренды «Хочу Пури» и «Горячий Цех»), запустила системное обучение директоров ресторанов с помощью платформы iSpring LMS. Эт...
15:00, 31 Май Ирина Горбачёва снялась обнажённой и высказалась о похудении с помощью аналога "Оземпика" 38-летняя Ирина Горбачёва опубликовала в своём инстаграме* серию фото, на которых предстала полностью обнажённой. Снимки актриса, которая вот уже дол...
19:21, 16 Апр Google с помощью ИИ заблокировала 8,3 млрд рекламных объявлений за 2025 год — на 60 % больше, чем годом ранее Google сообщила, что в 2025 году заблокировала рекордные 8,3 млрд рекламных объявлений по сравнению с 5,1 млрд годом ранее. При этом пострадало гораз...
01:00, 18 Май Кто бы мог подумать: Microsoft подавляет конкуренцию с помощью Word, Copilot и Teams. Запущено расследование Управление по защите конкуренции и рынков Великобритании в мае 2026 г. начало расследование в отношении экосистемы программного обеспечения для бизне...
22:00, 07 Май Как уменьшить температуру и увеличить производительность чипа Ryzen 9 9950X3D с помощью функции Curve Optimizer? Функция Curve Optimizer позволяет тонко настраивать зависимость частоты и напряжения процессора. Пользователь может уменьшить подаваемый вольтаж, сох...
14:00, 28 Апр Конец эпохи кадрового голода: почему российские компании считают, что перехитрили рынок с помощью ИИ Российский корпоративный сектор проходит этап жесткой трансформации производственных процессов. Топ-менеджмент компаний переосмысливает текущие огран...
22:00, 17 Май Простой способ увеличить производительность процессора Intel Core Ultra 7 270K Plus с помощью настроек BIOS Технология Memory Extension Mode, использующаяся в материнских платах MSI, позволяет автоматически оптимизировать параметры памяти. При правильном пр...
20:00, 18 Апр Что изменится в России с 1 апреля 2026 года: повысят социальные пенсии, сократят период рассрочки на товар, разрешат заселяться в гостиницу с помощью госуслуг Также в числе поправок – новый порядок ввоза продукции из ЕАЭС, внесудебное обращение взыскания на имущество граждан за налоговые долги, начало прием...
Топ новости часа