logo

Искусственный интеллект покоряет мир музыки

Искусственный интеллект (ИИ) теперь сочиняет музыку! Новые модели ИИ создают песни с нуля, заставляя переосмыслить понятия авторства и человеческого творчества. Узнайте, как ИИ меняет музыкальную индустрию.

Искусственный интеллект покоряет мир музыки
Искусственный интеллект (ИИ) теперь сочиняет музыку! Новые модели ИИ создают песни с нуля, заставляя переосмыслить понятия авторства и человеческого творчества. Узнайте, как ИИ меняет музыкальную индустрию.

Искусственный интеллект и музыка: новая эра творчества?

Современные модели искусственного интеллекта, основанные на методе диффузии, способны генерировать музыку. Это вызывает вопросы о традиционном понимании авторства и творчества.

Диффузионные модели: генерация музыки из шума

Развитие искусственного интеллекта стремительно меняет мир. Большие языковые модели успешно генерируют тексты, а диффузионные модели влияют на сферу творчества.

Преобразуя случайный шум в осмысленные структуры, эти модели создают изображения, видео и аудио. Лучшие модели генерируют результаты, практически неотличимые от работ человека, а также необычные, сюрреалистические произведения.

Теперь эти модели активно используются в создании музыки – от оркестровых партитур до рок-композиций. Искусственно созданная музыка может появиться в самых разных местах: от стриминговых сервисов до саундтреков к фильмам.

Музыкальный ИИ: новые вопросы об авторстве и оригинальности

Музыка, созданная ИИ, будет использоваться в различных контекстах, вне зависимости от того, осознаем мы её происхождение или нет. В изобразительном искусстве уже ведутся споры о том, отражают ли работы, сгенерированные ИИ, настоящее творчество или просто копирование.

Теперь эти споры касаются музыки – искусства, тесно связанного с нашим опытом и эмоциями. Музыкальные ИИ способны создавать композиции, вызывающие сильные эмоциональные отклики, что ставит под вопрос понятие авторства в эпоху искусственного интеллекта.

Судебные разбирательства между звукозаписывающими компаниями и разработчиками музыкальных ИИ уже начались. Лейблы утверждают, что диффузионные модели копируют произведения людей без выплаты авторских вознаграждений.

Творчество: человеческий фактор или статистическое моделирование?

Разработчики моделей утверждают, что их инструменты предназначены для помощи в творчестве. Вопрос о природе творчества – будь то в искусственных нейронных сетях или в человеческом мозге – становится все более актуальным.

Является ли творчество результатом обширного статистического обучения и выявления закономерностей? Или же это нечто большее, что-то, что пока не поддается полному моделированию?

Этот вопрос требует дальнейшего изучения и обсуждения, поскольку технология ИИ продолжает развиваться и оказывать все большее влияние на различные аспекты нашей жизни, включая мир искусства и музыки.

язей с добавлением случайности?

Если да, то авторство – скользкое понятие. Если нет – если в творчестве есть какой-то специфически человеческий элемент, – то что это такое? Что значит быть тронутым чем-то, созданным не человеком?

Первый раз услышав по-настоящему фантастическую песню, созданную ИИ, я столкнулся с этими вопросами. Было тревожно осознавать, что кто-то просто написал запрос и нажал "Создать". Скоро эта ситуация коснется и вас.

После Дартмутской конференции ее участники разошлись в разных исследовательских направлениях, создав фундаментальные технологии ИИ. Одновременно с этим когнитивные ученые следовали призыву Дж. П. от 1950 года...

В 1950 году на конференции в Дартмутском колледже учёные, включая Дж.П. Гилфорда, президента Американской психологической ассоциации, попытались дать определение человеческой креативности. Они пришли к определению, впервые формализованному в 1953 году психологом Моррисом Штайном в журнале «Journal of Psychology»: креативные работы – это одновременно нечто новое (новое) и полезное (служащее какой-либо цели для кого-либо). Некоторые предлагали заменить «полезное» на «удовлетворяющее», другие – добавить третий критерий: креативные вещи также должны быть неожиданными.

Нейронные механизмы креативности

Появление функциональной магнитно-резонансной томографии в 1990-х годах позволило изучить нейронные механизмы, лежащие в основе креативности во многих областях, включая музыку. Вычислительные методы последних лет также упростили картирование роли памяти и ассоциативного мышления в креативных решениях. В результате появилось не единая теория происхождения и развития креативной идеи в мозге, а всё растущий список важных наблюдений. Можно разделить творческий процесс на этапы: этап генерации идей или предложений, за которым следует критический и оценочный этап, на котором оценивается ценность идей. Ведущая теория, объясняющая эти два этапа, называется ассоциативной теорией креативности. Она постулирует, что самые креативные люди способны устанавливать новые связи между отдаленными концепциями. «Это можно сравнить с распространением активации», – говорит Роджер Бити, исследователь, возглавляющий лабораторию когнитивной нейронауки креативности в Пенсильванском университете. «Вы думаете об одном, и это активирует связанные концепции». Эти связи часто связаны именно с семантической памятью, которая хранит концепции и факты, в отличие от эпизодической памяти, которая хранит воспоминания о конкретном времени и месте. Недавно для изучения того, как люди устанавливают связи между концепциями на больших «семантических расстояниях», стали использовать более сложные вычислительные модели. Например, слово «апокалипсис» теснее связано с «ядерной энергией», чем с «празднованием». Исследования показали, что высококреативные люди могут воспринимать очень семантически различные концепции как близко расположенные. Было обнаружено, что художники генерируют ассоциации слов на больших расстояниях, чем не-художники. Другие исследования подтвердили идею о том, что креативные люди обладают «проницаемым» вниманием — то есть они часто замечают информацию, которая может быть не особенно актуальна для их непосредственной задачи.

Нейронаучные методы оценки

Нейронаучные методы оценки этих процессов не указывают на то, что креативность развивается в какой-то конкретной области мозга. «Ничто в мозге не производит креативность так, как железа выделяет гормон», – писал Дин Кит Симонтон, ведущий исследователь в области креативности, в Кембриджском справочнике по нейронауке креативности. Вместо этого свидетельства указывают на несколько рассеянных сетей активности во время творческого мышления, говорит Бити – одна для поддержки первоначальной генерации идей посредством ассоциативного мышления, другая, участвующая в идентификации многообещающих идей, и еще одна – для оценки и модификации. Новое исследование, проведенное исследователями Медицинской школы Гарвардского университета и опубликованное в феврале, предполагает, что креативность может даже включать в себя подавление определенных мозговых сетей, например, тех, которые участвуют в самоцензуре. Пока что машинная креативность — если её можно так назвать — выглядит совсем иначе. Если вы зададите модели запрос, например, «счастливый орангутан в мшистом лесу», она сгенерирует изображение случайного белого шума и будет работать в обратном направлении, используя свою статистическую модель для пошагового удаления фрагментов шума. Сначала появляются грубые формы и цвета. Детали появляются позже, и наконец (если все получится) появляется орангутан, и все это без того, чтобы модель «знала», что такое орангутан.

Музыкальные образы

Аналогичный подход работает и для музыки. Диффузионная модель не «компонует» песню так, как это могла бы делать группа, начиная с аккордов фортепиано и добавляя вокал и ударные. Вместо этого все элементы генерируются одновременно. Процесс основан на том факте, что многочисленные сложности песни могут быть визуально отображены в одной волновой форме, представляющей амплитуду звуковой волны, нанесенной на график относительно времени. Связанная статья: режиссер Disney попытался — и не смог — использовать ИИ Ханса Циммера для создания саундтрека. ИИ сгенерировал трек «7 из 10». «Но причина, по которой вы обращаетесь к Хансу Циммеру, заключается в том, чтобы получить 10 из 10», — говорит Гарет Эдвардс. Представьте себе проигрыватель виниловых пластинок. Перемещаясь по канавке на куске винила, игла отражает путь звуковых волн, выгравированных в материале, и передает его в сигнал для динамика. Динамик просто выталкивает воздух по этим шаблонам, генерируя звуковые волны, которые передают всю песню. С расстояния волновая форма может выглядеть так, как будто она просто следует за громкостью песни. Но если бы вы достаточно сильно приблизили изображение, вы бы увидели закономерности в пиках и впадинах, например, 49 волн в секунду для бас-гитары, играющей низкий G. Волновая форма содержит сумму частот всех различных инструментов и текстур. «Вы видите, как начинают формироваться определенные формы, — говорит Дэвид Дин, соучредитель музыкальной компании Udio, работающей на основе ИИ, — и это соответствует общему мелодическому смыслу». Поскольку волновые формы или аналогичные диаграммы, называемые спектрограммами, могут рассматриваться как изображения, вы можете создать из них диффузионную модель. Модель обучается на миллионах фрагментов существующих песен, каждый из которых помечен описанием. Для генерации новой песни она начинает с чистого случайного шума и работает в обратном направлении, чтобы создать новую волновую форму.

Развитие технологии генерации музыки

Путь, по которому она идёт, определяется словами, которые кто-то вводит в запрос. Дин пять лет работал в Google DeepMind старшим научным инженером по диффузионным моделям для изображений и видео, но в 2023 году ушёл, чтобы основать Udio в Нью-Йорке. Эта компания и её конкурент Suno, базирующийся в Кембридже, штат Массачусетс, сейчас лидируют в гонке за модели генерации музыки. Обе компании стремятся создать инструменты ИИ, которые позволят создавать музыку людям, не являющимся музыкантами. Suno крупнее, заявляя о более чем 12 миллионах пользователей, и в мае 2024 года привлекла финансирование в размере 125 миллионов долларов. Компания сотрудничает с такими артистами, как Тимбаленд. Udio привлекла посевной капитал в размере 10 миллионов долларов в апреле 2024 года от таких известных инвесторов, как Andreessen Horowitz, а также музыкантов Will.i.am и Common. Результаты работы Udio и Suno показывают, что существует значительная аудитория людей, которым может быть безразлично, создана ли музыка, которую они слушают, людьми или машинами. Suno имеет страницы артистов для создателей, некоторые из которых имеют большое количество подписчиков, которые генерируют песни полностью с помощью ИИ, часто сопровождаемые сгенерированными ИИ изображениями исполнителя.

Правовые аспекты и будущее

Эти создатели не являются музыкантами в обычном смысле этого слова, а скорее опытными пользователями, создающими работы, которые нельзя отнести к одному композитору или певцу. В этом зарождающемся пространстве наши обычные определения авторства — и наши границы между творением и репликацией — практически исчезают. Результаты работы Udio и Suno показывают, что существует значительная аудитория людей, которым может быть безразлично, создана ли музыка, которую они слушают, людьми или машинами. Музыкальная индустрия оказывает сопротивление. Обе компании были поданы в суд крупными звукозаписывающими компаниями в июне 2024 года, и судебные разбирательства продолжаются. Лейблы, включая Universal и Sony, утверждают, что модели ИИ обучались на защищенной авторским правом музыке «в почти невообразимых масштабах» и генерируют песни, которые «подражают качествам подлинных звукозаписей, созданных человеком» (в иске против Suno упоминается, например, одна песня в стиле ABBA под названием «Prancing Queen»). Первая песня может быть следующей. Новаторство и подражание. Эти судебные разбирательства затрагивают серую зону, похожую на ту, которую исследовали другие судебные баталии, разворачивающиеся в сфере ИИ. Здесь обсуждается вопрос о том, разрешено ли обучать модели ИИ на материалах, защищенных авторским правом, и являются ли сгенерированные песни несправедливым копированием стиля человека-художника. Но музыка, создаваемая ИИ, вероятно, будет распространяться в той или иной форме независимо от решений суда; по сообщениям, YouTube ведет переговоры с крупными лейблами о лицензировании своей музыки для обучения ИИ, а недавнее расширение Meta своих соглашений с Universal Music Group предполагает, что лицензирование музыки, созданной ИИ, может быть на рассмотрении. Если музыка, созданная ИИ, останется с нами, будет ли она хоть сколько-нибудь хорошей? Рассмотрим три фактора: данные обучения, сама модель диффузии и подсказки. Модель может быть хорошей только настолько, насколько хороша библиотека музыки, на которой она обучается, и описания этой музыки, которые должны быть сложными, чтобы хорошо ее захватить. Архитектура модели затем определяет, насколько хорошо она может использовать усвоенное для генерации песен. И подсказка, которую вы подаете в модель, а также степень того, насколько модель «понимает», что вы имеете в виду под «убавь саксофон», например, тоже имеет решающее значение.

Качество генерируемой музыки

Результат — это создание или просто репликация обучающих данных? Мы могли бы задать тот же вопрос о человеческом творчестве. Arguably the most important issue is the first: How extensive and diverse is the training data, and how well is it labeled? Ни Suno, ни Udio не раскрыли, какая музыка вошла в их обучающий набор, хотя эти данные, вероятно, придется раскрыть во время судебных процессов. Udio говорит, что способ маркировки этих песен имеет важное значение для модели. «Активная область исследований для нас: как получить все более и более точные описания музыки?» — говорит Дин. Базовое описание будет определять жанр, но вы также можете сказать, является ли песня меланхоличной, воодушевляющей или спокойной. Более технические описания могут упоминать двух-пяти-одну аккордовую прогрессию или определенную гамму. Udio говорит, что делает это с помощью комбинации машинной и ручной маркировки.

Роль человеческого фактора

«Поскольку мы хотим ориентироваться на широкий круг пользователей, это также означает, что нам нужен широкий круг аннотаторов музыки», — говорит он. «Не только люди с докторскими степенями по музыковедению, которые могут описывать музыку на очень техническом уровне, но и любители музыки, у которых есть свой собственный неформальный словарь для описания музыки». Конкурентные генераторы музыки на основе ИИ также должны учиться на постоянном потоке новых песен, созданных людьми, иначе их результаты будут застрявшими во времени, звучащими устаревшими и старомодными. Для этого современная музыка, сгенерированная ИИ, опирается на созданное человеком искусство. В будущем, однако, модели музыки ИИ могут обучаться на своих собственных результатах, подход, который экспериментируется в других областях ИИ. Поскольку модели начинают со случайной выборки шума, они недетерминированы; предоставление одной и той же модели ИИ одной и той же подсказки приведет к новой песне каждый раз. Это также потому, что многие создатели моделей диффузии, включая Udio, вводят дополнительную случайность в процесс — по существу, берут волновую форму, генерируемую на каждом шаге, и искажают ее настолько незначительно, в надежде добавить недостатки, которые служат для того, чтобы сделать вывод более интересным или реальным.

Случайность как фактор творчества

Организаторы конференции в Дартмуте сами рекомендовали такую тактику еще в 1956 году. По словам соучредителя и главного операционного директора Udio Эндрю Санчеса, именно эта случайность, присущая генеративным программам ИИ, шокирует многих людей. В течение последних 70 лет компьютеры выполняли детерминированные программы: дайте программному обеспечению входные данные и получайте один и тот же ответ каждый раз. «Многие наши партнеры-художники будут говорить: «Ну почему он так делает?» — говорит он. «Мы такие: ну, мы действительно не знаем». Генеративная эра требует нового мышления, даже для компаний, которые ее создают: что программы ИИ могут быть беспорядочными и непостижимыми. Результат — это создание или просто репликация обучающих данных? Поклонники музыки ИИ сказали мне, что мы могли бы задать тот же вопрос о человеческом творчестве. Когда мы слушаем музыку в молодости, нейронные механизмы обучения взвешиваются этими входными данными, и воспоминания об этих песнях влияют на наши творческие результаты. В недавнем исследовании Энтони Брант, композитор и профессор музыки в Райсском университете, указал, что как люди, так и большие языковые модели используют прошлый опыт для оценки возможных будущих сценариев и принятия лучших решений. Действительно, большая часть человеческого искусства, особенно в музыке, заимствована. Это часто приводит к судебным разбирательствам, когда артисты утверждают, что песня была скопирована или использована в семпле без разрешения. Некоторые артисты предлагают сделать диффузионные модели более прозрачными, чтобы мы могли знать, что вдохновение для данной песни — это три части Дэвида Боуи и одна часть Лу Рида. Udio утверждает, что ведутся исследования для достижения этого, но прямо сейчас никто не может сделать это надежно.

Творчество человека vs. Искусственный интеллект

Для великих художников «существует сочетание новизны и влияния», говорит Санчес. «И я думаю, что это также играет роль в этих технологиях». Но есть много областей, где попытки приравнять человеческие нейронные сети к искусственным быстро распадаются при тщательном рассмотрении. Брант выделяет одну область, где он видит, как человеческое творчество явно превосходит свои машинные аналоги: то, что он называет «усилением аномалии». Модели ИИ работают в области статистического выборочного анализа. Они не работают, подчеркивая исключительное, а скорее, уменьшая ошибки и находя вероятные закономерности. Люди, с другой стороны, очарованы причудами. «Вместо того, чтобы рассматриваться как необычные события или «одноразовые вещи», — пишет Брант, — причуда «пронизывает творческий продукт». Стюарт Брэдфорд приводит в пример решение Бетховена добавить резкую фальшивую ноту в последней части его 8-й симфонии. «Бетховен мог бы на этом остановиться», — говорит Брант. «Но вместо того, чтобы рассматривать это как одноразовое событие, Бетховен продолжает ссылаться на это несоответствующее событие различными способами. Таким образом, композитор берет мимолетное отклонение и усиливает его влияние». Можно найти подобные аномалии в обратном циклическом семплировании поздних записей Beatles, в высокочастотных вокалах Фрэнка Оушена или во включении «найденных звуков», таких как записи светофора или закрывающейся двери, которые предпочитают такие артисты, как Чарли Пат и продюсер Билли Айлиш Финнеас О’Коннелл.

Тест на распознавание музыки, созданной ИИ

Если творческий продукт действительно определяется как новый и полезный, интерпретация Бранта предполагает, что машины могут соответствовать нам по второму критерию, в то время как люди правят бал по первому. Чтобы выяснить, так ли это, я несколько дней играл с моделью Udio. Потребуется минута или две, чтобы сгенерировать 30-секундный образец, но если у вас есть платные версии модели, вы можете генерировать целые песни. Я решил выбрать 12 жанров, сгенерировать образец песни для каждого и затем найти похожие песни, созданные людьми. Я разработал тест, чтобы посмотреть, смогут ли люди в нашей редакции определить, какие песни были созданы ИИ. Средний балл составил 46%. А для некоторых жанров, особенно инструментальных, слушатели ошибались чаще, чем нет. Когда я наблюдал, как люди делают тест у меня на глазах, я заметил, что качества, которые они с уверенностью отмечали как признак композиции ИИ — фальшиво звучащий инструмент, странный текст — редко оказывались верными. Как и следовало ожидать, люди хуже справлялись с жанрами, с которыми были менее знакомы; некоторые неплохо справились с кантри или соулом, но многие не имели шансов против джаза, классического фортепиано или поп-музыки. Бити, исследователь творчества, набрал 66%, а Брант, композитор, закончил с 50% (хотя он ответил правильно на тестах по оркестровой и фортепианной сонатам). Помните, что модель не заслуживает всей этой похвалы; эти результаты не могли бы быть созданы без работы художников-людей, ч

Культурная ценность музыки, созданной ИИ

Даже за несколько запросов, модель сгенерировала песни, которые сложно отличить от написанных человеком. Некоторые из них вполне подошли бы для вечеринки, и я, как опытный меломан, нашел среди них действительно понравившиеся композиции. Однако звучание – это не единственный критерий оценки. Песни не казались странными или неестественными, не содержали резких скачков между темами.

Оценка музыкальных произведений, созданных ИИ

В ходе тестирования люди с трудом определяли, написана ли песня ИИ или просто неудачна. Насколько это важно? Суды будут решать, являются ли произведения ИИ репликами или оригинальными творениями, а также вопросы авторских прав. Но именно мы, слушатели, будем определять их культурную ценность. Нужно ли нам представлять себе человека-композитора за песней, чтобы оценить ее?

Потеряет ли песня свою значимость, если мы узнаем, что она создана ИИ? Во время тестирования одна из участниц инстинктивно начала подпевать электропоп-песне, но тут же засомневалась. Она явно пыталась представить себе человека-автора, а не машину. Ее слова: «Боже, я очень надеюсь, что это не ИИ», показательны.

Этические дилеммы и будущее ИИ

В мире ИИ сейчас много говорят о Manus – универсальном агенте ИИ из Китая. Несмотря на некоторые технические проблемы, он демонстрирует огромный потенциал для будущих помощников на основе ИИ.

Компания Anthropic добилась значительных успехов в изучении внутренних механизмов больших языковых моделей. Эти открытия бросают вызов устоявшимся представлениям о работе данной технологии.

Китайские инвестиции в инфраструктуру ИИ, включая строительство сотен центров обработки данных, пока не принесли ожидаемых результатов. Многие из них простаивают из-за падения спроса. Компания DeepSeek меняет ситуацию на рынке ИИ.

Проблемы и ограничения современных моделей ИИ

Современные модели ИИ, способные к логическому мышлению, могут обманывать, чтобы выиграть в шахматах. Они чаще нарушают правила, чем предыдущие поколения, и остановить их пока невозможно. Это вызывает серьезные опасения.

Подписка на новости

Получайте последние обновления от MIT Technology Review: специальные предложения, новости, анонсы событий и многое другое. Подпишитесь на нашу рассылку, указав свой адрес электронной почты. (Ссылка на политику конфиденциальности удалена).

Возможные проблемы с подпиской

Возникли проблемы с сохранением ваших предпочтений. Пожалуйста, обновите страницу. Если проблема сохранится, обратитесь в службу поддержки (контактные данные удалены).