"Google" создала ИИ, который генерирует сложную музыку по текстовым описаниям / Google :: слава роботам :: музыка :: MusicLM :: интернет :: AI :: ИИ :: нейронные сети :: технологии :: наука и техника

"Google" создала ИИ, который генерирует сложную музыку по текстовым описаниям

"Google" представила систему искусственного интеллекта "MusicLM", которая способна генерировать музыку в любом жанре по текстовому описанию. Однако компания пока не будет открывать доступ к нейросети.

наука и техника,технологии,нейронные сети,ИИ,AI,Google,интернет,MusicLM,музыка,слава роботам

Альтернативы новому ИИ, к примеру, "Riffusion", из-за технических ограничений и относительно небольшого набора данных для обучения не способны создавать сложные композиции.

Однако "MusicLM" обучали на наборе данных из 280 тысяч часов музыки, чтобы научить генерировать песни «значительной сложности» (например, "очаровательный джаз" или "берлинское техно 90-х").

Product Hunt
@ProductHunt
Yesterday, Google published a paper on a new Al model called MusicLM.
The model generates 24 kHz music from rich captions like "A fusion of reggaeton and electronic dance music, with a spacey, otherworldly sound. Induces the experience of being lost in space.",наука и

"Twitter".

Нейросеть способна уловить такие нюансы описания, как инструментальные риффы, мелодии и настроение. Например, "MusicLM" может сгенерировать мелодию, которая должна вызвать "ощущение пребывания в космосе" или "основной саундтрек аркадной игры".

Text prompt
Generated audio
melodic techno
► •
0:00 / 5:00,наука и техника,технологии,нейронные сети,ИИ,AI,Google,интернет,MusicLM,музыка,слава роботам

Исследователи "Google" пояснили, что система может основываться на существующих мелодиях, будь то напевание, пение, насвистывание или игра на инструменте. Более того, "MusicLM" может взять несколько последовательно написанных описаний (например, "время медитировать", "время просыпаться", "время бежать", "время выложиться на 100%"), чтобы создать своего рода мелодическую "историю" продолжительностью до нескольких минут наподобие саундтрека для фильма.

Text prompts
time to meditate (0:00-0:15) time to wake up (0:15-0:30) time to run (0:30-0:45) time to give 100% (0:45-0:60)
Generated audio
0:00/ 1:00 4$,наука и техника,технологии,нейронные сети,ИИ,AI,Google,интернет,MusicLM,музыка,слава роботам

"MusicLM" также можно инструктировать с помощью комбинации изображения и подписи или генерировать звук, который "играет" инструмент определённого типа в определённом жанре. Можно установить даже уровень опыта "музыканта".

"Inspired by a hallucinatory experience in which Munch felt and heard a scream throughout nature, it depicts a panic-stricken creature, simultaneously corpse like and reminiscent of a sperm or fetus, whose contours are echoed in the swirling lines of the blood-red sky." By Zaczek, lain. "The

Тем не менее, некоторые мелодии имеют искажения как неизбежный побочный эффект тренировочного процесса. Технически "MusicLM" может генерировать вокал, включая хоровые гармонии, но пока они оставляют желать лучшего. Большая часть "текстов" песен варьируется от подобия английского до набора звуков, которые исполняют синтезированные голоса.

Исследователи "Google" отмечают и множество этических проблем, связанных с "MusicLM", включая нарушение авторского права. Во время эксперимента они обнаружили, что около 1% музыки, сгенерированной системой, был просто отрывками из песен, на которых она обучалась.

Между тем модель "Riffusion" открыта под лицензией "Creative ML OpenRAIL-M", допускающей использование в коммерческих целях. Она работает по аналогии с модификацией изображений в "Stable Diffusion". Так, при генерации могут задаваться образцы спектрограмм с эталонным стилем, комбинироваться разные стили, выполняться плавный переход от одного стиля к другому или вноситься изменения в существующий звук для увеличения громкости отдельных инструментов, изменение ритма и т.д.

Подробнее

Product Hunt @ProductHunt Yesterday, Google published a paper on a new Al model called MusicLM. The model generates 24 kHz music from rich captions like "A fusion of reggaeton and electronic dance music, with a spacey, otherworldly sound. Induces the experience of being lost in space."
Text prompt Generated audio melodic techno ► • 0:00 / 5:00
Text prompts time to meditate (0:00-0:15) time to wake up (0:15-0:30) time to run (0:30-0:45) time to give 100% (0:45-0:60) Generated audio 0:00/ 1:00 4$
"Inspired by a hallucinatory experience in which Munch felt and heard a scream throughout nature, it depicts a panic-stricken creature, simultaneously corpse like and reminiscent of a sperm or fetus, whose contours are echoed in the swirling lines of the blood-red sky." By Zaczek, lain. "The Scream". Encyclopedia 0:00 / 0:30 4) Britannica. 14 Apr. 2022.
наука и техника,технологии,нейронные сети,ИИ,AI,Google,интернет,MusicLM,музыка,слава роботам

Еще на тему

нейронные сети(25635)

ИИ(799)

Google(2746)

интернет(32837)

музыка(14885)

слава роботам(1608)

Развернуть

Отличный комментарий!

Как обмануть идиота

qwerty000034 28.01.202317:45 ссылка

+37.9

Комментарии 4228.01.202317:32ссылка19.6

Как обмануть идиота

qwerty000034 28.01.202317:45 ответить ссылка 37.9

"4:33" Джона Кейджа напоминает

Ca5e 28.01.202317:49 ответить ссылка ↑ 1.2

Отлично, теперь ремиксов мегаловании станет в 10 раз больше

FanStuck 28.01.202317:47 ответить ссылка 21.8

-Archangel- 28.01.202317:50 ответить ссылка ↑ 8.3

а промпт для неё будет выглядеть так:
"турутуту, туру-туру-туру, турутуту, туру-туру-туру"

Реактор-кун 28.01.202321:12 ответить ссылка ↑ 0.5

ДАТЫ ЖЕ ПРОСТО РОБОТ, ИМИТАЦИЯ ЖИЗНИ. РАЗВЕ МОЖЕТ РОБОТ НАПИСАТЬ СИМФОНИЮ, СДЕЛАТЬ ШЕДЕВР?
ДА

demidr 28.01.202317:55 ответить ссылка 27.0

Причём одновременно.

minmatar 28.01.202317:56 ответить ссылка ↑ 17.6

А без человеческого вмешательства?

YangOTW 28.01.202318:10 ответить ссылка ↑ -1.0

Да, скоро.

Empty_Place 28.01.202318:21 ответить ссылка ↑ 1.9

Нет людей - некому вмешиваться :)

Constantine427 28.01.202318:47 ответить ссылка ↑ 2.5

А может ли человек без человеческого вмешательства/обучения/воспитания?

minmatar 28.01.202318:41 ответить ссылка ↑ 3.4

Если не понимать под "человеческим вмешательством" действия этого конкретного человека, то в теории – да. Мы же как-то начали рисовать на стенах, например. Относительно того времени это можно считать шедеврами.
Однако можно поднять вопрос уровня "курица или яйцо" – а что если на это что-то вдохновило? Это конечно не человеческое вмешательство, но близко по смыслу.

YangOTW 28.01.202318:47 ответить ссылка ↑ 1.0

minmatar 29.01.202312:36 ответить ссылка ↑ 0.9

Ну правильно, а то не честно - художников отменяем, а музыкантов нет?

p.s. Еще писатели остались, непорядок. "нейрасетка хачу страшный расказ как у стивена кинга и чтобы рисунков тожы к ниму"

KosmatyGeolog 28.01.202317:55 ответить ссылка 12.7

ChatGPT именно этим и занимается.

Atin Di'kut 28.01.202317:57 ответить ссылка ↑ 19.3

Но в него защиту от выдумки встроили. Пытался из него фэнтези выдавить, так он все время соскакивает, мол этого не существует и поэтому ничего нельзя сказать.

grixa 28.01.202320:00 ответить ссылка ↑ 0.3

нахрена они это сделали?

Empty_Place 28.01.202320:40 ответить ссылка ↑ 2.8

Может чтоб инфа из фэнтези в обычные ответы не перешла. Тип спрашиваешь как разжечь огонь, а тебе в ответ: "Наберите хвороста, взмахните палочкой и скажите инферно".

grixa 28.01.202321:30 ответить ссылка ↑ 9.7

"Авада кедавра, курва!"

Jack Shadow 30.01.202319:09 ответить ссылка ↑ 0.0

Его прям с запуска начали усердно кастрировать от использования для чего угодно кроме "попиздеть". Основная теория на посвящённом нейронке сабреддите - чтобы продавать эти функции отдельно. Хочешь чтобы он тебе сказки про эльфов писал - вынь и полож $199. Хочешь, чтобы это были порнографические сказки - выложи ещё $99.

RaptorAnton 28.01.202322:57 ответить ссылка ↑ 2.1

больше жду когда нейросети будут пилить порно по запросу

Ca5e 28.01.202317:58 ответить ссылка ↑ 8.5

"А когда я буду подходить к страшным моментам генерируй саспенсовую музыку как в фильмах Хичкока"

Kukucapl 28.01.202318:01 ответить ссылка ↑ 1.9

киберпанк все ближе и от этого страшнее

WowCodyWowCody 28.01.202317:58 ответить ссылка -1.7

Ага, "хай тек лоу лайф", но с оговорками - хай тек у больших софтверных компаний, лоу лайф - у всех остальных.

KosmatyGeolog 28.01.202318:00 ответить ссылка ↑ 2.1

так а в чем оговорка?

rendrom 28.01.202318:39 ответить ссылка ↑ 3.7

Agowe 28.01.202318:52 ответить ссылка ↑ 13.2

Ну что, ждём нейро композиторов, кучу тегов на подобии нейрослух, назвучал сам и судебные тяжбы с выкриками: "нейронка обучалась у меня! ПЛАТИ!!!!"

Висс 28.01.202317:59 ответить ссылка 4.0

Если кому-то было интересно, почему во всех фильмах про далёкое будущее звучит рок 80х-90х - вот поэтому. Человеки изобрели роботов, которые генерируют музло, и теперь ты либо слушаешь роботов, либо то что точно появилось до создания роботов, потому что иначе наебут и подсунут творение робота.

RaptorAnton 28.01.202323:00 ответить ссылка ↑ 1.9

Тем временен музыка роботов:

Jack Shadow 30.01.202319:11 ответить ссылка ↑ 0.0

PutinMachtFrei 28.01.202318:03 ответить ссылка 12.8

ну так то Riffusion теоретически можно натренировать на своём плейлисте (например вот https://civitai.com/models/2669/rammstein-riffusion ), загрузить видюху бесконечно генерить и кайфовать

mm33 28.01.202318:29 ответить ссылка 0.3

а можно поподробней как этим пользоваться? есть 3080 и огромная библиотека музыки

Seraphim 28.01.202319:00 ответить ссылка ↑ 0.5

сам я тренить не пробовал, но попытаюсь изобразить примерно как это теоретически можно сделать.
там миллион ньюансов которые в подробнейшей инструкции изобразить невозможно, а простого скрипта как для stable diffusion пока не завезли, но вот примерная инструкция:
1. скачать код сервера из репозитория (лучше через git clone) https://github.com/riffusion/riffusion
2. скачать код веб клиента (лучше через git clone) https://github.com/riffusion/riffusion-app
3. на всякий пожарный скачать модельку (лучше через git clone с активацией lfs) https://huggingface.co/riffusion/riffusion-model-v1
4. заглянуть в README.md сервера riffusion и поставить все необходимые зависимости по инструкции из параграфа Install. там всё просто, если уже ставил stable diffusion, создаёшь новое окружение через ту же conda, ставишь в этом окружении зависимости, дополнительно ставишь ffmpeg
5. заглянуть в README.md клиента riffusion-app и поставить все необходимые зависимости по инструкции из параграфа Run. там тоже ничего сверх естественного только нужна установленная node.js
6. сервер riffusion имеет три режима работы Command-line interface, Riffusion Playground и Model server.
7. режим Model server нужен для непрерывного проигрывания через клиента riffusion-app. Рекомендую начать с него, запустить сервер и клиент и проверить что непрерывное проигрывание работает. Это то что я пробовал и на моей 3080 генерация 5 секундного отрезка с 50-ю шагами занимает 6 секунд что портит ощущение от проигрывания. пришлось немного подправить код клиента уменьшив количество шагов до 30 .
8. режим Riffusion Playground не требует запуска клиента riffusion-app, насколько я понял не умеет проигрывать бесконечно, но на первый взгляд позволяет дообучать модель. я дообучать не пробовал и только примерно представляю как это можно сделать.
10. через вкладку sample clips или через Command-line interface нарезаем аудио файл на 5 секундные отрезки и конвертируем их в спектрограммы.
11. далее через например stable-diffusion-webui дообучаем модель riffusion-model-v1 на этих спектрограммах со своими дополнительными тегами например названием группы и песни
12. далее для меня вообще непонятный момент, как подсунуть свою дообученную модель обратно riffusion серверу, чтобы запустить вместе с клиентом riffusion-app. но чувствую что это можно сделать через ключ checkpoint.
удачи.

mm33 28.01.202320:16 ответить ссылка ↑ 0.6

Огромнейшее спасибо, обязательно сегодня опробую

Seraphim 28.01.202320:30 ответить ссылка ↑ 0.0

Это музыку в нейронку для картинок запихали?

grixa 28.01.202320:04 ответить ссылка ↑ 0.0

это нейронку для картинок приспособили генерить музыку. оказалось не так уж сложно, если конвертировать музыку в картинку со спектрограммой, немножко подучить нейронку и конвертировать результат из спектрограммы обратно.

mm33 28.01.202320:26 ответить ссылка ↑ -0.3

Звучит как костыль, похоже для 3D генераций приспособили и получилось так себе.

grixa 28.01.202321:31 ответить ссылка ↑ 0.3

Есть аналог beatoven.ai

Deviant 28.01.202323:43 ответить ссылка 0.1

Интересно что нагенерит на запрос: чтобы душа развернулась, а потом свернулась

SidUPCG 29.01.202300:30 ответить ссылка 0.0

возрадуйтесь, нейросеть будет убивать нас с приятной музыкой!

DreadzTV 29.01.202311:54 ответить ссылка 0.4

ща коварный гугл эту нейросетевуху всю ещё и закопирайтит и вообще никакую музыку больше использовать будет нельзя

VEGETKO 30.01.202300:52 ответить ссылка 0.0

И вообще, скоро оно сможет генерировать музыку в заданном стиле под имеющийся текст?

Jack Shadow 30.01.202319:12 ответить ссылка 0.0

Только зарегистрированные и активированные пользователи могут добавлять комментарии.

Похожие темы

Фендомы

всё плохо

Всё самое интересное

DC Comics

Тренды

Новый Год

S.T.A.L.K.E.R

Arcane (LoL)

Похожие посты

подробнее»

Men are all alike.
IN UHAT WAY?
They're always bugging us about something or other.
CAN YOU THINK OF A SPECIFIC EXAMPLE7

подробнее»

	twitterРейтинг: 482,569.5
	приколы вконтактеРейтинг: 84,677.5
	GoogleРейтинг: 26,422.2
	facebookРейтинг: 17,405.6
	яндексРейтинг: 11,537.4
	9gagРейтинг: 9,735.2
	википедияРейтинг: 4,149.7
	жжРейтинг: 3,271.8
	skypeРейтинг: 2,115.4
	джимми уэйлсРейтинг: 348.6

	Aki99
	kazo
	shu-mai
	sak (lemondisk)
	shishigaj5