Да почему. Там вполне себе реальные методы для генерации используются. Причем относительно простые. Тут используется старый добрый трансформер и недавно набравшие популярность диффузные модели. Отличие от других подобных проектов просто в масштабе. Модели склалированы на миллиарды параметров. Датасет для обучения почти на миллиард пар изображение текстовое описание. И в мощностях пара сотен специализированных для нейронок процев, что бы это все обучалось.
Корпорации больше всего боятся выкладывать такие сетки из-за выученных ею стереотипах, если типа просишь сгенерить судью, то это будет чаще всего пожилой белый мужик, ну и прочее подобное. Гугл уже обожглась когда одна их сетка классифицировала черных как горилл.
Не, Скуби хочет выебать только Шегги
Меня до сих пор поражает что они это делали как какие-то гаражные самоделкены отвёрткой, а не сделали нормальной и надёжный механизм для управления смыканием сфер.
Ну аналог сделать трудно. Просто из-за того что только корпорациям хватает силенок тренировать такие сетки. В данном случаи там пайплайн из сеток на миллиарды параметров, сотни миллионов изображений в качестве датасета, тупо огромные вычеслительные мощности нужны для тренировки такого. Собственно не малый уровень качества итоговых изображений идёт из такого масштаба. Это конечно не языковые модели на сотни миллиардов параметров, но для опенсурса и любителей тяжеловато такое повторять. А большие дядьки вообщем сейчас не любят nsfw.
Сразу говорю нет, сиськи генерить не получится.
Preventing Harmful Generations
We’ve limited the ability for DALL-E 2 to generate violent, hate, or adult images. By removing the most explicit content from the training data, we minimized DALL-E 2’s exposure to these concepts. We also used advanced techniques to prevent photorealistic
Вот да, в альтернативном таймлайне топил бы тогда за восстановление Киевской Руси, а не российской империи.
Ты не дооцениваешь насколько компании сейчас боятся всей этой культурной галиматьи. Если почитать любую статью о какой-либо нейронке от большой корпорации, то там обязательно будет большой блок о токсичности и стереотипах. Типа если просить далли генерить адвокатов или генеральных директоров, то оно будет по запросу в основном генерить белых мужиков.

https://github.com/openai/dalle-2-preview/blob/main/system-card.md

Ну еще раз повторю она не открыта, но пока ее дают очень разным людям, а не какой-то внутренней кухне и совсем уж не сусветной хрени я пока особо не видел примеров.
Это openai. А они как известно не сильно open. По большей части это ограничено коммерческими соображениями (ну тоесть желанием грести денег) и тем, что это все в бэтатесте по сути. И в бэтатесте даже не из-за какого-то качества, а из-за того что большие корпы занимающиеся нейронками параноят, что бы сетки их не генерили по запросу голых Гитлеров пытающих детей евреев или негров в цепях на плантациях.
Я вообще сомневаюсь что это в скором времени в открытый доступ выложат и если выложат, то урезанную версию. Надежда только на опенсорсное комьюнити и то, что оно это сможет повторить. Благо это не трансформеры на сотни миллиардов параметров в которые только корпорации и могут.
Ну дык в плане реалистичности итогового изображения и способности соответствовать текстовому описанию это все равно гораздо сильнее всех прошлых картинко генераторов по описанию.
Другое дело тут трудно понять это результат самой архитектуры, так-то сильно принципиально нового ничего не сделано, это теже диффузионные модели, которые в последнее время набрали популярность в которые сильно интегрировали тот же CLIP от OpenAI или же просто эффект от масштабирования: толще сети, больше датасеты, куча ГПУ.
Ну так избранные это те кто отстоял в очереди получили доступ к API. После чего они могут делать что хотят, то есть это простят не внутренние сотрудники опенаи.
А по ограничениям во небольшой трэд
https://twitter.com/benjamin_hilton/status/1520032772072607747
Вот тут тоже поигрались
https://towardsdatascience.com/dall-e-an-ai-treasure-chest-in-action-894c3a9cca92?gi=b51983db51a7