Получил доступ в бету Stable Diffusion, делюсь впечатлениями и изысканиями
Больше недели развлекаюсь с нейросетью, накопил архив удачных и не очень генераций, решил скомпилировать сюда, может, кому интересно.
Бэкстори: Stable Diffusion обещает быть полностью опенсорсным, пока что доступ для 15 тысяч бета-тестеров идёт через дискорд, вскоре грозятся запустить сайт, для исследователей есть возможность заполнить форму и скачать модель, чтобы запускать у себя локально. В конечном итоге они обещают выложить модель и веса в открытый доступ, бесплатно. Особая прелесть сети в том, что она, как утверждает руководитель проекта, способна работать с 5.1 Гб видеопамяти - т.е. её можно запустить на домашнем ПК и генерировать изображения за несколько секунд.
Упреждая ваш вопрос - да, сеть умеет генерировать сиськи, причем зачастую даже если её об этом не просить, например, по запросу "нимфа" или "соблазнительная". Причем они даже ок. Пользовательское соглашение гласит, что вы не будете генерить NSFW, пока используете сервера проекта, если это случилось - нужно зарепортить модеру, но в целом правила очень лояльны, за всё время из 15к участников выгнали около 70, за то что они настойчиво генерировали NSFW. Когда модель станет доступна, то на своём железе можно будет генерить что душе угодно.
Итак, на что я потратил всё это время? Я пытаюсь немного экспериментировать, чтобы выяснить, как запросы (prompt) влияют на изображение. У сети есть удобная фича - генерация выдаёт сид, с которого сгенерирован шум, лежащий в основе изображения. С его помощью можно повторно генерировать картинки с небольшими изменениями в запросе.
Используя один и тот же запрос и меняя только имена авторов, я составил для себя таблицу с референсами на стили известных художников. Дисклеймер: все изображения сгенерировались с первого раза, я не пытался повторять попытки и выбрать что получше
Как видно, какие-то получаются лучше, чем другие. Но вообще, портретики в стиле Артгерма получаются у сети лучше всего. Забавно при этом то, что если указывать рандомные имена в качестве художников, сеть всё равно делает вид, будто всё идёт по плану.Что характерно, портреты очень часто удачно получаются с первой попытки. Я скопировал описание Ферро из "Первого закона" Аберкромби и получил весьма годные результаты, правда без шрамов.
Как вообще работает это хрень и что такое диффьюжн? Это лучше загуглить, ибо моё представление весьма туманно. Сеть генерирует шум, и потом начинает... обратно размывать изображение, типа как можно заблюрить картинку до полной каши, а тут процесс в обратную сторону? Делается это пошагово, максимум дают сделать 150 шагов, по дефолту 50. Процесс примерно можно увидеть на ролике с контрафактной Элой ниже, число в углу это количество шагов.Что ещё хорошего умеет сеть? Она неплохо справляется с бэкграундами, простые вещи выглядят вполне убедительно, особенно если не всматриваться.
Хаяо Миядзаки, осенний лес
Хаяо Миядзаки, выжженная пустыня
Хаяо Миядзаки, зимний городок
Хаяо Миядзаки, пустоши
Портовый город, бэк из видеоигры
Мрачный средневековый город, бэк из видеоигры
Ну и конечно, дело не ограничивается артами, сеть также умеет в фото, вот вам моя коллекция Снейков (солидных, ибо за нагих Снейков дают таймаут).На самом деле Снейк - очень неудачная модель, т.к. его глазная повязка сбивает сеть с толку.Вот вкратце сильные стороны нейросети. Теперь давайте об её слабостях, ибо их хватает. Например, генерировать персонажей в полный рост - сущее мучение, я не знаю, в чем дело, то ли привычка художников обрезать персонажам ноги, то ли криво кропнутые картинки в базе, на которой училась сеть, но в 2/3 случаев при запросе персонажа в полный рост вы получите или обрезанного, иногда с головы, перса, или персонажа с лишними телами и головами. Если портреты отлично генерятся с первой попытки, то с персонажами нужно основательно мучатся. Единственный плюс: если вы нашли удачный сид, где перс в полный рост, его можно переиспользовать. Ниже типичные запоротые генерации, и это ещё не самое стрёмное.
Один из способов консистентно получать персонажа в полный рост - использовать запрос anime model sheet в разрешении 512 на 1024, но тогда сильно страдает детализация.
Еще одно ограничения, которое я пока не знаю как обойти - слишком детализированные запросы. Например, здесь 4 изображения по запросу "женщина с белыми волосами, жёлтыми глазами и в красном платье". Сеть путает, какие цвета к чему относятся.Заключение. Stable Diffusion пока что немного уступает по качеству изображений DALL-E 2, на мой взгляд получше чем Midjourney, при этом значительно быстрее и не обременена цензурой, и это только первая стадия бета-теста. Несмотря на определённые ограничения, сеть уже вполне может генерить простые стоковые картинки, кастомные аватарки для вашей гномки-лича в Пасфайндере и возможно даже задники для вашей инди-игры.Окей, пост уже и так непомерно длинен, так что я закругляюсь, описал далеко не всё, если есть вопросы - задавайте, постараюсь ответить.