Бонус для тех кто решил перечитать комментарии.
Ну это я так делал. Принципиально не брал модели LoRA. А так, если пойти по легкому пути, то тебе нужна LoRA обученная на какого-то персонажа. Скачиваешь, подключаешь, кайфуешь.
PS: Если делать не какого-то редкого персонажа, на вроде Реактор-тян, то скорее всего уже где-то есть LoRA на этого персонажа. Большинство того что штампуют в "нагенерил сам", это сделано с помощью модели LoRA обученной на этом персонаже.
Только если в краце. Как установить Stable Diffusion лучше идти на Ютуб, там ищи Stable Diffusion Portable.

А так самое главное это было найти специальную Inpaint модель, в дополнение к обычной. Загугли "Anime_v1-inpainting" (ps: лучше в Яндексе, гугл не находит. На сайте хагинфейс она лежит). Фишка inpaint моделей в том что в img2img в Inpaint она хорошо дорисовывает, перерисовывает, дополняет исходное изображение на основание того что у тебя там сейчас. (Да, знаю что в ControlNet есть Inpaint с любой модели, но у меня он в 15 раз медленнее так рисовал).
Для примера опишу как мучался с кедами. Модель рисовала кеды просто ужасно. Нашел 3d модель кед, сделал скрин под нужным ракурсом. Закинул в фотошом, поменял им цвет аккуратно помазал по ним оранжевым цветом. Всею эту страшную штуку прилепил на картинку там где они должны быть. А потом беру inpaint модель (честно, не помню, была ли это anime модель), в img2img в Inpaint. Выделяю что надо перерисовать, в ползунках выкручиваю Denoising strength поменьше, в Promt пишу что это кроссовки. Ну и он из оранжево белого пятна рисует кроссовок, главное нужной формы "пятно" и чтобы оно максимально(на сколько получится) походило на то что тебе надо. И так со всем, главное нарисовать максимально похожее на что-то пятно, и потом по нему пройтись в Inpaint. Не нравится тень в этом месте замажь и в Inpaint, отверстия шнурков "разбежались", поправь в Photoshop и в Inpaint... думаю суть уловил.
Еще момент чтобы он проработал какую-то часть лучше, надо ему ограничить область работы, поставить Only Masked. Область регулировать можно еще с помощью "Only masked padding, pixels". И постоянно следить, чтобы он какую-то хрень не дорисовал, удалять эту хрень сразу в Photoshop. Для примера если ты в Promt напишешь, рыжие волосы. А область ограничишь ногой, то не удивляйся что получишь рыжую волосатую ногу. Так что заранее думай, о чем он должен знать, а о чем нет.

Если рисует то что тебе не надо, пиши в Negative promt.
В Negative promt для этой модели у меня всегда было: (worst quality, low quality, mutated hands and fingers, bad anatomy, wrong anatomy, ugly, mutation:1.2)

По поводу ControlNet. Там использовался Lineart. То есть закидывал изображение, он создал маску. По этой маске он пытался повторить контуры исходного изображения. Можно сохранить картинку этой маски, что-то стереть, что-то дорисовать и на основе этого генерировать. По кнопкам не подскажу, обновил ControlNet там что-то новое, а в консоли ошибки, так что еще разбираться с этой хренью. Помнится как-то вещи надо было скачивать для него, сейчас уже не помню, на том ютуб канале у поищи, там практически все это есть (я про канал где лежит видео "Stable Diffusion Portable").

А так на эту картинку было убито столько времени, что вряд ли я когда-то еще возьмусь что-то такое делать.
Да, не надо было видимо гнаться за сохранением пропорций с арта. Что позволено рисунку, не позволено при закосе под реализм.
По поводу воды. Наш кот не пил из миски или тарелки которая стояла около еды, а вот банка с водой в рандомном месте квартиры его привлекала и он из неё с удовольствием пил. Позже самая любимая банка была переставлена ближе к еде. Затам под банкой появилась глубокая тарелка, со временем банку убрали пьет из тарелки.
По поводу эмоций. Когда описывал все изображение писал "смеется" (на англ. конечно же), но брови всегда был подняты, пришлось выкручиваться. Отдельно выделил брови в Inpaint и написал "плачет", только после этого получилось что-то близкое к оригиналу.
PS: Inpaint - это перегенерация какой-то области исходного изображения.
Переходил на вкладку скетч, замазывал лишние пальцы и фаланги, возвращался в Inpaint и делал чтобы он немого учитывал основное изображение. И куча попыток.... А еще немного помог исходный кадр из фильма. Вот как выглядело это в самом начале.
Время понятие растяжимое в данном случае, была бы хорошая видюха, было бы быстрее. А так было сгенерировано 700 изображений. Если на одну генерацию изображения у меня уходило где-то 40-60 секунд ожидания, то где-то 8-12 часов чисто ожидания компа.
Все равно красотули получаются
- I â-v Щ к у /Л • 1 * л 1 ^Г^1 * Jbl 1 â»Y ' .*