Насколько знаю RTX4090 в SD генерит картинку 512x512 за примерно 2.5-3 секунды.
Для риалтайма нужно как минимум 24-30 кадров в секунду или примерно 33 миллисекунды на кадр.
Тогда, если не ошибаюсь, для риалтаймовой генерации видосов в 512x512 нужно как минимум где-то 75 RTX4090.
Какую картинку, какая конкретно архитектура сетки - так много вопросов, так мало ответов.
Обучение да, затратно, но готовая и обученная сетка работает за фиксированное количество времени и зачастую в RT даже на больших картинках, свертки то на что? Видео на верху не вверх компьютерного зрения, всего лишь бесшовное сведение двух и более картинок с переносом "стиля" разных уровней абстракции.
Если это именно сопоставление картинок, то возможно и так.
Возможно это костыли, но челы, которые недавно выпустили эту короткометражку тренировали модель на основе Stable Diffusion.
Для риалтайма нужно как минимум 24-30 кадров в секунду или примерно 33 миллисекунды на кадр.
Тогда, если не ошибаюсь, для риалтаймовой генерации видосов в 512x512 нужно как минимум где-то 75 RTX4090.
Обучение да, затратно, но готовая и обученная сетка работает за фиксированное количество времени и зачастую в RT даже на больших картинках, свертки то на что? Видео на верху не вверх компьютерного зрения, всего лишь бесшовное сведение двух и более картинок с переносом "стиля" разных уровней абстракции.
https://www.tomshardware.com/news/stable-diffusion-gpu-benchmarks
Возможно это костыли, но челы, которые недавно выпустили эту короткометражку тренировали модель на основе Stable Diffusion.