Винтовка — это праздник, всё летит в пизду!
Мем для знатоков флоры Лин Куэй
Петрушка
Малина
Я проверил сейчас всё нормально заработало. Когда сеть сама по себе переподключается бывает считает за бота.
Замечательно почекал свой эмейл
Sorry, you have been blocked
You are unable to access cybernews.com
		
i		i
		W
Why have I been blocked?
This website is using a security service to protect itself from online attacks. The action you just performed triggered the security solution. There are several actions that could trigger
Я горел, меня ебали.
Сталкеры, всем кто меня слышит. Приближается выброс. Срочно ищите надёжное убежище.
А пахнет то как!
Я думал что ты как автор поста знаешь.
Слишком много текста. Если нужно пиши в личку дам ссылки на репозитории, что сам использовал полгода назад.

TTS (text to speech) для создания мемов обычно подразумевается модель tortoise tts. Можно найти множество репозиториев на гитхабе разного уровня реализации чтобы запустить на своей локальной машине если у тебя видеокарта nvidia и достаточно памяти (примерно от 6 и более гигабайт). Имеет предобученную модель на обычных голосах. Для озвучки игровых персонажей надо будет дообучать на своём датасете с голосами твоего персонажа. Очень медленная, тяжело обучается, плохое качество при маленьких датасетах и неправильных параметрах. Часто не соблюдает интонации и не умеет воспроизводить несловестные звуки которых нету в датасете. Есть модели bark и vall-e но лично у меня не получилось на них создать ничего приемлемого. А к последней даже нету предобученных моделей.

RVC или же Retrieval-based-Voice-Conversion. Азиаты решили, зачем генерировать голос из текста если можно просто менять голос. Эта модель выигрывает во всём кроме того что тебе надо искать или записывать реплики самому. Она быстро дообучается, не требует много памяти видеокарты (Примерно от 2-4 гигабайт и выше), быстро генерирует, и качество звука по сравнению с tts небо и земля. Люди даже генерируют реплики в tts чтобы потом прогнать их через rvc для улучшения качества звука.

Есть онлайн сервисы по типу elevenlabs. На момент моих исследований считались лучшими по качеству в tts. Но как я помню, сервис платный и возможность fine тюнить модели для своих голосов ещё более платная.

Всё что я описал могло давно морально устареть так как я генерировал примерно полгода/год назад. У меня всё ещё установлены обе модели так что если есть банк звуков для fine тюнинга и записанные реплики, могу попробовать сгенерировать что-нибудь для мемов.
Надо было вместо tts юзать rvc и самому читать реплики с интонацией, а потом конвертировать голоса. Качество было бы намного выше, но конечно больше работы. Интересно сейчас вышло уже что нибудь ещё более быстрое и качественное что можно запустить на локалке?
Ммм петрушевый чай.