Я думал что ты как автор поста знаешь.
Слишком много текста. Если нужно пиши в личку дам ссылки на репозитории, что сам использовал полгода назад.
TTS (text to speech) для создания мемов обычно подразумевается модель tortoise tts. Можно найти множество репозиториев на гитхабе разного уровня реализации чтобы запустить на своей локальной машине если у тебя видеокарта nvidia и достаточно памяти (примерно от 6 и более гигабайт). Имеет предобученную модель на обычных голосах. Для озвучки игровых персонажей надо будет дообучать на своём датасете с голосами твоего персонажа. Очень медленная, тяжело обучается, плохое качество при маленьких датасетах и неправильных параметрах. Часто не соблюдает интонации и не умеет воспроизводить несловестные звуки которых нету в датасете. Есть модели bark и vall-e но лично у меня не получилось на них создать ничего приемлемого. А к последней даже нету предобученных моделей.
RVC или же Retrieval-based-Voice-Conversion. Азиаты решили, зачем генерировать голос из текста если можно просто менять голос. Эта модель выигрывает во всём кроме того что тебе надо искать или записывать реплики самому. Она быстро дообучается, не требует много памяти видеокарты (Примерно от 2-4 гигабайт и выше), быстро генерирует, и качество звука по сравнению с tts небо и земля. Люди даже генерируют реплики в tts чтобы потом прогнать их через rvc для улучшения качества звука.
Есть онлайн сервисы по типу elevenlabs. На момент моих исследований считались лучшими по качеству в tts. Но как я помню, сервис платный и возможность fine тюнить модели для своих голосов ещё более платная.
Всё что я описал могло давно морально устареть так как я генерировал примерно полгода/год назад. У меня всё ещё установлены обе модели так что если есть банк звуков для fine тюнинга и записанные реплики, могу попробовать сгенерировать что-нибудь для мемов.
Надо было вместо tts юзать rvc и самому читать реплики с интонацией, а потом конвертировать голоса. Качество было бы намного выше, но конечно больше работы. Интересно сейчас вышло уже что нибудь ещё более быстрое и качественное что можно запустить на локалке?
Слишком много текста. Если нужно пиши в личку дам ссылки на репозитории, что сам использовал полгода назад.
TTS (text to speech) для создания мемов обычно подразумевается модель tortoise tts. Можно найти множество репозиториев на гитхабе разного уровня реализации чтобы запустить на своей локальной машине если у тебя видеокарта nvidia и достаточно памяти (примерно от 6 и более гигабайт). Имеет предобученную модель на обычных голосах. Для озвучки игровых персонажей надо будет дообучать на своём датасете с голосами твоего персонажа. Очень медленная, тяжело обучается, плохое качество при маленьких датасетах и неправильных параметрах. Часто не соблюдает интонации и не умеет воспроизводить несловестные звуки которых нету в датасете. Есть модели bark и vall-e но лично у меня не получилось на них создать ничего приемлемого. А к последней даже нету предобученных моделей.
RVC или же Retrieval-based-Voice-Conversion. Азиаты решили, зачем генерировать голос из текста если можно просто менять голос. Эта модель выигрывает во всём кроме того что тебе надо искать или записывать реплики самому. Она быстро дообучается, не требует много памяти видеокарты (Примерно от 2-4 гигабайт и выше), быстро генерирует, и качество звука по сравнению с tts небо и земля. Люди даже генерируют реплики в tts чтобы потом прогнать их через rvc для улучшения качества звука.
Есть онлайн сервисы по типу elevenlabs. На момент моих исследований считались лучшими по качеству в tts. Но как я помню, сервис платный и возможность fine тюнить модели для своих голосов ещё более платная.
Всё что я описал могло давно морально устареть так как я генерировал примерно полгода/год назад. У меня всё ещё установлены обе модели так что если есть банк звуков для fine тюнинга и записанные реплики, могу попробовать сгенерировать что-нибудь для мемов.