Тащем да. Есть модели с уже натренированными голосами. Потом выдирается голос с минимумом шумов из трека и заменяется на голос модели, затем сводится всё обратно. Там по сути комплект из нескольких нейросетей.
Тащем да. Есть модели с уже натренированными голосами. Потом выдирается голос с минимумом шумов из трека и заменяется на голос модели, затем сводится всё обратно. Там по сути комплект из нескольких нейросетей.
Тут куча гайдов под все нужды. И онлайн и локально.