Spanish TTS Voice Cloning

Estoy buscando una solución de clonación de voz genérica en español castellano que funcione completamente de forma local sobre Windows. El objetivo es disponer de un TTS capaz de generar voces naturales —y que puedan “clonarse” al instante— para producir piezas de audio que usaré en contenidos para redes sociales con fines comerciales. No necesito replicar la voz de una persona concreta; me basta con un modelo base que pueda adaptarse (fine-tuning) y que no arrastre limitaciones de derechos de uso. Requisitos clave • Ejecutable en Windows 10/11 sin depender de servicios en la nube. • Clonación instantánea a partir de un fragmento de referencia genérico. • Castellano de España, con opción a matizar velocidad, entonación y énfasis. • Posibilidad de seguir entrenando el modelo offline para mejorar timbre o incorporar matices emocionales más adelante. • Entrega del código, los modelos y una guía paso a paso para la instalación y el uso cotidiano (CLI o GUI, lo que resulte más estable). Acepto propuestas que aprovechen frameworks como PyTorch, TensorFlow, Coqui TTS, XTTS o similares siempre que la licencia permita uso comercial sin restricciones. Al enviar tu oferta, coméntame brevemente qué stack tienes en mente y ejemplos previos (si los hay) de voces en castellano generadas por tus proyectos.

Python

Реєстрація