RVC, utilizar modelos de voz locales

Este hilo contiene 1 post y 1 página(s).

Soy yo, de piel clara y cabello oscuro peinado. Miro al frente con una expresión tranquila. Llevo una camisa lavanda, un saco azul a cuadros y una corbata morada.  Estoy de pie frente a una pared beige con una decoración floral a mi izquierda y el marco de una puerta oscura a mi derecha.

Rayo

Miércoles, 28/01/2026 19:10:10 • Editado

Guía de clonación e inferencia de voces con RVC

(leer de la web)
primero vamos a iniciar con lo básico, sin adornos ni mamadas raras.

¿qué es RVC?

RVC (Retrieval-based Voice Conversion) es un sistema que aprende cómo suena una voz y luego convierte audios para que suenen como esa voz.

Lo que hace RVC es tomar una voz existente y transformarla para que conserve:
- lo que se dice,
- el ritmo,
- la entonación,

pero cambie el timbre para que suene como la persona entrenada.

Si no hay audio, no hay conversión.


ahora vamos a aclarar conceptos porque aquí es donde casi todos se hacen mierda.

Dataset
El dataset es el conjunto de audios de la voz objetivo, normalmente tu voz o la voz que quieres clonar.
Sirve para que el modelo aprenda el timbre, la resonancia, la forma de pronunciar y las transiciones naturales de la voz.

El dataset debe cumplir reglas claras:
- una sola persona hablando
- audio limpio, sin música ni ruido
- fragmentos cortos (1 a 10 segundos)

Lo ideal es tener entre 15 y 20 minutos totales.
Regla de oro: mejor muchos audios cortos que pocos largos.


Modelo
El modelo es el resultado del entrenamiento.
Es lo que realmente “aprende” tu voz.

En RVC el modelo no es uno solo, son dos archivos durante el entrenamiento:

G (Generator)
Es el que genera la voz convertida.
Este es el archivo que sí se usa para inferencia.

D (Discriminator)
Sirve solo durante el entrenamiento para decirle al modelo si suena real o no.
Este archivo no se usa después.

Sin modelo entrenado, no hay conversión.


Index
El index es un archivo adicional que guarda características de tu voz en forma de vectores.

No es obligatorio, pero sí muy recomendable.
Un modelo con index:
- suena más estable
- tiene menos errores raros
- conserva mejor el timbre

Por eso siempre conviene generar el index después de entrenar.


Entrenamiento
Entrenar es el proceso donde RVC analiza tu dataset.

Lo que pasa internamente es:
- corta los audios
- normaliza volumen
- extrae el tono (pitch o f0)
- extrae características acústicas
- ajusta el modelo poco a poco

Este proceso usa la GPU y puede tardar desde minutos hasta horas dependiendo de:
- cantidad de audio
- epochs
- potencia de tu tarjeta gráfica


Inferencia
Inferencia es cuando ya usas el modelo entrenado.

Aquí ya no se aprende nada.
Solo cargas:
- el modelo
- el index (si lo tienes)
- un audio nuevo

La inferencia es mucho más rápida y consume menos recursos que entrenar.


con esto claro, ahora sí vamos a lo práctico.

Requisitos y descarga de RVC

Para usar RVC correctamente tu computadora debería cumplir como mínimo:

  • Windows 10 u 11 de 64 bits
  • CPU de al menos 4 núcleos
  • 16 GB de RAM mínimo (32 recomendado)
  • 10 GB libres en disco
  • GPU NVIDIA con soporte CUDA
  • mínimo 6 GB de VRAM recomendado
  • drivers NVIDIA actualizados

Sin GPU, entrenar modelos es extremadamente lento o directamente inviable.

Si cumples con esto, descarga RVC desde aquí:

Extrae la carpeta preferentemente en:
C:\rvc\


Abrir RVC por primera vez

Abre un cmd dentro de C:\rvc\ y ejecuta:

go-web.bat

La consola debería mostrar algo como:

Found GPU NVIDIA GeForce RTX 4050 Laptop GPU
Running on local URL: http://0.0.0.0:7897

Esto abre una interfaz web hecha con Gradio.


Estructura importante de carpetas

Hay dos carpetas clave que debes entender.

C:\rvc\logs\
Aquí viven los entrenamientos.
Cada modelo entrenado tiene su propia carpeta.

Ejemplo:
C:\rvc\logs\Rayo2\

Dentro se generan:
- G_xxxxx.pth
- D_xxxxx.pth
- archivo .index
- carpetas de audios procesados
- logs

C:\rvc\weights\
Aquí van los modelos finales para inferencia.

Cuando terminas de entrenar:
- copias el archivo G_xxxxx.pth
- lo pegas en weights
- lo renombras, por ejemplo:
Rayo2.pth
A veces RVC al finalizar lo hace por si solo.

El index NO se mueve.
El index se selecciona directamente desde logs.


Interfaz de inferencia

En la pestaña Model Inference haces lo siguiente (botón).

Primero eliges el modelo desde weights. (cuadro combinado)
Si no aparece, presiona Refresh voice list.

Transpose
Ajusta el tono en semitonos.
0 es lo normal.
+12 sube una octava.
-12 baja una octava.

Audio de entrada
El archivo que quieres convertir.

Pitch extraction algorithm
pm: rápido, calidad media
harvest: lento
crepe: buena calidad, consume mucha GPU
rmvpe: recomendado, balance perfecto

Index
Cargas el archivo .index del mismo modelo.
Si no lo cargas, el modelo funciona pero suena peor.

Search feature ratio
Qué tanto se usa el index.
Valores típicos: 0.6 a 0.8

Volume envelope
Controla cómo se conserva el volumen original.
Valores bajos suenan más naturales.

Protect voiceless consonants
Evita artefactos raros en consonantes.
0.33 es un buen valor.

Le das a Convert y listo.


Entrenamiento de un modelo

En la pestaña Train.

Paso 1
Nombre del experimento.
Este será el nombre de la carpeta en logs.

Sample rate
40k o 48k.
48k = más calidad, más pesado.

Pitch guidance
true para cantar
true también funciona bien para voz hablada

Version
v2 recomendado.

Paso 2a
Seleccionas la carpeta de tu dataset.
RVC procesa y corta los audios.

Paso 2b
Seleccionas la GPU.
Eliges el algoritmo de pitch:
dio o rmvpe recomendados.

Paso 3
Configuras entrenamiento.

Epochs
Cuántas vueltas da el modelo al dataset.
40–80 es normal para datasets pequeños.

Batch size
Cuántos fragmentos se procesan a la vez.
3 es seguro para GPUs de 6 GB.

Guardar solo último checkpoint
Sí, ahorra espacio.

Cache en GPU
No, salvo datasets muy pequeños.

Modelos preentrenados
Usa los que vienen con RVC.

Le das a Train model y esperas.


Cuando termina el entrenamiento

Al finalizar tendrás:
- un archivo G_xxxxx.pth
- un archivo .index

Copias el G a weights. (si rvc no lo hizo)
El index se usa desde logs.


Reentrenar con más audio

Si consigues más audios:
- los agregas al dataset
- usas el mismo nombre de experimento
- vuelves a entrenar

RVC continuará desde lo que ya existe.


Con esto ya tienes todo lo necesario para entrenar, usar y entender RVC sin humo ni bullshit. ya, llégale a la...
¡Compartan los modelos que tengan!

2 1