no se le entiende
comete demasiados errores de diccion y cuando le bajas la velocidad , con la que debe hablar ahi ya no se le entiende nada
estás utilizando el espacio de huggingface? https://huggingface.co/spaces/jpgallegoar/Spanish-F5
si https://huggingface.co/spaces/jpgallegoar/Spanish-F5 y no se le entiende nada su queres te envio un audio
Me pasó lo mismo, pero porque la persona del audio hablaba demasiado rápido/no vocalizaba demasiado claro, pero con audios claros y bien vocalizados se arregla en gran medida. Causó que, en los audios generados, la IA se saltara palabras o las repetía. Es más común que me pase si el audio original tiene más silencios, y empeora significativamente bajando la velocidad. 🤔
Como input, el texto fue "Teorías de skibidi toilet. En el episodio trece podemos ver que, este es el único que puede lanzar rayos además de giman. O sea, yo digo que es su hijo... Pues, yo creo eso."
Sí, el modelo no se adapta bien al slider de velocidad ni a voces extrañas. La mejor opción si de verdad quieres esa voz es reducirle la velocidad de otra forma antes de subirlo al F5
no es voz extraña la que subi y es bien clara , a demas le pone acento chileno - y el multiabla directamente da error.
Escucha, o buscador, estas canciones de experiencia,
nacidas de la realización directa:
En la casa de la confusión
la mente vaga como un ciego.
Atada por las cuerdas de los conceptos,
danza en el teatro de sus propias proyecciones.
¡Oh, qué maravilla!
Ni siquiera te has dignado a leer las instrucciones:
"
Para los mejores resultados, intenta convertir tu audio de referencia a WAV o MP3, asegurarte de que duren entre 11 y 14 segundos, que comiencen y acaben con entre medio segundo y un segundo de silencio, y a ser posible que acabe con el final de la frase.
"
Desde ya me di cuenta que tu audio termina en la mitad de una palabra. Con respecto al acento, mientras más información de fonemas incluya tu audio de entrada, más sabe el modelo.
el audio que te mande es el resultado no la voz original,
da error para cargar el audio original pero dura 13 segundos
Si, ya se que es el resultado. Escuchando los errores sé que tu audio original está mal de alguna forma u otra. Subelo aqui y me mandas el link https://vocaroo.com/
Hola! Gracias desde ya por el trabajo hecho, estoy teniendo problemas tambien para generar el audio, la voz la copia perfecto pero dice cosas extrañas que no son ni pablabras, subi wav de 8 seg con silencios al incicio y al final, sera que tengo mal algun archivo? busco acento argentino, lo poco que s ele llega a entender es con tono español, gracias por la ayuda!! (adjunto audio de original)
Hola! Gracias desde ya por el trabajo hecho, estoy teniendo problemas tambien para generar el audio, la voz la copia perfecto pero dice cosas extrañas que no son ni pablabras, subi wav de 8 seg con silencios al incicio y al final, sera que tengo mal algun archivo? busco acento argentino, lo poco que s ele llega a entender es con tono español, gracias por la ayuda!! (adjunto audio de original)
Hay que tener cuidado con la puntuación, puede afectar mucho a romper palabras y saltárselas
Hola! Gracias desde ya por el trabajo hecho, estoy teniendo problemas tambien para generar el audio, la voz la copia perfecto pero dice cosas extrañas que no son ni pablabras, subi wav de 8 seg con silencios al incicio y al final, sera que tengo mal algun archivo? busco acento argentino, lo poco que s ele llega a entender es con tono español, gracias por la ayuda!! (adjunto audio de original)
https://huggingface.co/jpgallegoar/F5-Spanish/discussions/2#67364acd816b0ef9a2f995c7
Hay que tener cuidado con la puntuación, puede afectar mucho a romper palabras y saltárselas
Espectacular como te queda el resultado, ojala pudiera , recien puntue un poco distinto y mejoro algo el tono, pero sigue haciendo cosas raras, algun consejo en cuanto a la puntuacion?
Mientras menos uses, mejor. Hay que ir probando. Si se salta una palabra intenta agregar otro espacio antes de ella. Es muy sensible el modelo, yo lo consideraria una beta. Intentaré hacer algo mejor en el futuro.
lo que mejor entiende son los puntos, el resto mejor ni incluirlos. los acentos sí
no hablo demasiado rapido , funciona mal y lo demas es buscar excusas, jaja pareces funcionario publico argentino. lo real es que quisieron adaptar un modelo en ingles y no sirve
Yo descargue el modelo y cambie el que pinokio usa por defecto y la verdad me funciona muy bien, eso sí hay que escribir con muy buena ortografía, funciona mejor si tu audio no tiene ruido de fondo y además vocalizas