¿Qué es text to speech?
Text to speech, o TTS, es la capa que convierte el texto generado por un sistema de IA en audio hablado para que una persona lo escuche durante una llamada.
En un agente de voz, el TTS no sólo decide si la voz suena agradable. Afecta al ritmo, a la confianza, al coste por minuto y a la facilidad con la que el usuario entiende confirmaciones importantes.
Una voz muy natural no compensa una mala operación. Pero una voz lenta, robótica o mal pronunciada puede arruinar incluso un flujo bien diseñado.
Qué debe controlar
El TTS debe manejar idioma, pronunciación, velocidad, pausas, números, nombres propios, direcciones y tono. En teléfono, además, el audio se comprime y pasa por redes con calidad variable.
La voz debe ser coherente con el tipo de llamada. No suena igual una confirmación de cita que una incidencia sensible o una transferencia a una persona.
Latencia de primera palabra
La experiencia depende mucho de cuánto tarda el agente en empezar a hablar. Un TTS por streaming puede iniciar la respuesta antes de generar todo el audio.
La velocidad no debe sacrificar claridad. Si el usuario pide repetir porque no entendió una dirección o una franja horaria, la llamada termina siendo más larga.
Pronunciación y datos críticos
Nombres de poblaciones, marcas, técnicos, códigos y direcciones necesitan pruebas. Un error de pronunciación puede parecer menor hasta que afecta a una confirmación operativa.
Para datos críticos conviene combinar voz clara con confirmación progresiva: no basta con leer una cadena larga y esperar que el cliente la valide.
Coste y calidad
Las voces de mayor calidad pueden tener más coste o más latencia. La elección debe depender del caso de uso, no sólo del impacto en una demo.
Si la llamada es breve y repetitiva, puede priorizarse velocidad y consistencia. Si la llamada es sensible o comercial, la naturalidad y el control del tono pesan más.
Speech to text
Personalidad y voz de un agente
Latencia en agentes de voz
Diseño conversacional para agentes de voz
Cuánto cuesta un agente de voz
Aplicar IA con criterio
Si estás pensando en aplicar IA en tu negocio, empieza por aquí.
Te explico qué hago, cómo trabajo y por qué no empiezo vendiéndote una herramienta.