Voice AI: 800ms entre la pregunta y la respuesta.
Implementación real con ElevenLabs Premium en tres clínicas. Latencia, métricas y cómo el agente atiende llamadas que antes se perdían.
La latencia es la diferencia entre un chatbot y una conversación real. Por debajo de 800 milisegundos —el umbral donde el cerebro deja de notar el delay— el agente deja de sentirse como una máquina y empieza a sentirse como alguien al teléfono. Por encima, importa poco lo que diga: ya perdiste.
Tres clínicas, mismo problema
Tres centros médicos del portafolio nos pidieron lo mismo: un agente que atienda llamadas, agende consultas y derive emergencias. La operación humana hacía esto bien pero era el cuello de botella de toda la operación: en horas peak se perdía un 30% de las llamadas entrantes.
El stack que armamos
- ElevenLabs Premium para síntesis de voz natural y cálida —latencia menor a 300 ms desde token a audio.
- Modelo conversacional con el protocolo específico de la clínica cargado en memoria.
- Transcripción en tiempo real del paciente.
- Un orquestador propio que mantiene la conversación viva durante los gaps y deriva al equipo humano cuando aparece una emergencia.
Resultado: ~780 ms entre que el paciente termina de hablar y la primera sílaba del agente sale por el speaker. La conversación se siente como con una persona del equipo. Cuando la consulta requiere criterio médico, el caso pasa a un humano sin fricción.
KPIs reales después de 3 meses
- Llamadas atendidas: 100% (antes 70%).
- Tiempo promedio de agendamiento: 92 segundos (antes 4-7 minutos con humano).
- Tasa de derivación correcta a emergencia: 98%.
- Costo por llamada: 0.18 USD vs 1.40 USD humano.
Lo que aprendimos
El modelo no es lo difícil. Lo difícil es el orquestador: manejar interrupciones, pausas, ruidos de fondo, y mantener contexto si la persona corta y vuelve a llamar diez minutos después.
Voice AI en producción es un problema de ingeniería, no de prompting. Y cuando se hace bien, atiende mejor que un equipo humano saturado en horas peak.