Agente de voz
Ajustes avanzados
Ajusta con precisión la creatividad, la velocidad y la detección del turno de palabra
Los ajustes avanzados permiten afinar el comportamiento conversacional del asistente de voz. Los valores predeterminados funcionan bien en la mayoría de los casos: modifícalos solo cuando tengas un problema específico que resolver, un parámetro a la vez.
Temperatura
La temperatura controla cuánto varían y cuán creativas son las respuestas del asistente. Los valores bajos hacen que las respuestas sean más predecibles y coherentes; los valores altos las hacen más naturales y variadas, pero con mayor riesgo de divagaciones. El intervalo va de 0.6 a 1.2, con 0.8 como valor predeterminado.
- Baja (0.6-0.7)
- Respuestas muy coherentes y repetibles. Ideal cuando se necesita información factual precisa como horarios, precios y disponibilidad.
- Media (0.8, recomendada)
- Buen equilibrio entre coherencia y naturalidad. Adecuada para la mayoría de las tareas.
- Alta (1.0-1.2)
- Respuestas más cálidas y conversacionales. Útil para la acogida y la relación con el cliente, menos indicada cuando se comunican datos críticos.
Velocidad de respuesta
Regula la velocidad con la que el asistente pronuncia las respuestas; el valor predeterminado es 1.0 y el intervalo disponible depende del modelo de voz. Una velocidad adecuada mejora la comprensión sin que la conversación parezca poco natural.
- Más lenta. Mejora la comprensión para clientela de edad avanzada, no nativa o para temas complejos como procedimientos y direcciones.
- Más rápida. Adecuada para conversaciones breves y dinámicas con clientes que ya conocen el servicio.
Detección del turno de palabra
La detección del turno decide cuándo el asistente entiende que has terminado de hablar y puede responder. Un buen ajuste evita dos problemas opuestos: que el asistente interrumpa demasiado pronto y que el asistente haga esperar demasiado antes de responder.
Con OpenAI puedes elegir entre dos modos de detección:
- Semántica (semantic VAD)
- El asistente también evalúa el significado de la frase para entender si está completa. Más natural en las conversaciones reales; se regula con la prontitud.
- Por umbral (server VAD)
- El asistente se basa en el volumen de la voz y en la duración del silencio. Más predecible en entornos ruidosos; se regula con el umbral y la duración del silencio.
- Prontitud. Con qué rapidez interviene el asistente (automática, baja, media, alta). Alta interviene en cuanto percibe una pausa; baja deja más espacio al cliente y se recomienda con quien habla despacio.
- Umbral. Cuán fuerte debe ser el audio para considerarse voz (de 0 a 0.99). Súbelo en entornos ruidosos para evitar arranques falsos; bájalo si al asistente le cuesta oír al cliente.
- Duración del silencio. Los milisegundos de silencio antes de que el asistente considere concluido el turno (de 100 a 2000 ms). Auméntala si el asistente interrumpe a quien hace pausas; redúcela para respuestas más reactivas.
Escenarios y casos de uso
- Recepción de hotel con clientela internacional
- Velocidad ligeramente reducida, temperatura media, duración del silencio más alta y prontitud baja: quien no es nativo hace pausas más largas y no debe interrumpirse.
- Reservas en restaurante en hora punta
- Prontitud media-alta y duración del silencio baja para una conversación rápida; temperatura baja para leer con precisión la fecha, la hora y el número de comensales.
- Llamadas salientes comerciales
- Temperatura media-alta para un tono cálido y persuasivo, velocidad justo por encima de 1.0 y prontitud alta para mantener un ritmo ágil.
- Entorno ruidoso (bar, sala de espera)
- Modo por umbral con un umbral más alto para ignorar los ruidos de fondo y evitar que el asistente arranque solo.
- Clientela de edad avanzada o temas complejos
- Velocidad reducida, duración del silencio alta y prontitud baja para dar el máximo espacio de palabra sin interrupciones.
¿Te ha resultado útil esta página?