Agente de voz

Ajustes avanzados

Ajusta con precisión la creatividad, la velocidad y la detección del turno de palabra

Los ajustes avanzados permiten afinar el comportamiento conversacional del asistente de voz. Los valores predeterminados funcionan bien en la mayoría de los casos: modifícalos solo cuando tengas un problema específico que resolver, un parámetro a la vez.

Temperatura

La temperatura controla cuánto varían y cuán creativas son las respuestas del asistente. Los valores bajos hacen que las respuestas sean más predecibles y coherentes; los valores altos las hacen más naturales y variadas, pero con mayor riesgo de divagaciones. El intervalo va de 0.6 a 1.2, con 0.8 como valor predeterminado.

Baja (0.6-0.7): Respuestas muy coherentes y repetibles. Ideal cuando se necesita información factual precisa como horarios, precios y disponibilidad.
Media (0.8, recomendada): Buen equilibrio entre coherencia y naturalidad. Adecuada para la mayoría de las tareas.
Alta (1.0-1.2): Respuestas más cálidas y conversacionales. Útil para la acogida y la relación con el cliente, menos indicada cuando se comunican datos críticos.

Velocidad de respuesta

Regula la velocidad con la que el asistente pronuncia las respuestas; el valor predeterminado es 1.0 y el intervalo disponible depende del modelo de voz. Una velocidad adecuada mejora la comprensión sin que la conversación parezca poco natural.

Más lenta. Mejora la comprensión para clientela de edad avanzada, no nativa o para temas complejos como procedimientos y direcciones.
Más rápida. Adecuada para conversaciones breves y dinámicas con clientes que ya conocen el servicio.

Detección del turno de palabra

La detección del turno decide cuándo el asistente entiende que has terminado de hablar y puede responder. Un buen ajuste evita dos problemas opuestos: que el asistente interrumpa demasiado pronto y que el asistente haga esperar demasiado antes de responder.

Con OpenAI puedes elegir entre dos modos de detección:

Semántica (semantic VAD): El asistente también evalúa el significado de la frase para entender si está completa. Más natural en las conversaciones reales; se regula con la prontitud.
Por umbral (server VAD): El asistente se basa en el volumen de la voz y en la duración del silencio. Más predecible en entornos ruidosos; se regula con el umbral y la duración del silencio.

Prontitud. Con qué rapidez interviene el asistente (automática, baja, media, alta). Alta interviene en cuanto percibe una pausa; baja deja más espacio al cliente y se recomienda con quien habla despacio.
Umbral. Cuán fuerte debe ser el audio para considerarse voz (de 0 a 0.99). Súbelo en entornos ruidosos para evitar arranques falsos; bájalo si al asistente le cuesta oír al cliente.
Duración del silencio. Los milisegundos de silencio antes de que el asistente considere concluido el turno (de 100 a 2000 ms). Auméntala si el asistente interrumpe a quien hace pausas; redúcela para respuestas más reactivas.

Escenarios y casos de uso

Recepción de hotel con clientela internacional: Velocidad ligeramente reducida, temperatura media, duración del silencio más alta y prontitud baja: quien no es nativo hace pausas más largas y no debe interrumpirse.
Reservas en restaurante en hora punta: Prontitud media-alta y duración del silencio baja para una conversación rápida; temperatura baja para leer con precisión la fecha, la hora y el número de comensales.
Llamadas salientes comerciales: Temperatura media-alta para un tono cálido y persuasivo, velocidad justo por encima de 1.0 y prontitud alta para mantener un ritmo ágil.
Entorno ruidoso (bar, sala de espera): Modo por umbral con un umbral más alto para ignorar los ruidos de fondo y evitar que el asistente arranque solo.
Clientela de edad avanzada o temas complejos: Velocidad reducida, duración del silencio alta y prontitud baja para dar el máximo espacio de palabra sin interrupciones.

¿Te ha resultado útil esta página?