Agente vocale

Impostazioni avanzate

Metti a punto creatività, velocità e rilevamento del turno di parola

Le impostazioni avanzate permettono di mettere a punto il comportamento conversazionale dell'assistente vocale. I valori predefiniti funzionano bene nella maggior parte dei casi: modificali solo quando hai un problema specifico da risolvere, un parametro alla volta.

Temperatura

La temperatura controlla quanto le risposte dell'assistente sono variabili e creative. Valori bassi rendono le risposte più prevedibili e coerenti; valori alti le rendono più naturali e varie, ma con maggiore rischio di divagazioni. L'intervallo va da 0.6 a 1.2, con 0.8 come valore predefinito.

Bassa (0.6-0.7): Risposte molto coerenti e ripetibili. Ideale quando servono informazioni fattuali precise come orari, prezzi e disponibilità.
Media (0.8, consigliata): Buon equilibrio tra coerenza e naturalezza. Adatta alla maggior parte delle attività.
Alta (1.0-1.2): Risposte più calde e conversazionali. Utile per accoglienza e relazione, meno indicata quando si comunicano dati critici.

Velocità di risposta

Regola la velocità con cui l'assistente pronuncia le risposte; il valore predefinito è 1.0 e l'intervallo disponibile dipende dal modello vocale. Una velocità adeguata migliora la comprensione senza far sembrare la conversazione innaturale.

Più lenta. Migliora la comprensione per clientela anziana, non madrelingua o per argomenti complessi come procedure e indirizzi.
Più veloce. Adatta a conversazioni brevi e dinamiche con clienti che conoscono già il servizio.

Rilevamento del turno di parola

Il rilevamento del turno decide quando l'assistente capisce che hai finito di parlare e può rispondere. Una buona taratura evita due problemi opposti: l'assistente che interrompe troppo presto e l'assistente che fa attendere troppo prima di rispondere.

Con OpenAI puoi scegliere tra due modalità di rilevamento:

Semantica (semantic VAD): L'assistente valuta anche il significato della frase per capire se è completa. Più naturale nelle conversazioni reali; si regola con la prontezza.
A soglia (server VAD): L'assistente si basa sul volume della voce e sulla durata del silenzio. Più prevedibile in ambienti rumorosi; si regola con soglia e durata del silenzio.

Prontezza. Quanto velocemente l'assistente interviene (automatica, bassa, media, alta). Alta interviene appena percepisce una pausa; bassa lascia più spazio al cliente ed è consigliata con chi parla lentamente.
Soglia. Quanto deve essere forte l'audio per essere considerato voce (da 0 a 0.99). Alzala in ambienti rumorosi per evitare falsi avvii; abbassala se l'assistente fatica a sentire il cliente.
Durata del silenzio. I millisecondi di silenzio prima che l'assistente consideri concluso il turno (da 100 a 2000 ms). Aumentala se l'assistente interrompe chi fa pause; riducila per risposte più reattive.

Scenari e casi d'uso

Reception alberghiera con clientela internazionale: Velocità leggermente ridotta, temperatura media, durata del silenzio più alta e prontezza bassa: chi non è madrelingua fa pause più lunghe e non va interrotto.
Prenotazioni al ristorante in orario di punta: Prontezza medio-alta e durata del silenzio bassa per una conversazione rapida; temperatura bassa per leggere con precisione data, ora e numero di coperti.
Chiamate in uscita commerciali: Temperatura medio-alta per un tono caldo e persuasivo, velocità appena sopra 1.0 e prontezza alta per mantenere un ritmo brillante.
Ambiente rumoroso (bar, sala d'attesa): Modalità a soglia con soglia più alta per ignorare i rumori di fondo ed evitare che l'assistente parta da solo.
Clientela anziana o argomenti complessi: Velocità ridotta, durata del silenzio alta e prontezza bassa per dare il massimo spazio di parola senza interruzioni.

Questa pagina ti è stata utile?