Sprachagent

Erweiterte Einstellungen

Feinjustierung von Kreativität, Geschwindigkeit und Erkennung des Sprecherwechsels

Mit den erweiterten Einstellungen lässt sich das Gesprächsverhalten des Sprachassistenten feinjustieren. Die Standardwerte funktionieren in den meisten Fällen gut: Ändere sie nur, wenn du ein konkretes Problem zu lösen hast, und immer nur einen Parameter auf einmal.

Temperatur

Die Temperatur steuert, wie variabel und kreativ die Antworten des Assistenten ausfallen. Niedrige Werte machen die Antworten vorhersehbarer und konsistenter; hohe Werte machen sie natürlicher und abwechslungsreicher, allerdings mit größerem Risiko von Abschweifungen. Der Bereich reicht von 0.6 bis 1.2, mit 0.8 als Standardwert.

Niedrig (0.6-0.7): Sehr konsistente und wiederholbare Antworten. Ideal, wenn präzise Sachinformationen wie Öffnungszeiten, Preise und Verfügbarkeit benötigt werden.
Mittel (0.8, empfohlen): Gutes Gleichgewicht zwischen Konsistenz und Natürlichkeit. Für die meisten Aufgaben geeignet.
Hoch (1.0-1.2): Wärmere und gesprächigere Antworten. Nützlich für Empfang und Beziehungsaufbau, weniger geeignet, wenn kritische Daten übermittelt werden.

Antwortgeschwindigkeit

Regelt die Geschwindigkeit, mit der der Assistent die Antworten ausspricht; der Standardwert ist 1.0, und der verfügbare Bereich hängt vom Sprachmodell ab. Eine angemessene Geschwindigkeit verbessert das Verständnis, ohne das Gespräch unnatürlich wirken zu lassen.

Langsamer. Verbessert das Verständnis bei älterer Kundschaft, Nicht-Muttersprachlern oder komplexen Themen wie Abläufen und Adressen.
Schneller. Geeignet für kurze, dynamische Gespräche mit Kunden, die den Service bereits kennen.

Erkennung des Sprecherwechsels

Die Erkennung des Sprecherwechsels entscheidet, wann der Assistent erkennt, dass du fertig gesprochen hast und antworten kann. Eine gute Abstimmung vermeidet zwei gegensätzliche Probleme: einen Assistenten, der zu früh unterbricht, und einen Assistenten, der zu lange wartet, bevor er antwortet.

Mit OpenAI kannst du zwischen zwei Erkennungsmodi wählen:

Semantisch (semantic VAD): Der Assistent bewertet auch die Bedeutung des Satzes, um zu erkennen, ob er abgeschlossen ist. Natürlicher in echten Gesprächen; wird über die Reaktionsbereitschaft eingestellt.
Schwellenwertbasiert (server VAD): Der Assistent stützt sich auf die Lautstärke der Stimme und die Dauer der Stille. Vorhersehbarer in lauten Umgebungen; wird über Schwellenwert und Dauer der Stille eingestellt.

Reaktionsbereitschaft. Wie schnell der Assistent eingreift (automatisch, niedrig, mittel, hoch). Hoch greift ein, sobald eine Pause wahrgenommen wird; niedrig lässt dem Kunden mehr Raum und ist bei langsam sprechenden Personen empfehlenswert.
Schwellenwert. Wie laut das Audio sein muss, um als Sprache zu gelten (von 0 bis 0.99). Erhöhe ihn in lauten Umgebungen, um Fehlstarts zu vermeiden; senke ihn, wenn der Assistent den Kunden schwer hört.
Dauer der Stille. Die Millisekunden Stille, bevor der Assistent den Sprecherwechsel als abgeschlossen betrachtet (von 100 bis 2000 ms). Erhöhe sie, wenn der Assistent Personen unterbricht, die Pausen machen; reduziere sie für reaktionsschnellere Antworten.

Szenarien und Anwendungsfälle

Hotelrezeption mit internationaler Kundschaft: Leicht reduzierte Geschwindigkeit, mittlere Temperatur, höhere Dauer der Stille und niedrige Reaktionsbereitschaft: Nicht-Muttersprachler machen längere Pausen und sollten nicht unterbrochen werden.
Restaurantreservierungen zur Stoßzeit: Mittlere bis hohe Reaktionsbereitschaft und niedrige Dauer der Stille für ein schnelles Gespräch; niedrige Temperatur, um Datum, Uhrzeit und Anzahl der Gedecke präzise abzulesen.
Kommerzielle ausgehende Anrufe: Mittlere bis hohe Temperatur für einen warmen und überzeugenden Ton, Geschwindigkeit knapp über 1.0 und hohe Reaktionsbereitschaft, um ein lebhaftes Tempo zu halten.
Laute Umgebung (Bar, Wartebereich): Schwellenwertbasierter Modus mit höherem Schwellenwert, um Hintergrundgeräusche zu ignorieren und zu verhindern, dass der Assistent von selbst zu sprechen beginnt.
Ältere Kundschaft oder komplexe Themen: Reduzierte Geschwindigkeit, hohe Dauer der Stille und niedrige Reaktionsbereitschaft, um maximalen Sprechraum ohne Unterbrechungen zu bieten.

War diese Seite hilfreich?