Nach einer Weile wird das neue Spracherkennungssystem aus Deutschland den Text kopieren. Das System versteht Formulierungen besser als menschliche Leser.

Zum ersten Mal haben Forscher am Karlsruher Institut für Technologie (KIT) eine KI entwickelt, die die spontane Sprache besser versteht als die meisten Menschen. Darüber hinaus konnten die Entwickler die Berechnungszeit des Spracherkenners auf einem niedrigen Niveau halten: Die Verzögerung betrug 1,75 Sekunden, und die Fehlerrate seines neuronalen Netzwerks im Benchmark-Test der englischen Telefonzentrale erreichte 5,0%.

Bei diesem Benchmark erhalten die Leute normalerweise 5,5% Unrecht. Das sogenannte „Switchboard“ -Konversationskorpus umfasst ca. 2500 Konversationen mit 500 verschiedenen Sprechern und ist ein international anerkannter Standardtest für die Spracherkennung. Auf diese Weise sind KIT-Lösungen den Systemen von Microsoft, Google und IBM weltweit deutlich voraus.

Probleme

Der aufgezeichnete Spracherkenner ist die Kernkomponente des Sprachübersetzers, eines automatischen Übersetzungssystems, das seit 2012 in Karlsruhe Reden in verschiedenen Sprachen schreibt. Von Anfang an haben Forscher Erfahrungen mit typischen Problemen mit spontaner Sprache gesammelt, wie Stottern, Satzbrüchen, Tonverzögerungen („äh“) und vagen Begriffen.

„Unsere Stärke liegt in der Basistechnologie“, sagte Dr. Dr. Sebastian Stüker, Leiter des mehrsprachigen Spracherkennungsteams. Der Spracherkenner des KIT-Teams stützt sich auf das neuronale Netzwerk in der Encoder-Decoder-Architektur, kombiniert jedoch die Aufmerksamkeitsschichten zuvor konkurrierender Methoden wie LSTM (Long Short-Term Memory) und Konvertermethoden. „Darüber hinaus haben wir die Minimierung der Verlustfunktion beim Training des neuronalen Netzes modifiziert und damit die Wartezeit verkürzt“, berichtet Stüker.

Die Berechnungszeit des Erkenners kann nun variabel eingestellt werden. Die Forscher konnten die Fehlerrate menschlicher Zuhörer in nur 1,3 Sekunden knacken, und ihre Fehlerrate war viel besser. Derzeit läuft ein Trainingszyklus für die deutsche Spracherkennung. Hier wird die Verbesserung immer offensichtlicher, aber Forscher haben keinen vergleichbaren anerkannten Maßstab.

Fazit

Die Fortschritte in der Entwicklung von künstlicher Intelligenz sind beeindruckend und gehen immer schneller voran. Automatische Transkriptions-Software gibt es schon einige auf dem Markt und sie wird auch immer beliebter. Klar stößt diese noch bei einigen Dingen an ihre Grenzen, jedoch sollte man diese Technik im Auge behalten.

Sollten Sie noch weiterhin Fragen haben bezüglich technischen Wissens, melden Sie sich gerne bei uns.

Kommentarbereich geschlossen.