Die Geschichte der Spracherkennung

Die Geschichte der Spracherkennung

Spracherkennungssoftware ermöglicht es Handys und Computern, die menschliche Sprache zu verstehen - sei es eine Frage, ein Befehl oder eine allgemeine Aufforderung. Und während dies vor einigen Jahrzehnten noch in den Bereich der Science-Fiction gehört hätte, ist die Spracherkennung heute ein fester Bestandteil des Alltags.

Vom Abrufen der Wettervorhersage und der Auswahl einer Playlist bis hin zum Versenden von SMS und der Verifizierung der eigenen Identität - die Verwendung von Spracherkennung ist bereits so tief in der Gesellschaft verwurzelt, dass wir kaum noch darüber nachdenken.

Aber woher kommt diese Technologie? Wann hat alles angefangen? Und wie sieht die Zukunft aus? In diesem Beitrag werfen wir einen Blick auf die Geschichte der Spracherkennung, wie sie heute eingesetzt wird und was die Zukunft bringt.

Eine Kurzübersicht der Spracherkennung - chronologisch geordnet

1950er Jahre

Das allererste Spracherkennungssystem - namens Audrey - wurde von den Bell Laboratories entwickelt. Es konnte den Klang einer gesprochenen Ziffer (Null bis Neun) mit mehr als 90% Genauigkeit erkennen. Dies funktionierte am besten mit der Stimme des Entwicklers, bei fremden Stimmen war das System weniger genau.

1960er Jahre

Auf der Weltausstellung von 1962 stellte IBM die Shoebox vor, die 16 gesprochene englische Wörter verstehen konnte. Im selben Jahrzehnt entwickelten die Sowjets einen Algorithmus, der 200 Wörter erkennen konnte. All dies basierte auf dem Abgleich einzelner Wörter mit gespeicherten Sprachmustern.

1970er Jahre

Ein vom US-Verteidigungsministerium finanziertes Programm an der Carnegie Mellon University entwickelte "Harpy", ein Programm, das über einen Wortschatz von über 1.000 Wörtern verfügte. Der größte Durchbruch war, dass das Programm ganze Sätze erkennen konnte.

1980er Jahre

IBM entwickelte eine sprachgesteuerte Schreibmaschine namens Tangora, die über einen Wortschatz von 20.000 Wörtern verfügte und mit Hilfe von Statistiken Wörter vorhersagen und identifizieren konnte.

1990er Jahre

Gleich zu Beginn des Jahrzehnts brachte Dragon Systems das erste Spracherkennungsprodukt für Verbraucher auf den Markt: Dragon Dictate. Im Jahr 1997 wurde ein Updates namens Dragon NaturallySpeaking veröffentlicht. Es war das erste Produkt zur kontinuierlichen Spracherkennung und konnte Sprache mit 100 Wörtern pro Minute erkennen. Es wird übrigens auch heute noch verwendet und wurde 2021 von Microsoft gekauft!

Ab den 2000er Jahren

Die KI-Sprach-zu-Text-Technologie hat in den letzten Jahrzehnten enorme Fortschritte gemacht. Google war mit seiner Sprachsuche führend, und auch Apple, Amazon und Microsoft haben sich daran versucht.

Was sind die zwei Arten der Spracherkennung

Es gibt zwei Arten von Spracherkennung: sprecherabhängig und sprecherunabhängig.

  • Sprecherabhängig

Sprecherabhängige Spracherkennungssoftware wird darauf trainiert, eine bestimmte Stimme zu erkennen, ähnlich wie Stimmerkennungssoftware.

Neue Benutzer müssen das Programm "trainieren", indem sie mit ihm sprechen - was oft bedeutet, dass sie ein paar Seiten Text lesen müssen. So kann der Computer die Stimme analysieren und lernen, sie zu erkennen.

Die sprecherabhängige Spracherkennung hat im Allgemeinen eine sehr hohe Genauigkeit.

  • Sprecherunabhängig

Sprecherunabhängige Software ist so konzipiert, dass sie die Stimme eines jeden erkennt, was bedeutet, dass kein Training erforderlich ist. Die Software konzentriert sich auf die Worterkennung und nicht auf eine bestimmte Stimme.

Diese Art der Spracherkennung ist allgemein weniger genau, aber es ist die einzig wahre Option für interaktive Sprachdialoganwendungen (IVR), wie sie beispielsweise von Callcentern verwendet werden, da Unternehmen von Anrufern nicht verlangen können, dass sie seitenweise Text lesen, bevor sie ihre Systeme nutzen.

Wie wird Spracherkennung heute verwendet

Hier ein paar Beispiele für die Verwendung von Spracherkennungssoftware im täglichen Leben:

  • Smartphones

Immer, wenn Sie "Hey Siri" sagen, wird Ihre Anfrage von einer Spracherkennungssoftware verarbeitet. Die Software fungiert als eine Art virtueller Assistent und ermöglicht es uns, unsere Geräte einfach durch Sprechen zu bedienen!

  • Smart-Speaker

Smart-Speaker wie Amazon Echo und Apple HomePod verfügen ebenfalls über integrierte virtuelle Assistenten. Im Jahr 2020 waren 320 Millionen Smart-Speaker im Einsatz, und diese Zahl wird sich bis 2024 wahrscheinlich verdoppeln!

  • Callcenter

Jedes Mal, wenn Sie ein Callcenter anrufen und eine aufgezeichnete Stimme Sie auffordert, Ihren Namen, Ihre Referenznummer oder eine Zusammenfassung Ihrer Anfrage zu formulieren, ist Spracherkennung im Spiel. Dies wird als Interactive Voice Response bezeichnet.

  • Sicherheitssysteme

Viele Sicherheitssysteme, wie z. B. die von Banken, verwenden die Stimmbiometrie als Mittel zur Sicherheitsprüfung eines Kunden.

  • Transkriptionssoftware

Automatische Transkriptionsdienste, wie Transcribe, verwenden Spracherkennung, um Sprache in Text umzuwandeln und Ihnen innerhalb von Minuten, wenn nicht sogar Sekunden, Abschriften zu liefern.

Die Zukunft der Spracherkennung

Die Spracherkennung wird sich immer mehr durchsetzen. Zum Beispiel:

Je mehr sie genutzt wird, je mehr Sprachdaten gesammelt werden und je mehr Investitionen in sie fließen, desto genauer wird die Spracherkennung. Sie wird besser darin, verschiedene Akzente zu verstehen, zwischen Sprechern zu unterscheiden und sogar Emotionen zu erkennen. Irgendwann wird sie vielleicht auch lernen, verschiedene Sprachen und Dialekte gleichzeitig zu verstehen.

Niemand kann mit Sicherheit sagen, was die Zukunft bringt, aber Spracherkennungssoftware ist fast nicht mehr aus unserem Alltag wegzudenken.

Im folgenden Beitrag finden Sie mehr zum Thema KI-Transkription, einschließlich, wie sie funktioniert, wie sie heute verwendet wird und wie die Zukunft aussehen könnte.


Verfasst von Katie Garrett

News abonnieren

Danke, dass Sie unseren Newsletter abonniert haben!