Spracherkennung verstehen

Stellen Sie sich vor, Sie sitzen entspannt auf dem Sofa und befehlen Ihrem Computer, Laptop oder Handy, einfache Aufgaben wie das Eingeben eines Briefes oder die Ausführung einiger Befehle auszuführen. Ist es möglich?

Natürlich ist es das, wo die Spracherkennung ins Bild kommt.

Nach der Definition handelt es sich um den Prozess der Erkennung der menschlichen Sprache und deren Dekodierung in Textform.

Prinzip

Das Grundprinzip der Spracherkennung beinhaltetdie Tatsache, dass Sprache oder Worte, die von einem Menschen gesprochen werden, Vibrationen in der Luft verursachen, die als Schallwellen bekannt sind. Diese kontinuierlichen oder analogen Wellen werden digitalisiert und verarbeitet und dann zu geeigneten Wörtern und dann zu geeigneten Sätzen decodiert.

Spracherkennung

Komponenten eines Spracherkennungssystems

Woraus besteht also ein grundlegendes Spracherkennungssystem?

Komponenten eines Spracherkennungssystems

  • Ein Sprachaufnahmegerät: Es besteht aus einem Mikrofon, das das konvertiertSchallwellensignale für elektrische Signale und einen Analog-Digital-Wandler, der die analogen Signale abtastet und digitalisiert, um die diskreten Daten zu erhalten, die der Computer verstehen kann.
  • Ein digitales Signalmodul oder ein Prozessor: Es verarbeitet das rohe Sprachsignal wie eine Frequenzbereichsumwandlung, wobei nur die erforderlichen Informationen wiederhergestellt werden.
  • Vorverarbeitete Signalspeicherung: Die vorverarbeitete Sprache wird im Speicher gespeichert, um weitere Aufgaben der Spracherkennung auszuführen.
  • Referenz Sprachmuster: Der Computer oder das System besteht aus vordefinierten Sprachmustern oder Vorlagen, die bereits im Speicher gespeichert sind und als Referenz für den Abgleich dienen.
  • Musterabgleich-Algorithmus: Das unbekannte Sprachsignal wird mit dem Referenzsprachmuster verglichen, um die tatsächlichen Wörter oder das Wortmuster zu bestimmen.
Arbeitsweise des Systems

Lassen Sie uns nun sehen, wie das gesamte System tatsächlich funktioniert.

Arbeitsweise des Systems

  • Eine Sprache kann als eine akustische Wellenform gesehen werden, d.h. Signal, das Nachrichteninformationen überträgt. Ein normaler Mensch mit der begrenzten Bewegungsgeschwindigkeit seiner Artikulatoren (Sprechorgane) kann Sprache mit einer durchschnittlichen Geschwindigkeit von 10 Tönen pro Sekunde erzeugen. Die durchschnittliche Informationsrate beträgt etwa 50 bis 60 Bit / Sekunde. Dies bedeutet, dass im Sprachsignal tatsächlich nur 50 Bits / Sekunde an Information benötigt werden. Diese akustische Wellenform wird vom Mikrofon in analoge elektrische Signale umgewandelt. Der Analog-Digital-Wandler konvertiert dieses analoge Signal in digitale Abtastwerte, indem die Welle in diskreten Intervallen präzise gemessen wird.
  • Das digitalisierte Signal besteht aus einem Strom vonperiodische Signale, die mit 16000-mal pro Sekunde abgetastet werden, und ist nicht geeignet, einen tatsächlichen Spracherkennungsprozess auszuführen, da das Muster nicht leicht lokalisiert werden kann. Um die tatsächlichen Informationen zu extrahieren, wird das Signal im Zeitbereich in ein Signal im Frequenzbereich umgewandelt. Dies geschieht durch den digitalen Signalprozessor in FFT-Technik. Im Digitalsignal liegt die Komponente alle 1/100th einer Sekunde wird analysiert und das Frequenzspektrum für jede solche Komponente wird berechnet. Mit anderen Worten ist das digitalisierte Signal in kleine Teile von Frequenzamplituden unterteilt.
  • Jedes Segment oder der Frequenzgraph repräsentiertdie verschiedenen Geräusche, die von Menschen gemacht werden. Der Computer führt den Abgleich der unbekannten Segmente mit der gespeicherten Phonetik der jeweiligen Sprache durch. Dieser Musterabgleich wird auf drei Arten durchgeführt:

Verwendung eines akustischen phonetischen Ansatzes: In der akustischen phonetischen Herangehensweise ist im Allgemeinen dieVerstecktes Markov-Modell wird verwendet. Dieses Modell entwickelt ein nicht deterministisches Wahrscheinlichkeitsmodell für die Spracherkennung. Dieses Modell besteht aus zwei Variablen - den verborgenen Zuständen der im Computerspeicher gespeicherten Phoneme und dem sichtbaren Frequenzsegment des digitalen Signals. Jedes Phonem hat seine eigene Wahrscheinlichkeit, und das Segment wird entsprechend der Wahrscheinlichkeit mit dem Phonem abgeglichen. Die abgeglichenen Phoneme werden dann gesammelt, um die korrekten Wörter gemäß den gespeicherten Grammatikregeln der Sprache zu bilden.

Verwenden eines Mustererkennungsansatzes: Bei der Mustererkennungsmethode das Systemmit einem bestimmten Sprachmuster für jede Sprache trainiert und das unbekannte Sprachmuster mit dem Referenzsprachmuster verglichen wird, indem der Abstand zwischen den Signalen unter Verwendung einer Zeitverzerrungstechnik bestimmt wird.

Künstliche Intelligenz verwenden: Der Ansatz der künstlichen Intelligenz basiert aufdie Nutzung grundlegender Wissensquellen wie das Wissen über Geräusche, die auf der Grundlage spektraler Messungen gesprochen werden, sowie das Wissen über sinnvolle und syntaktische Wörter.

Faktoren, von denen das Spracherkennungssystem abhängt

Das Spracherkennungssystem hängt von folgenden Faktoren ab:

  • Isolierte Wörter: Zwischen den beiden muss eine Pause seinaufeinanderfolgende gesprochene Wörter, da sich fortlaufende Wörter überlappen können, sodass das System den Beginn und das Ende eines Wortes nur schwer verstehen kann. Daher muss zwischen aufeinander folgenden Wörtern eine Stille herrschen.
  • Einzelner Lautsprecher: Viele Lautsprecher, die gleichzeitig versuchen, Spracheingaben zu geben, können zu einer Überlappung der Signale und zu Unterbrechungen führen. Die meisten der verwendeten Spracherkennungssysteme sind sprecherabhängige Systeme.
  • Größe des Wortschatzes: Sprachen mit großem Vokabular sind für das Pattern-Matching schwer zu berücksichtigen als solche mit kleinem Vokabular, da bei letzteren die Wahrscheinlichkeit, mehrdeutige Wörter zu haben, geringer ist.
Spracherkennungssystem unter Windows 7

Ich möchte die folgenden Schritte für alle Personen empfehlen, die Windows 7 für das Spracherkennungssystem verwenden

  • Öffnen Sie die Systemsteuerung über das Startmenü oder klicken Sie auf das Symbol.
  • Wählen Sie Einfacher Zugriff und klicken Sie dann auf Spracherkennung.
  • Klicken Sie anschließend auf Mikrofon einrichten und wählen Sie das Desktop-Mikrofon aus den verfügbaren Optionen aus.
  • Nehmen Sie als Nächstes das Sprach-Tutorial und befolgen Sie die gegebenen Anweisungen.
  • Danach trainieren Sie Ihren Computer besserOptionen, damit der Computer ein bestimmtes Muster Ihres Sprachsignals speichert. Klicken Sie dazu auf die Option zum Trainieren Ihres Computers, um Sie besser zu verstehen, und befolgen Sie die Anweisungen.
  • Starten Sie nun das Spracherkennungssymbol und beginnen Sie, Ihre Sprache an den Computer zu diktieren. Sie können dem Computerwörterbuch auch eigene Wörter hinzufügen.
Praktische Spracherkennungssysteme: Verwendung von HM2007

Ein praktisches Spracherkennungssystem kann mit einem Spracherkennungs-IC aufgebaut werden HM2007. Das HM2007 ist ein 48-Pin-IC, der Sprache liefertErkennungsfunktion. Es funktioniert in zwei Modi: Manueller Modus oder CPU-Modus. In beiden Modi wird der IC zuerst darauf trainiert, Wörter zu erkennen, indem der Benutzer jedes Wort für die entsprechende auf die Taste gedrückte Zahl sagt. Der IC speichert jedes Wortsignal an der dem Wort entsprechenden Speicherstelle. Die Datenausgabe vom IC ist mit dem Mikrocontroller verbunden und wird von dort auf dem LCD angezeigt.

Praktische Spracherkennungssysteme

Normalerweise verwenden wir den manuellen Modus für den Betrieb des HM2007.

  • Der HM2007 besteht aus einem RDY-Pin, einem aktiven Low-Pin, der anzeigt, dass der IC für Trainingszwecke bereit ist.
  • Die Spracheingabe erfolgt über ein Mikrofon, das an den MICIN-Pin des IC angeschlossen ist.
  • Der IC ist mit einer Tastatur verbunden, die verwendet wirdum eine Zahleneingabe bereitzustellen, die jedem Wort entspricht. Das IC arbeitet in zwei Funktionen - Clear und Train. Wenn die Train-Taste auf der Tastatur gedrückt wird, beginnt der IC mit dem Training.
  • Der Benutzer drückt eine Zifferntaste, bevor er die Funktionstaste "Train" drückt, und sagt dem Mikrofon das gewünschte Wort.
  • Der IC sendet ein hohes Signal an ME (Memory Enable)Pin, der mit dem entsprechenden ME-Pin des SRAM verbunden ist. Das der gedrückten Zahl entsprechende 8-Bit-Datensignal wird über den externen Bus im SRAM (externes RAM) gespeichert.
  • Nachdem die Spracheingabe erkannt wurde, befindet sich der RDY-Pin auf logischem High und der IC befindet sich im Erkennungszustand, wo er den Erkennungsprozess startet.
  • Das Ergebnis des Prozesses wird über den Datenbus mit dem hohen Pin DEN (Data Enable) ausgegeben.
  • Die 8-Bit-Daten können dann über einen seriellen Schnittstellenprozessor an den Mikrocontroller übergeben oder zuerst mit dem Latch-IC 74HC573 zwischengespeichert werden.
  • Der Mikrocontroller ist an ein LCD angeschlossen und so programmiert, dass das entsprechende Wort auf dem Display angezeigt wird.

Die einzige Vorsichtsmaßnahme, die ergriffen werden muss, besteht darin, keine Homonyme (Wörter mit ähnlichem Klang) zu verwenden und sich auch um die Stimmanregung zu kümmern.

So funktioniert ein grundlegendes Spracherkennungssystem. Weitere Eingaben können gerne hinzugefügt werden.

Bildgutschrift

  • Spracherkennungssystem von Gstatic
  • Speech Waveform Manipulation von Dadisp

Komponenten des Spracherkennungssystems durch eine Einführung in die Sprach- und Sprechererkennung - Richard D. Peacocke und Daryl H. Graf


Teile mit deinen Freunden