Technischer Verfahrensablauf

Im Bereich der Sprechererkennung unterscheidet man zwischen high-level- und lowlevel-Informationen. High-level -Informationen sind Informationen wie der Dialekt, der Akzent, die Art und Weise wie gesprochen wird und wie die subjektive Verfassung des Sprechers ist. Low-level-Informationen sind Werte wie TonhÃ?Â¶he, Periodendauer, Rhythmus, Ton, spektrale Magnitude, Frequenzen, Frequenzbereich und Bandbreite der Stimme des Nutzers. Diese Merkmale werden von Sprecherverifikationssystemen zur Erkennung verwendet. High-level -Informationen hingegen werden von Menschen zur Erkennung genutzt. Sprechererkennung erfasst die Charakteristika wie Rhythmus, Pitch und Frequenz eines jeden Individuums. Zur Aufnahme der Sprache wird ein Mikrofon oder ein regulÃ?Â¤res Telefon verwendet. Bei ErhÃ?Â¶hung der QualitÃ?Â¤t des EingabegerÃ?Â¤ts (Mikrofon/Telefon) steigt die Erkennungsgenauigkeit.
Die Variation der Merkmale, die durch unterschiedliche Personen entsteht, wird Inter-Sprecher-Varianz genannt. Die Inter-Sprecher-Varianz wird verursacht durch unterschiedliche Charakteristika bei verschiedenen Sprechern. Die Intra-Sprecher-Varianz tritt auf, wenn ein Sprecher das gleiche Wort oder denselben Satz mehrfach hintereinander ausspricht, aber ihn nicht mit der gleichen Betonung, dem gleichen Tonfall wiederholen kann. Eine andere Art der Intra-Sprecher-Varianz entsteht, wenn ein Sprecher dasselbe Wort oder denselben Satz ausspricht, aber ihn nicht mit der gleichen Betonung oder auf die gleiche Weise von Versuch zu Versuch wiederholt. Die Intra-Sprecher-Varianz enthÃ?Â¤lt verschiedene Sprechgeschwindigkeiten, den emotionellen Zustand des Sprechers und die GerÃ?Â¤uschumgebung. Die Intra-Sprecher-Varianz ist die Hauptursache fÃ?Â¼r die Performance-SchwÃ?Â¤che von biometrischen Sprechererkennungssystemen. Deshalb ist es wÃ?Â¼nschenswert, die Parameter so zu wÃ?Â¤hlen, dass sie eine niedrigere Intra-Sprecher-Varianz und eine hohe Inter-Sprecher-Varianz aufweisen. In vielen Anwendungen zur Sprechererkennung ist es mÃ?Â¶glich, die Intra-Sprecher-Varianz zu reduzieren, indem der Nutzer aufgefordert wird, den hinterlegten Referenzdatensatz zu wiederholen, der den identischen Text beziehungsweise die gleichen WÃ?Â¶rter enthÃ?Â¤lt. Hierbei handelt es sich um den Fall von textabhÃ?Â¤ngigen Sprecherverikationsverfahren. Es gibt eine Vielzahl von VerfahrensansÃ?Â¤tzen fÃ?Â¼r die Sprechererkennung. Die Methoden der Sprechererkennung lassen sich in textabhÃ?Â¤ngige (statischer Text, oder fest-phrase-Systeme) und textunabhÃ?Â¤ngige Methoden einteilen. Die textabhÃ?Â¤ngige Wiedererkennung basiert auf einer vorher hinterlegten und dem System bekannten Textphrase des Sprechers. Die textunabhÃ?Â¤ngige Sprechererkennung hingegen basiert auf einer vÃ?Â¶llig ungebundenen Textphrase, die von der im System hinterlegten Textphrase abweichen kann. TextunabhÃ?Â¤ngige Methoden benÃ?Â¶tigen in der Regel mehr Trainingsdaten als textabhÃ?Â¤ngige Methoden. TextabhÃ?Â¤ngige Methoden sind im Allgemeinen genauer als textunabhÃ?Â¤ngige Verfahren und erfordern die Kooperation des Benutzers.

Unter den folgenden Bezeichnungen sind in der Literatur VerfahrensansÃ?Â¤tze zur Sprechererkennung zu finden:

Dynamic Time Warping (DTW)
Vector Quantization (VQ)
Neuronale Netze (NN)
Hidden Markov Modelle (HMM)
Gaussian Mixed Models (GMM) in Verbindung mit Maximum Likelihood Estimation (textunabhÃ?Â¤ngig)
Likelihood Normalization
multivariante auto-regressions-Modelle (MAR) genannt.

Seit 1975 ist die Methode des Hidden Markov Modelling (bekannt als HMM-Methode), benannt nach dem russischen Mathematiker A.A. Markov, im Bereich der textunabhÃ?Â¤ngigen Sprechererkennung sehr populÃ?Â¤r geworden. Bei dieser Methode wird die statistische Varianz der spektralen Merkmale gemessen762. Aus einerVielzahl von TrainingsÃ?Â¤uÃ?Å¸erungen wird ein Modell berechnet, dass gleiche Folgen von Merkmalsvektoren erzeugen kann, wie sie bei der Analyse der Trainingsreferenzen gefunden worden sind.
Das Dynamic Time Warping, ein Verfahren der dynamischen Zeitnormierung, beruht auf einem Vergleich von Merkmalen einer Referenz und einer Sprechprobe, wobei es sich bei beiden um das gleiche, isoliert gesprochene Wort handelt. Dabei kann die LÃ?Â¤nge der beiden zu vergleichenden Proben unterschiedlich sein. Der Algorithmus sucht entlang eines vorgeschriebenen Pfadbereiches den optimalen zeitlichen Vergleichspfad zwischen Test- und ReferenzÃ?Â¤uÃ?Â¿erung. Dabei werden die von Anfang bis Ende aufsummierten Differenzen der frequenzmÃ?Â¤Ã?Å¸igen Analyseparameter von Referenz- und Testsignal bestimmt.
Bei der Methode der Vektorquantisierung (VQ) wird das Sprachsignal interpretiert als eine Menge von Merkmalsvektoren, die essentielle Charakteristiken des Sprechers reprÃ?Â¤sentieren. Die Merkmalsvektoren werden in einem Codebuch codiert und zwecks Optimierung einem Trainingsverfahren unterworfen. Ã?Å?ber die letzten Jahre hat sich die Methode des Gaussian Mixture Models (GMM-Methoden) zunehmend im Bereich der textunabhÃ?Â¤ngigen Methoden durchgesetzt. Die GMM-Methode beschreibt ein generisches Wahrscheinlichkeitsmodell mit multivariaten Dichten, die es ermÃ?Â¶glichen, beliebige Dichten zu beschreiben. Diese Methode lÃ?Â¤sst die Interpretation von allgemeinen vom Sprecher abhÃ?Â¤ngigen spektralen Formen zu. Die Verfahren zur textunabhÃ?Â¤ngigen Sprecherverkation machen seit lÃ?Â¤ngerer Zeit ein aktives Feld der Forschung aus, da die niedrige Erkennungsgenauigkeit eine signifikante Restriktion fÃ?Â¼r die Diffusion dieser Systeme bedeutet.

Fingerabdruckschloss L2000

Biometrische Zutrittskontrolle ohne PC mit dem digiID IV zum Preis von 799,00 EUR zzgl. Versandkosten. Direkt zum Shop

BioLite Solo

Biometrische Zutrittskontrolle ohne PC mit dem BioLite Solo zum Preis von 590,00 EUR zzgl. Versandkosten. Direkt zum Shop