UPB-CTTIP Romdoc: Record#1860: Algoritmi de recunoaştere automată a vorbirii în medii cu zgomot

Thesis /

ROMDOC-THESIS-2017-1340

Algoritmi de recunoaştere automată a vorbirii în medii cu zgomot

Zaharia, Tiberius
2013-09-13

Abstract: Abstract Scopul principal al lucrării este elaborarea unui sistem robust de recunoastere a vorbirii în mediul cu zgomot pentru limba română, dependent de vorbitor, vocabular limitat si putere de calcul redusă. Acest obiectiv a necesitat analizarea, design-ul si evaluarea unor metode si algoritmi robusti pentru mediul cu zgomot. Sunt propusi algoritmii de detecŃie VAD si de normalizare cepstrală (CMN) – acestia se bazează pe DTW si VQ. DetecŃia cât mai precisă a momentului de început al unui cuvânt (în prezenŃa zgomotului ambiental) precum si a momentului de sfârsit de cuvânt permite reducerea la minim a volumului de date ce trebuie prelucrat ulterior. A fost propus si un set de algoritmi DTW hibrizi; setul de algoritmi este utilizat în faza de antrenare si combină avantajele DTW cu cele ale cuantizării vectoriale (VQ); la finalul aplicării fiecărui algoritm stocăm un singur model pentru un cuvânt, iar acel model utilizează clase (exact ca în metoda cuantizării vectoriale), fiecare clasă fiind reprezentată prin centroidul său. În faza de recunoastere sunt comparaŃi parametrii rostirii necunoscute cu centroizii modelului de referinŃă. Algoritmii propusi sunt asemănători, combinând câte 2 modele ale aceleiasi etichete, rezultând un model nou, sintetic; sunt aplicaŃi iterativ până rămâne un singur model pentru o etichetă si sunt aplicaŃi în etapa de învăŃare neintroducând timp suplimentar în etapa de recunoastere. DiferenŃele dintre acesti algoritmi apar la modul de calcul al parametrilor corespunzători unei celule de pe drumul optim. Setul de algoritmi este format din: algoritmul DTWVQ cu clase, cel cu lungime minimă sau maximă si algoritmul DTWVQ de mediere aritmetică. Pentru scăderea timpului de comparaŃie este descris un algoritm de compresie bazat pe matricea de adiacenŃă (din teoria grafurilor). Pe baza acestui algoritm a fost propusă o metodă originală de recunoastere (algoritmul rotor). Metoda produce un număr de clase pe baza cărora se definesc template-urile din dicŃionar. Este creată si o tabelă a tranziŃiilor dintr-o clasă în alta. Tabela de tranziŃii se foloseste alături de un set de numărătoare asociate template-urilor din dicŃionar. În faza de recunoastere, pronunŃia necunoscută este împărŃită în ferestre si parametrizată, apoi comparată cu fiecare centroid din dicŃionar rezultând apartenenŃa la o anumită clasă. Folosind tabela de tranziŃii, clasa anterioară si cea curentă, se incrementează unul sau mai multe contoare asociate template-urilor. Odată cu ultima fereastră se alege valoarea maximă a numărătoarelor. Template-ul asociat acestui numărător devine alegerea algoritmului pentru pronunŃia necunoscută. The main purpose of this work is the development of a robust ASR for Romanian language, of small dictionary, speaker dependent and using small computational systems. This goal needs the analysis, design and evaluation of robust methods and algorithms for noise environment. We proposed VAD and CMN algorithms – based on DTW and VQ. The precise detection of start and end of a word (in the presence of noise) minimizes the computing time and data. We proposed also, a set of DTW hybrid algorithms used in the training phase, which combines the advantages of DTW with VQ; at the end of each algorithm we save only one template for each word; the template uses classes (like in VQ method), and each class is represented by his centroid. In the recognition phase we compare the unknown utterance parameters with template centroids. The proposed algorithms are very similar, combining 2 models of same label (word), generating one new, synthetic template; the algorithms run iteratively until only one template is obtained. These algorithms run in the training phase and they don’t add time in the recognition phase. The difference between these algorithms is the computing function of parameters of the cells on the optimal path. These algorithms are: DTWVQ based on classes, minimum length, maximum length and average. We describe a compression algorithm based on adjacency matrix (from graph theory) and an original method of recognition. The method produces a number of classes for defining templates from dictionary. A state transition table is created. Supplementary, we use a set of counters associated to each template from dictionary. In the recognition phase, the unknown utterance is divided into windows, then parameterised and compared with each centroid from dictionary. Using the transition table, the previous and current class, we increment one or more template counters. After the last window, we compute the maximum of the counters. The template associated with this counter is considered to be the recognised word.

Keyword(s): Recunoaşterea vorbirii -- Prelucrarea semnalului vocal -- Teză de doctorat ; Algoritmi computaţionali -- Teză de doctorat ; Lingvistică computaţională -- Limba română -- Teză de doctorat
OPAC: See record in BC-UPB Web OPAC
Full Text: see files

Record created 2017-06-07, last modified 2017-06-07

Similar records

People who viewed this page also viewed:

(275)  Roboţi mobili - Grămescu, Bogdan - ROMDOC-BOOK-2018-004

(274)  Tehnologiile informării şi comunicării : suport de curs - Curta, Olimpia - ROMDOC-BOOK-2007-005

(270)  Optimizarea conceptuală şi operaţională a instalaţiilor chimice multiscop - Voinescu, Sorin - ROMDOC-BC_UPB-THESIS-2003-000000054

(270)  Scientific bulletin Series B: Chemistry and Materials - ROMDOC-Journal-2007-002

(269)  Managementul congestiilor în sistemele electroenergetice în prezenţa surselor regenerabile - Boambă, Claudia-Elena - ROMDOC-THESIS-2021-2325

Rate this document:

Be the first to review this document.

Discuss this document:

Start a discussion about any aspect of this document.