Czasopisma
Czasopisma
Czasopisma
ATEST - OCHRONA PRACY
ATEST - OCHRONA PRACY
AURA
AURA
AUTO MOTO SERWIS
AUTO MOTO SERWIS
CHEMIK
CHEMIK
CHŁODNICTWO
CHŁODNICTWO
CIEPŁOWNICTWO, OGRZEWNICTWO, WENTYLACJA
CIEPŁOWNICTWO, OGRZEWNICTWO, WENTYLACJA
DOZÓR TECHNICZNY
DOZÓR TECHNICZNY
ELEKTROINSTALATOR
ELEKTROINSTALATOR
ELEKTRONIKA - KONSTRUKCJE, TECHNOLOGIE, ZASTOSOWANIA
ELEKTRONIKA - KONSTRUKCJE, TECHNOLOGIE, ZASTOSOWANIA
Czasopisma
Czasopisma
Czasopisma
GAZETA CUKROWNICZA
GAZETA CUKROWNICZA
GAZ, WODA I TECHNIKA SANITARNA
GAZ, WODA I TECHNIKA SANITARNA
GOSPODARKA MIĘSNA
GOSPODARKA MIĘSNA
GOSPODARKA WODNA
GOSPODARKA WODNA
HUTNIK - WIADOMOŚCI HUTNICZE
HUTNIK - WIADOMOŚCI HUTNICZE
INŻYNIERIA MATERIAŁOWA
INŻYNIERIA MATERIAŁOWA
MASZYNY, TECHNOLOGIE, MATERIAŁY - TECHNIKA ZAGRANICZNA
MASZYNY, TECHNOLOGIE, MATERIAŁY - TECHNIKA ZAGRANICZNA
MATERIAŁY BUDOWLANE
MATERIAŁY BUDOWLANE
OCHRONA PRZECIWPOŻAROWA
OCHRONA PRZECIWPOŻAROWA
OCHRONA PRZED KOROZJĄ
OCHRONA PRZED KOROZJĄ
Czasopisma
Czasopisma
Czasopisma
ODZIEŻ
ODZIEŻ
OPAKOWANIE
OPAKOWANIE
PACKAGING REVIEW
PACKAGING REVIEW
POLISH TECHNICAL REVIEW
POLISH TECHNICAL REVIEW
PROBLEMY JAKOŚCI
PROBLEMY JAKOŚCI
PRZEGLĄD ELEKTROTECHNICZNY
PRZEGLĄD ELEKTROTECHNICZNY
PRZEGLĄD GASTRONOMICZNY
PRZEGLĄD GASTRONOMICZNY
PRZEGLĄD GEODEZYJNY
PRZEGLĄD GEODEZYJNY
PRZEGLĄD MECHANICZNY
PRZEGLĄD MECHANICZNY
PRZEGLĄD PAPIERNICZY
PRZEGLĄD PAPIERNICZY
Czasopisma
Czasopisma
Czasopisma
PRZEGLĄD PIEKARSKI I CUKIERNICZY
PRZEGLĄD PIEKARSKI I CUKIERNICZY
PRZEGLĄD TECHNICZNY. GAZETA INŻYNIERSKA
PRZEGLĄD TECHNICZNY. GAZETA INŻYNIERSKA
PRZEGLĄD TELEKOMUNIKACYJNY - WIADOMOŚCI TELEKOMUNIKACYJNE
PRZEGLĄD TELEKOMUNIKACYJNY - WIADOMOŚCI TELEKOMUNIKACYJNE
PRZEGLĄD WŁÓKIENNICZY - WŁÓKNO, ODZIEŻ, SKÓRA
PRZEGLĄD WŁÓKIENNICZY - WŁÓKNO, ODZIEŻ, SKÓRA
PRZEGLĄD ZBOŻOWO-MŁYNARSKI
PRZEGLĄD ZBOŻOWO-MŁYNARSKI
PRZEMYSŁ CHEMICZNY
PRZEMYSŁ CHEMICZNY
PRZEMYSŁ FERMENTACYJNY I OWOCOWO-WARZYWNY
PRZEMYSŁ FERMENTACYJNY I OWOCOWO-WARZYWNY
PRZEMYSŁ SPOŻYWCZY
PRZEMYSŁ SPOŻYWCZY
RUDY I METALE NIEŻELAZNE
RUDY I METALE NIEŻELAZNE
SZKŁO I CERAMIKA
SZKŁO I CERAMIKA
TECHNOLOGIA I AUTOMATYZACJA MONTAŻU
TECHNOLOGIA I AUTOMATYZACJA MONTAŻU
WIADOMOŚCI ELEKTROTECHNICZNE
WIADOMOŚCI ELEKTROTECHNICZNE
WOKÓŁ PŁYTEK CERAMICZNYCH
WOKÓŁ PŁYTEK CERAMICZNYCH
Menu
Menu
Menu
Prenumerata
Prenumerata
Publikacje
Publikacje
Drukarnia
Drukarnia
Kolportaż
Kolportaż
Reklama
Reklama
O nas
O nas
ui-button
Twój Koszyk
Twój koszyk jest pusty.
Niezalogowany
Niezalogowany
Zaloguj się
Zarejestruj się
Reset hasła
Czasopismo
|
ELEKTRONIKA - KONSTRUKCJE, TECHNOLOGIE, ZASTOSOWANIA
|
Rocznik 2016 - zeszyt 7
Grupowanie mówców i jego skuteczność dla języka polskiego
10.15199/13.2016.7.12
Agnieszka ZAMBRZYCKA
Ryszard MAKOWSKI
Robert HOSSA
nr katalogowy: 99877
10.15199/13.2016.7.12
Grupowanie mówców w zbiory o podobnych cechach akustycznych ich mowy, obok normalizacji i adaptacji, jest skuteczną metodą poprawy jakości systemów automatycznego rozpoznawania mowy. W pracy przedstawiono metody grupowania, dla których punktem wyjścia jest model akustyczny wszystkich mówców oraz ich efektywność dla mowy polskiej w odniesieniu głównie do samogłosek. Rozwiązania te okazały się być skuteczne nawet przy wykorzystaniu superkrótkiej wypowiedzi. Uzyskana poprawa jakości rozpoznawania ramek mierzona za pomocą frame error rate wynosi około 4%. Słowa kluczowe: automatyczne rozpoznawanie mowy, kompensacja różnic międzyosobniczych, grupowanie mówców, model UBM, adaptacja współczynników wagowych GMM.Opracowanie modelu akustycznego danego języka jest jednym z ważniejszych kroków uczenia systemu automatycznego rozpoznawania mowy (ARM). Zwykle wymaga to: (i) wykonania częściowej lub kompletnej segmentacji i opisu nagrań zbioru uczącego, (ii) wybrania metody parametryzacji i jej realizacji oraz (iii) wykonania aproksymacji estymatorów rozkładów prawdopodobieństwa wartości parametrów (wektorów obserwacji) dla poszczególnych fonemów/stanów za pomocą ważonej sumy rozkładów gaussowskich - model GMM. Widma tych samych dźwięków mowy produkowanych przez różnych mówców różnią się niekiedy w sposób znaczący. Skutkuje to spłaszczeniem rozkładów prawdopodobieństwa modelu GMM, a w konsekwencji pogorszeniem jego zdolności klasyfikacyjnych. Wspomniane różnice w widmach są nazywane różnicami międzyosobniczymi i są konsekwencją odmienności w budowie anatomicznej mówców (np. wielkości kanału głosowego), jak również różnic osobowościowych mówców. Choć inne czynniki, np. różnice kontekstowe, warunki środowiskowe, mają wpływ na ekstrahowane z mowy wartości parametrów, to różnice międzyosobnicze są jednymi z tych o kluczowym znaczeniu. Różnice w strukturze czasowo- częstotliwościowej dźwięków mowy są różnorakie i polegają głównie na rozbieżnoś[...]
Bibliografia
[1] Anderson T.W. 2003. “An Introduction to Multivariate Statistical Analysis". 3rd ed., John Wiley & Sons Inc, New York. [2] Basseville M. 1989. “Distance Measures for Signal Processing and Pattern Recognition". Signal Processing 18: 349-369. [3] Bishop C.M. 2006. “Pattern Recognition and Machine Learning". Springer, New York. [4] Chu S.M., Tang H., Huang T.S. 2009a. “Locality Preserving Speaker Clustering". Proceedings of IEEE International Conference on Multimedia and Expo: 494-497. Mexico. [5] Chu S.M., Tang H., Huang T.S. 2009b. “Fishervoice and Semi-Supervised Speaker Clustering". International Conference on Acoustics, Speech and Signal Processing: 4089-4092. Taipei. [6] Davis S.B., Mermelstein P. 1980. “Comparison of Parametric Representation for Monosyllabis Recognition in Continuously Spoken Sentences". IEEE Trans. Acoustics, Speech and Signal Processing 28: 357-366. [7] Dempster A., Laird N., Rubin D. 1977. “Maximum Likelihood from Incomplete Data via EM Algorithm". Journal of Royal Statistical Society 39: 1-38. [8] Duda R., Hart P., Stork D. 2000. “Pattern Classication". 2-nd ed., John Wiley & Sons Inc. New York. [9] Furui S. 1989. “Unsupervised Speaker Adaptation Method Based on Hierarchical Spectral Clustering". International Conference on Acoustics, Speech and Signal Processing. [10] Gauvain J.L., Lee C.-H. 1994. “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains". IEEE Transactions on Speech and Audio Processing 2. [11] Hazen T.J. 2000. “A Comparison of Novel Techniques for Rapid Speaker Adaptation". Speech Communication 31: 15-33. Elektronika 7/2016 51 [12] He X., Niyogi P. 2003. “Locality Preserving Projections". Advances in Neural Information Processing Systems 16, Vancuver. [13] Iyer A.N., Ofoegbu U.O., Yantorno R.E., Smolinski B.Y. 2006. “Blind Speaker Clustering". International Symposium on Intelligent Signal Processing and Communications Systems: 343-346. Yonago. [14] Jassem W. 1973 “Podstawy fonetyki akustycznej". PWN. Warszawa. [15] Kosaka T., Sagayama S. 1994. “Tree-Structured Speaker Clustering for Fast Speaker Adaptation". Proceedings of International Conference on Acoustics, Speech and Signal Processing: 245-248. Ostendorf. [16] Kuhn R., Junqua J.-C., Nguyen P., Niedzielski N. 2000. "Rapid Speaker Adaptation in Eigenvoice Space". IEEE Transaction on Speech and Audio Processing 8: 695-707. [17] Liu D., Kubala F. 2004. “Online Speaker Clustering". Proceedings of International Conference on Acoustics, Speech and Signal Processing: 333-336. Quebec. [18] Lu Z., Hui Y.V., Lee A.H. 2003. “Minimum Hellinger Distance Estimation for Finite Poisson Regression Models and its Applications". Biometrics 59: 1016-1026. [19] Mehrabani M., Hansen J.H.L. 2013. “Singing Speaker Clustering Based on Subspace Learning in the GMM Mean Supervector Space". Speech Communication 55: 653-666. [20] Makowski R. 2011. "Automatyczne rozpoznawanie mowy - wybrane zagadnienia". Oficyna Wydawnicza Politechniki Wrocławskiej. Wrocław. [21] Makowski R., Hossa R. 2014. “Automatic Speech Signal Segmentation Based on Innovations Adaptive Filter". International Journal on Applied Mathematics and Computer Science 24: 259-270. [22] Makowski R., Hossa R. 2016. “An Effective Speaker Clustering Method using UBM and Ultra-Short Training Utterances". Archives of Acoustics 41: 107-118. [23] Mrówka P., Makowski R. 2008. “Normalization of Speaker Individual Characteristics and Compensation of Linear Transmission Distortions in Command Recognition Systems". Archives of Acoustics 33: 221-242. [24] Naito M., Deng L., Sagisaka Y. 2002. “Speaker Clustering for Speech Recognition Using Vocal Track Parameters". Speech Communication 36: 305-315. [25] Peinado A.M., Segura J.C. 2006. “Speech Recognition over Digital Channels". John Wiley and Sons, Ltd. Chichester. [26] Rabiner L., Juang B-H. 1993. “Fundamentals of Speech Recognition". Prentice-Hall. Englewood Clis. [27] Reynolds D.A., Rose R.C. 1995. “Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models". IEEE Transaction on Speech and Audio Processing 3: 72-83. [28] Reynolds D.A., Quatieri T.F., Dunn R.B. 2000. “Speaker Verification Using Adaptive Gaussian Mixture Models". Digital Signal Processing 10: 19-41. [29] Stafylakis T., Katsouros V., Carayannis G. 2006. “The Segmental Bayesian Information Criterion and its Applications to Speaker Diarization". IEEE Selected Topics in Signal Processing 4: 857-866. [30] Tang H., Chu S.M., Hasegawa-Johnson M., Huang T.S. 2012. “Partially Supervised Speaker Clustering". IEEE Transaction on Pattern Analysis and Machine Intelligence 34: 959-971. [31] Tranter S., Reynolds D. 2006. “An Overwiew of Automatic Speaker Diarization Systems". IEEE Transaction Audio, Speech and Language Processing 14: 1557-1565. [32] Tsai W-H., Cheng S-S., Wang H-M. 2007. “Automatic Speaker Clustering Using a V oice Characteristic Reference Space and Maximum Purity Estimation". IEEE Transaction on Audio, Speech and Language Processing 15: 1461-1474.
Treść płatna
Jeśli masz wykupiony/przyznany dostęp -
zaloguj się
.
Skorzystaj z naszych propozycji zakupu!
Publikacja
e-Publikacja (format pdf) - nr 99877 "Grupowanie mówców i jego ..."
licencja: Osobista
Produkt cyfrowy
10.00 zł
Do koszyka
Zeszyt
ELEKTRONIKA - KONSTRUKCJE, TECHNOLOGIE, ZASTOSOWANIA - e-zeszyt (pdf) 2016-7
licencja: Osobista
Produkt cyfrowy
35.00 zł
Do koszyka
Prenumerata
ELEKTRONIKA - KONSTRUKCJE, TECHNOLOGIE, ZASTOSOWANIA - prenumerata cyfrowa
licencja: Osobista
Produkt cyfrowy
Nowość
420.00 zł
Do koszyka
ELEKTRONIKA - KONSTRUKCJE, TECHNOLOGIE, ZASTOSOWANIA - papierowa prenumerata roczna + wysyłka
licencja: Osobista
Szczegóły pakietu
Nazwa
ELEKTRONIKA - KONSTRUKCJE, TECHNOLOGIE, ZASTOSOWANIA - papierowa prenumerata roczna
528.00 zł brutto
488.89 zł netto
39.11 zł VAT
(stawka VAT 8%)
ELEKTRONIKA - KONSTRUKCJE, TECHNOLOGIE, ZASTOSOWANIA - pakowanie i wysyłka
42.00 zł brutto
34.15 zł netto
7.85 zł VAT
(stawka VAT 23%)
570.00 zł
Do koszyka
ELEKTRONIKA - KONSTRUKCJE, TECHNOLOGIE, ZASTOSOWANIA - PAKIET prenumerata PLUS
licencja: Osobista
Szczegóły pakietu
Nazwa
ELEKTRONIKA - KONSTRUKCJE, TECHNOLOGIE, ZASTOSOWANIA - PAKIET prenumerata PLUS (Prenumerata papierowa + dostęp do portalu sigma-not.pl + e-prenumerata)
636.00 zł brutto
588.89 zł netto
47.11 zł VAT
(stawka VAT 8%)
636.00 zł
Do koszyka
Zeszyt
2016-7
Czasopisma
ATEST - OCHRONA PRACY
AURA
AUTO MOTO SERWIS
CHEMIK
CHŁODNICTWO
CIEPŁOWNICTWO, OGRZEWNICTWO, WENTYLACJA
DOZÓR TECHNICZNY
ELEKTROINSTALATOR
ELEKTRONIKA - KONSTRUKCJE, TECHNOLOGIE, ZASTOSOWANIA
GAZETA CUKROWNICZA
GAZ, WODA I TECHNIKA SANITARNA
GOSPODARKA MIĘSNA
GOSPODARKA WODNA
HUTNIK - WIADOMOŚCI HUTNICZE
INŻYNIERIA MATERIAŁOWA
MASZYNY, TECHNOLOGIE, MATERIAŁY - TECHNIKA ZAGRANICZNA
MATERIAŁY BUDOWLANE
OCHRONA PRZECIWPOŻAROWA
OCHRONA PRZED KOROZJĄ
ODZIEŻ
OPAKOWANIE
PACKAGING REVIEW
POLISH TECHNICAL REVIEW
PROBLEMY JAKOŚCI
PRZEGLĄD ELEKTROTECHNICZNY
PRZEGLĄD GASTRONOMICZNY
PRZEGLĄD GEODEZYJNY
PRZEGLĄD MECHANICZNY
PRZEGLĄD PAPIERNICZY
PRZEGLĄD PIEKARSKI I CUKIERNICZY
PRZEGLĄD TECHNICZNY. GAZETA INŻYNIERSKA
PRZEGLĄD TELEKOMUNIKACYJNY - WIADOMOŚCI TELEKOMUNIKACYJNE
PRZEGLĄD WŁÓKIENNICZY - WŁÓKNO, ODZIEŻ, SKÓRA
PRZEGLĄD ZBOŻOWO-MŁYNARSKI
PRZEMYSŁ CHEMICZNY
PRZEMYSŁ FERMENTACYJNY I OWOCOWO-WARZYWNY
PRZEMYSŁ SPOŻYWCZY
RUDY I METALE NIEŻELAZNE
SZKŁO I CERAMIKA
TECHNOLOGIA I AUTOMATYZACJA MONTAŻU
WIADOMOŚCI ELEKTROTECHNICZNE
WOKÓŁ PŁYTEK CERAMICZNYCH