Czasopisma
Czasopisma
Czasopisma
ATEST - OCHRONA PRACY
ATEST - OCHRONA PRACY
AURA
AURA
AUTO MOTO SERWIS
AUTO MOTO SERWIS
CHEMIK
CHEMIK
CHŁODNICTWO
CHŁODNICTWO
CIEPŁOWNICTWO, OGRZEWNICTWO, WENTYLACJA
CIEPŁOWNICTWO, OGRZEWNICTWO, WENTYLACJA
DOZÓR TECHNICZNY
DOZÓR TECHNICZNY
ELEKTROINSTALATOR
ELEKTROINSTALATOR
ELEKTRONIKA - KONSTRUKCJE, TECHNOLOGIE, ZASTOSOWANIA
ELEKTRONIKA - KONSTRUKCJE, TECHNOLOGIE, ZASTOSOWANIA
Czasopisma
Czasopisma
Czasopisma
GAZETA CUKROWNICZA
GAZETA CUKROWNICZA
GAZ, WODA I TECHNIKA SANITARNA
GAZ, WODA I TECHNIKA SANITARNA
GOSPODARKA MIĘSNA
GOSPODARKA MIĘSNA
GOSPODARKA WODNA
GOSPODARKA WODNA
HUTNIK - WIADOMOŚCI HUTNICZE
HUTNIK - WIADOMOŚCI HUTNICZE
INŻYNIERIA MATERIAŁOWA
INŻYNIERIA MATERIAŁOWA
MASZYNY, TECHNOLOGIE, MATERIAŁY - TECHNIKA ZAGRANICZNA
MASZYNY, TECHNOLOGIE, MATERIAŁY - TECHNIKA ZAGRANICZNA
MATERIAŁY BUDOWLANE
MATERIAŁY BUDOWLANE
OCHRONA PRZECIWPOŻAROWA
OCHRONA PRZECIWPOŻAROWA
OCHRONA PRZED KOROZJĄ
OCHRONA PRZED KOROZJĄ
Czasopisma
Czasopisma
Czasopisma
ODZIEŻ
ODZIEŻ
OPAKOWANIE
OPAKOWANIE
PACKAGING REVIEW
PACKAGING REVIEW
POLISH TECHNICAL REVIEW
POLISH TECHNICAL REVIEW
PROBLEMY JAKOŚCI
PROBLEMY JAKOŚCI
PRZEGLĄD ELEKTROTECHNICZNY
PRZEGLĄD ELEKTROTECHNICZNY
PRZEGLĄD GASTRONOMICZNY
PRZEGLĄD GASTRONOMICZNY
PRZEGLĄD GEODEZYJNY
PRZEGLĄD GEODEZYJNY
PRZEGLĄD MECHANICZNY
PRZEGLĄD MECHANICZNY
PRZEGLĄD PAPIERNICZY
PRZEGLĄD PAPIERNICZY
Czasopisma
Czasopisma
Czasopisma
PRZEGLĄD PIEKARSKI I CUKIERNICZY
PRZEGLĄD PIEKARSKI I CUKIERNICZY
PRZEGLĄD TECHNICZNY. GAZETA INŻYNIERSKA
PRZEGLĄD TECHNICZNY. GAZETA INŻYNIERSKA
PRZEGLĄD TELEKOMUNIKACYJNY - WIADOMOŚCI TELEKOMUNIKACYJNE
PRZEGLĄD TELEKOMUNIKACYJNY - WIADOMOŚCI TELEKOMUNIKACYJNE
PRZEGLĄD WŁÓKIENNICZY - WŁÓKNO, ODZIEŻ, SKÓRA
PRZEGLĄD WŁÓKIENNICZY - WŁÓKNO, ODZIEŻ, SKÓRA
PRZEGLĄD ZBOŻOWO-MŁYNARSKI
PRZEGLĄD ZBOŻOWO-MŁYNARSKI
PRZEMYSŁ CHEMICZNY
PRZEMYSŁ CHEMICZNY
PRZEMYSŁ FERMENTACYJNY I OWOCOWO-WARZYWNY
PRZEMYSŁ FERMENTACYJNY I OWOCOWO-WARZYWNY
PRZEMYSŁ SPOŻYWCZY
PRZEMYSŁ SPOŻYWCZY
RUDY I METALE NIEŻELAZNE
RUDY I METALE NIEŻELAZNE
SZKŁO I CERAMIKA
SZKŁO I CERAMIKA
TECHNOLOGIA I AUTOMATYZACJA MONTAŻU
TECHNOLOGIA I AUTOMATYZACJA MONTAŻU
WIADOMOŚCI ELEKTROTECHNICZNE
WIADOMOŚCI ELEKTROTECHNICZNE
WOKÓŁ PŁYTEK CERAMICZNYCH
WOKÓŁ PŁYTEK CERAMICZNYCH
Menu
Menu
Menu
Prenumerata
Prenumerata
Publikacje
Publikacje
Drukarnia
Drukarnia
Kolportaż
Kolportaż
Reklama
Reklama
O nas
O nas
ui-button
Twój Koszyk
Twój koszyk jest pusty.
Niezalogowany
Niezalogowany
Zaloguj się
Zarejestruj się
Reset hasła
Czasopismo
|
PRZEGLĄD ELEKTROTECHNICZNY
|
Rocznik 2023 - zeszyt 9
Rozpoznawanie głosu i identyfikacja mówcy: przegląd wybranych metod rozpoznawania cech biometrycznych mowy
Voice recognition and speaker identification: a review of selected methods for recognising biometric features of speech
10.15199/48.2023.09.44
Tomasz ŚLIWAK-ORLICKI
Krzysztof GÓRSKI
nr katalogowy: 145266
10.15199/48.2023.09.44
Streszczenie
W niniejszej pracy przedstawiono ogólnie rozwój technologii rozpoznawania mowy, począwszy od pierwszych eksperymentów XIX wieku, aż po współczesne osiągnięcia w tej dziedzinie. Przeanalizowano przekształcenia technologiczne na przestrzeni ostatnich lat, omówiono kluczowe odkrycia oraz najważniejsze wydarzenia, które odegrały istotną rolę w rozwoju tej dziedziny, wskazując jednocześnie wybrane procesy wspomagające skuteczność rozpoznawania mowy pod kątem identyfikacji biometrycznej. Przedstawiono w zarysie charakterystyczne cechy wymowy dla języka polskiego
Abstract
This paper presents a general overview of the development of speech recognition technology, from the first experiments of the 19th century to modern developments in this field. It analyses technological transformations over the past years, discusses key discoveries and key events that have played a significant role in the development of this field, while highlighting selected processes that support the effectiveness of speech recognition in terms of biometric identification. The characteristic features of pronunciation for the Polish language are outlined.
Słowa kluczowe
ASR
cechy biometryczne głosu
głębokie uczenie
sieci neuronowe
Keywords
automatic speech recognition (ASR)
biometric voice identyfication
deep learning
neural networks
Bibliografia
[1] Źródło: www.teylersmuseum.nl /nl/ collectie/ instrumenten/fk0275-phonautograph-after-leon-scott, dostęp z dnia 20.04.2023 r. [2] B. Teston, A la poursuite de la trace du signal de parole, Journées d’Etude sur la Parole (JEP), Jun 2006, 7-10. [3] A. D. Yarmey, M.J.Yarmey, L. Todd; Frances McGehee (1912– 2004: The First Earwitness Researcher, Perceptual and Motor Skills, 2008, 387-394. [4] C. D. Shaver, J. M. Acken, A Brief Review of Speaker Recognition Technology, Electrical and Computer Engineering Faculty, 2016, 19320. [5] M. M. Kabir, M. F. Mridha, J. Shin, I. Jahan and A. Q. Ohi, A Survey of Speaker Recognition: Fundamental Theories, Recognition Methods and Opportunities, IEEE Access, vol. 9, 2021, 79236-79263. [6] D. Keith D. Foote, A Brief History of Natural Language Processing (NLP), Dataversity, 2019. [7] J. Oruh, S. Viriri and A. Adegun, Long Short-Term Memory Recurrent Neural Network for Automatic Speech Recognition, IEEE Access, 10, 2022, 30069-30079. [8] D. Sztahó, G. Szaszák, A. Beke, Deep Learning Methods in Speaker Recognition: A Review, Period. Polytech. Elec. Eng. Comp. Sci., vol. 65, no. 4, 2021, 310–328. [9] J. Chang and D. Wang, Robust speaker recognition based on DNN/i-vectors and speech separation, IEEE ICASSP, 2017, 5415-5419. [10] A. Mobiny, M. Najarian, Text-Independent Speaker Verification Using Long Short-Term Memory Networks, arXiv, 2018. [11] M. Katz, S. Krüger, M. Schafföner, E. Andelic, A.Wendemuth, “Speaker Identification and Verification Using Support Vector Machines and Sparse Kernel Logistic Regression, Springer, 2006, 176-184. [12] E. Majda-Zdancewicz, A. P. Dobrowolski, Ocena przydatności wybranych cech sygnału mowy wyróżniających osoby ze zmianami neurodegradacyjnymi, PE, 11, 2019. [13] E. Majda, A. P. Dobrowolski, B. L. Smólski, „Modelowanie i optymalizacja generatora cech dla systemu rozpoznawania mówcy”, Biuletyn WAT, The Phonology of Polish Vol. LXI, Nr 4, 2012 [14] P. Walendowski, Zastosowanie sieci neuronowych typu SVM do rozpoznawania mowy, praca doktorska, Politechnika Wrocławska, 2008. [15] J. Guo, N. Xu, K. Qian, Y. Shi, K. Xu, Y. Wu, A. Alwan, Deep neural network based i-vector mapping for speaker verification using short utterances”, arXiv, 2018, 1810.07309. [16] A. Géron, Hands-On Machine Learning with Scikit-Learn, Keras,and TensorFlow, O'Reilly Media, Inc., 2nd Edition, 2019. [17] W. Yin, K. Kann, M. Yu, H. Schütze, Comparative study of CNN and RNN for natural language processing, arXiv, 2017, 1702.01923. [18] S. Hochreiter and J. Schmidhuber, Long short-term memory, Neural Computation, 9, no. 8, 1997, 1735–1780. [19] C. Feng Yeh, J. Mahadeokar, K. Kalgaonkar, Y. Wang, D. Le, M. Jain, K. Schubert, C. Fuegen, M. L. Seltzer, Transformertransducer: End-to-end speech recognition with self-attention, ArXiv, , 2019, 1910.12977. [20] G, Pundak, T. N. Sainath, R. Prabhavalkar, A. Kannan, D. Zhao, Deep context: end-to-end contextual speech recognition, arXiv, 2018, 1808.02480. [21] Q. Wang, K. Okabe, K. A. Lee, H. Yamamoto, T. Koshinaka, Attention Mechanism in Speaker Recognition: What Does It Learn in Deep Speaker Embedding?, arXiv, 2018, 1809.09311. [22] S. Novoselov, A. Shulipa, I. Kremnev, A. Kozlov, V. Shchemelinin, On deep speaker embeddings for textindependent speaker recognition, arXiv, 2018, 1804.10080. [23] D.Snyder, D.Garcia-Romero, G.Sell, D.Povey, S.Khudanpur, “X-Vectors: Robust Dnn Embeddings For Speaker Recognition, IEEE, Conerence (ICASSP), 2018. [24] M.Orken, O.Dina, A.Keylan, A study of transformer-based end-to-end speech recognition system for Kazakh language. Sci Rep, 12, 2022, 8337. [25] N. Brümmer, E. de Villiers, The BOSARIS Toolkit: Theory, Algorithms and Code for Surviving the New DCF, ArXiv, 2011, 1304.2865. [26] R. Tadeusiewicz, Sygnał mowy, WKiŁ,Warszawa,1988. [27] A. Wagner, J. Bachan, K. KLessa G. Demenko, Przegląd wybranych aspektów analizy prozodii mowy spontanicznej na potrzeby technologii mowy, PF, (LXVI) 2015, 271–298. [28] I. R. Titze, Principles of Voice Production, Prentice Hall, 1994. [29] K. Johnson, P. Ladefoged, M. Lindau, Individual differences in vowel production, J Acoust Soc Am, 94, 1993, 701–714. [30] M. Mela, V. Schulte, Jak piękny jest ludzki głos! Techniki wizualizacji, mierzenia i deskrypcji ludzkiego głosu, Lingwistyka Stosowana, 4/2016, 91–103. [31] M. Kaniewska, Zespolona pulsacja chwilowa w analizie i konwersji głosu, Rozprawa doktorska, Wydział Elektroniki, Telekomunikacji i Informatyki, Politechnika Gdańska, Gdańsk, 2011. [32] W. Jassem, Acoustic-phonetic variability of Polish vowels, Department of Acoustic Phonetics, Institute of Fundamental Technological Research, Polish Academy of Sciences, 1992, 61-704. [33] D. Yin, M. Farajtabar, A. Li, N. Levine, A. Mott, Optimization and Generalization of Regularization-Based Continual Learning: a Loss Approximation Viewpoint”, arXiv, 2006, 10974. [34] H. N. M. Shah, M. Z. Ab Rashid, M. F. Abdollah, M. N. Kamarudin, Ch. K. Lin, Z. Kamis. Biometric Voice Recognition in Security System”, Indian Journal of Science and Technology, 7(2), 2014, 104-112. [35] D. Kamińska, A. Pelikant. Zastosowanie multimodalnej klasyfikacji w rozpoznawaniu stanów emocjonalnych na podstawie mowy spontanicznej, Informatyka, Automatyka, Pomiary w Gospodarce i Ochronie Środowiska, 2012, 36-39.
Treść płatna
Jeśli masz wykupiony/przyznany dostęp -
zaloguj się
.
Skorzystaj z naszych propozycji zakupu!
Publikacja
PRZEGLĄD ELEKTROTECHNICZNY- e-publikacja (pdf) z zeszytu 2023-9 , nr katalogowy 145266
licencja: Osobista
Produkt cyfrowy
Nowość
10.00 zł
Do koszyka
Zeszyt
PRZEGLĄD ELEKTROTECHNICZNY- e-zeszyt (pdf) 2023-9
licencja: Osobista
Produkt cyfrowy
Nowość
70.00 zł
Do koszyka
Prenumerata
PRZEGLĄD ELEKTROTECHNICZNY - prenumerata cyfrowa
licencja: Osobista
Produkt cyfrowy
Nowość
762.00 zł
Do koszyka
PRZEGLĄD ELEKTROTECHNICZNY - PAKIET prenumerata PLUS
licencja: Osobista
Szczegóły pakietu
Nazwa
PRZEGLĄD ELEKTROTECHNICZNY - PAKIET prenumerata PLUS (Prenumerata papierowa + dostęp do portalu sigma-not.pl + e-prenumerata)
1002.00 zł brutto
927.78 zł netto
74.22 zł VAT
(stawka VAT 8%)
1002.00 zł
Do koszyka
PRZEGLĄD ELEKTROTECHNICZNY - papierowa prenumerata roczna + wysyłka
licencja: Osobista
Szczegóły pakietu
Nazwa
PRZEGLĄD ELEKTROTECHNICZNY - papierowa prenumerata roczna
960.00 zł brutto
888.89 zł netto
71.11 zł VAT
(stawka VAT 8%)
PRZEGLĄD ELEKTROTECHNICZNY - pakowanie i wysyłka
42.00 zł brutto
34.15 zł netto
7.85 zł VAT
(stawka VAT 23%)
1002.00 zł
Do koszyka
Zeszyt
2023-9
Czasopisma
ATEST - OCHRONA PRACY
AURA
AUTO MOTO SERWIS
CHEMIK
CHŁODNICTWO
CIEPŁOWNICTWO, OGRZEWNICTWO, WENTYLACJA
DOZÓR TECHNICZNY
ELEKTROINSTALATOR
ELEKTRONIKA - KONSTRUKCJE, TECHNOLOGIE, ZASTOSOWANIA
GAZETA CUKROWNICZA
GAZ, WODA I TECHNIKA SANITARNA
GOSPODARKA MIĘSNA
GOSPODARKA WODNA
HUTNIK - WIADOMOŚCI HUTNICZE
INŻYNIERIA MATERIAŁOWA
MASZYNY, TECHNOLOGIE, MATERIAŁY - TECHNIKA ZAGRANICZNA
MATERIAŁY BUDOWLANE
OCHRONA PRZECIWPOŻAROWA
OCHRONA PRZED KOROZJĄ
ODZIEŻ
OPAKOWANIE
PACKAGING REVIEW
POLISH TECHNICAL REVIEW
PROBLEMY JAKOŚCI
PRZEGLĄD ELEKTROTECHNICZNY
PRZEGLĄD GASTRONOMICZNY
PRZEGLĄD GEODEZYJNY
PRZEGLĄD MECHANICZNY
PRZEGLĄD PAPIERNICZY
PRZEGLĄD PIEKARSKI I CUKIERNICZY
PRZEGLĄD TECHNICZNY. GAZETA INŻYNIERSKA
PRZEGLĄD TELEKOMUNIKACYJNY - WIADOMOŚCI TELEKOMUNIKACYJNE
PRZEGLĄD WŁÓKIENNICZY - WŁÓKNO, ODZIEŻ, SKÓRA
PRZEGLĄD ZBOŻOWO-MŁYNARSKI
PRZEMYSŁ CHEMICZNY
PRZEMYSŁ FERMENTACYJNY I OWOCOWO-WARZYWNY
PRZEMYSŁ SPOŻYWCZY
RUDY I METALE NIEŻELAZNE
SZKŁO I CERAMIKA
TECHNOLOGIA I AUTOMATYZACJA MONTAŻU
WIADOMOŚCI ELEKTROTECHNICZNE
WOKÓŁ PŁYTEK CERAMICZNYCH