Wyniki 1-8 spośród 8 dla zapytania: authorDesc:"Radosław WEYCHAN"

Analysis of differences between MFCC after multiple GSM transcodings

Czytaj za darmo! »

Artykuł prezentuje rezultaty badań nad wpływem wielokrotnego transkodowania sygnału audio próbkowanego z szybkością 8 kSps dla standardu GSM, oraz 16 kSps. Przeanalizowane zostały uzyskane różnice między współczynnikami MFCC, otrzymane w wyniku kolejnych transkodowań. Głównym celem porównania jest sprawdzenie możliwości separacji danych oraz detekcji wykorzystywanego w transmisji kodera GSM. Do eksperymentu wykorzystana została baza nagrań sygnału mowy TIMIT, transkodowana czterokrotnie przez kodery GSM. Przeanalizowane zostały możliwości detekcji typu kodera na podstawie różnic między aproksymatami krzywoliniowymi błędów współczynników MFCC. (Analiza wpływu wielokrotnego transkodowania GSM na różnice między współczynnikami MFCC). Abstract: This paper presents results of studies on the effects of multiple speech transcoding operations in the case of GSM standard with 8 kSps and 16 kSps sampling rate. Differences between the MFCC coefficients obtained by successive transcoding were considered. The aim of comparisons is to check the possibility for separation and detection of the used GSM encoder. During the research we used the TIMIT database recordings, transcoded four times by GSM codecs. A possibility of encoder type detection was analyzed based on differences between the curvilinear approximations of the MFCC coefficient errors. Słowa kluczowe: GSM, transkodowanie, MFCC, kodowanie mowy Keywords: GSM, transcoding, MFCC, speech encoding Introduction GSM speech coding is an operation that introduces distortion into a useful signal. These changes are critical in the speaker identification and speech recognition systems [1] [2]. Information about the type of speech codec can have a significant impact on the effectiveness of such systems, because we can use appropriate reference recordings during the training phase and calculate the dedicated models for detected type of GSM encoding [3]. Proposed in [4] GSM encoding detection algorithm [...]

Wpływ segmentacji sygnału w procesie detekcji kodowania GSM

Czytaj za darmo! »

Rozpoznawanie i identyfi kacja mówcy, szczególnie na podstawie rozmów telefonicznych wymaga ulepszania realizujących je algorytmów. Celem poprawy sprawności rozpoznania, celowe jest zastosowanie dedykowanych próbek głosu w zależności od stosowanych kodeków (np. telefonii komórkowej lub stacjonarnej). Wynika stąd konieczność detekcji kodeków mowy. Główną ideą detekcji kodeka jest obserwacja, że sygnał powtórnie poddany kompresji stratnej tym samym algorytmem nie ulega dużym zmianom. Zatem poprzez zakodowanie i zdekodowanie badanego sygnału i porównanie wyniku z sygnałem wejściowym można ocenić, czy sygnał był wcześniej kompresowany badanym kodekiem. W przypadku sygnału, który nie był przetworzony danym kodekiem, uzyskany błąd między obydwoma sygnałami jest większy niż w przypad[...]

Speaker recognition based on telephone quality short Polish sequences with removed silence

Czytaj za darmo! »

This paper presents the effectiveness of speaker identification based on short Polish sequences. An impact of automatic removal of silence on the speaker recognition accuracy is considered. Several methods to detect the beginnings and ends of the voice signal have been used. Experimental research was carried out in Matlab environment with the use of a specially prepared database of short speech sequences in Polish. The construction of speaker models was realized with two techniques: Vector Quantization (VQ) and Gaussian Mixture Models (GMM). We also tested the influence of the sampling rate reduction on the speaker recognition performance. Streszczenie: Artykuł przedstawia badania efektywności rozpoznawania mówcy opartego na krótkich wypowiedziach w języku polskim. Sprawdzono wpływ automatycznego wykrywania i usuwania ciszy na jakość rozpoznawania mówcy. Przebadano kilka różnych metod wykrywania początku i końca fragmentów mowy w wypowiadanych sekwencjach. Eksperymenty zostały przeprowadzone z użyciem środowiska Matlab i specjalnie utworzonej bazy krótkich wypowiedzi w języku polskim. Do budowy modeli mówców wykorzystano kwantyzacja wektorowa (VQ) oraz Gaussian Mixture Models (GMM). Podczas badań sprawdzono także wpływ obniżenia szybkości próbkowania na skuteczność identyfikacji mówcy. (Badania efektywności rozpoznawania mówcy opartego na krótkich wypowiedziach w języku polskim) Keywords: speaker recognition, vector quantization, GMM, end-point detection. Słowa kluczowe: rozpoznawanie mówcy, kwantyzacja wektorowa, GMM, detekcja głosu. Introduction Techniques based on acoustic signals are an interesting solution in numerous biometry applications [1,2]. In our present study we focus on experiments with short speech sentences [3, 4]. This paper examines an influence of the voice activity detection techniques on efficiency of the speaker identification. This task has been realized with the use of the GMM (Gaussian mixture models) as well as[...]

Segmentacja mówców w rozmowach telefonicznych na podstawie znaku wodnego


  Jedną z form powiadamiania służb ratownictwa o zdarzeniach wymagających niezwłocznej interwencji są telefony alarmowe. Niestety to narzędzie bywa często niewłaściwie wykorzystywane i nadużywane przez osoby, które wywołują fałszywe alarmy. Zdarzenia te wymagają monitorowania prowadzonych rozmów telefonicznych i wykorzystywania algorytmów do rozpoznawania osób korzystających z usług telefonicznych służb nadzoru publicznego np. policji. System informatyczny wspomagający pracę organów ścigania ma na celu wyodrębnienie użytecznej informacji ze zbioru nagrań rozmów telefonicznych z telefonów alarmowych i dołączonych do nich informacji związanych z rozmową. Zadanie identyfikowania osób nawiązujących rozmowę powinno być wspierane przez system segmentacji mówców, by w automatyczny sposób wydobyć i określić granice wypowiedzi poszczególnych rozmówców [3], co jest potrzebne np. do prawidłowego określenia modelu koniecznego do rozpoznania określonego mówcy. W szczególności chodzi o automatyczne usunięcie głosu operatora (policjanta) obsługującego telefon alarmowy z analizowanego nagrania rozmowy i pozostawienie jedynie wypowiedzi osoby dzwoniącej. W opisanych w literaturze metodach segmentacji mówców, które nadają się do omawianego zastosowania, wykorzystuje się analizę dynamiki widma energetycznego sygnału mowy, np. [3]. Sygnał dzieli się przy tym na odcinki, w których występują poszczególne fragmenty wypowiedzi. W algorytmie opisanym w pracy [3] sygnał wejściowy jest dzielony na ramki mnożone przez okno Hamminga, dla których jest obliczane krótkoterminowe widmo energetyczne z wykorzystaniem szybkiej transformacji Fouriera (FFT). Widmo energetyczne stanowi bowiem dobry materiał bazowy do dalszego procesu rozpoznania mówcy na podstawie analizy częstotliwościowej. Następny etap to normalizacja widma sygnału. Polega ona na odjęciu od obliczonego widma nagranego wcześniej i uśrednionego widma sygnału ciszy (sygnału tła akustycznego). Kol[...]

Fast speaker recognition based on short Polish sequences


  Among key issues determining effectiveness and speed of biometric identification systems there is a proper selection of acquisition parameters and representation of the input data. Typically biometric systems are based on the analysis and recognition of various images such as fingerprint, face, iris, ear, hand geometry, etc. [1, 2]. However, nowadays speaker recognition techniques are becoming more and more important. Identification techniques based on acoustic signals (voice) is yet holding about a 3% share in the commercial biometric market only [3]. However, it should be noted that the speaker identification has a number of advantages and can be used to authorization access for many services and systems such as voice dialing options, telephone banking, shopping by phone, database access, voicemail, information services, access to restricted zones, access to computers, etc. In contrast to systems based on image recognition, speaker recognition easier detects sex and nationality. It may also be a part of complex multimodal biometric systems examining many biometric features thus guarantying more effective identification. Speaker recognition techniques can be divided into two types: verification and identification [4, 5]. Speaker verification consists in acceptance or rejection of the speaker. Speech after parameterization is compared with the reference model. Depending on certain diagnosis threshold, the speaker is accepted or rejected. Verification is simpler than the second task namely identification, which consists in recognition which person from a set of the registered people speaks. Parameters of the input speech signal are compared with the base parameters of the reference N-models. Then the maximum selector shows the greatest similarity to the reference model and selects the appropriate speaker ID. Speaker recognition methods can be divided into the following main categories [6]: - text-dependent - speaker recogni[...]

Comparison of NI LabVIEW and NI Vision Builder AI environments in fast prototyping of video processing algorithms for CCTV using smart camera


  Every year an essential number of dangerous situations happens in urban environments. Detection of those threats, and reacting to them accordingly, is one of the most important tasks of police forces. Mainly for these reasons there is a great interest in fast implementation of real-time video processing algorithms in surveillance systems. It is important to detect common offences and threats such as: vandalism (fire or graffiti detection), driving in a wrong direction on one-way street, pedestrian crossing at the red light, and trespassing at the bus (or tram) stop. In this paper innovative solutions for recognition of threats in urban areas using National Instruments smart camera type NI 1742, NI LabVIEW [7, 14] and NI Vision Builder for Automated Inspection (NI Vision Builder AI) software [15, 16] are presented. Smart camera can be used in many various applications [2, 3, 5, 6] e.g. in the quality control, object classification, static and dynamic event recognition, emergency situation recognition, OCR (ang. Optical Character Recognition), face recognition and more. As an example of the image processing algorithm, the program for pedestrian detection has been designed. It serves to detect people at a pedestrian crossing when the red light has been lit. The application is written using NI Vision Builder AI. Smart camera NI 1742 A. Architecture National instruments smart camera type NI 1742 [17], whose block diagram is presented in Fig. 1, is an embedded system for video acquisition and processing. VGA (640480) CCD image sensor can acquire monochrome images up to 60 fps. The camera is equipped with 128 MB RAM, 128 MB flash memory and is powered by a 533 MHz PowerPC processor. Thanks to those components, real time image processing is possible without any external computing unit. This kind of solution enables to create rugged, self-sufficient, and independent systems. Image acquisition can be set off using external trigger[...]

Od metrologii do systemów wizyjnych: środowisko NI LabVIEW w laboratoriach naukowych


  Nauczanie na wyższych uczelniach technicznych powinno obejmować zarówno zagadnienia podstawowe (pozwalające zrozumieć istotę zjawisk), jak i wiedzę o najnowszych systemach i technologiach, zdobywaną poprzez włączanie studentów do prowadzonych badań naukowych. W związku z olbrzymim przyrostem informacji (badania wskazują, że co dekadę wiedza potrzebna do wyszkolenia inżyniera elektronika ulega podwojeniu [1]) i równoczesnym limitem liczby godzin dydaktycznych, często stosuje się przedstawianie podstaw na wykładach, a nowych rozwiązań - na laboratoriach. To powoduje jednak brak spójności wiedzy studentów. W Pracowni Układów Elektronicznych i Przetwarzania Sygnałów Politechniki Poznańskiej wdrożono projekt laboratoriów naukowych na kierunku automatyka i robotyka, wykorzystujących oprogramowanie i sprzęt firmy National Instruments (NI) [2]. Zajęcia obejmują takie przedmioty, jak: metrologia elektryczna, materiałoznawstwo elektryczne, układy elektroniczne, systemy telekomunikacyjne, elektroniczne systemy pomiarowe, systemy mikroprocesorowe, multimedia i systemy wizyjne. W projekcie założono, że studenci podczas wykonywania ćwiczeń w ramach kolejnych przedmiotów zgłębiają wiedzę na temat oprogramowania LabVIEW i osprzętu firmy National Instruments. Oprogramowanie NI LabVIEW i zestaw NI ELVIS II NI LabVIEW [3] jest graficznym językiem programowania systemów pomiarowych i sterujących. Programy pisane w tym środowisku są nazywane przyrządami wirtualnymi (virtual instruments, w skrócie vi’s), gdyż wygląd ich panelu czołowego imituje fizyczne przyrządy pomiarowe i sterujące. Wykonywanie aplikacji w NI LabVIEW determinuje przepływ danych pomiędzy blokami przetwarzania (prezentowanymi jako ikony na diagramie). Pozwala to na tworzenie aplikacji: od najprostszych, zbudowanych z kilku elementów, do zaawansowanych, składających się z wielu podsystemów. NI ELVIS II (educational laboratory virtual instrumentation suite) jest przeznaczon[...]

Real-time watermarking of one side of telephone conversation for speaker segmentation

Czytaj za darmo! »

The paper presents a digital signal processor (DSP) based system for segmentation of speakers of a telephone conversation. The TMS320C6713 DSP by Texas Instruments in real-time watermarks one interlocutor voice and therefore precise segmentation of both conversation sides is made on a PC without any speaker recognition techniques. The authors also solved the problem of data blocks synchronization and beats caused by differences in the digital-to-analog and the analog-to-digital sampling clock frequencies. Streszczenie. Artykuł prezentuje, zrealizowany na procesorze sygnałowym, system do segmentacji mówców rozmowy telefonicznej. Użyto procesora TMS320C6713 firmy Texas Instruments, który podczas rozmowy oznacza znakiem wodnym jednego z rozmówców. Umożliwia to późniejszą separację mówców bez użycia algorytmów ich rozpoznawania. Autorzy dodatkowo rozwiązali problemy związane z synchronizacją bloków danych i dudnieniami wywołanymi różnicą częstotliwości zegarów taktujących przetworniki analogowo-cyfrowe i cyfrowo-analogowe. (Wprowadzanie w czasie rzeczywistym znaku wodnego do sygnału jednej strony rozmowy telefonicznej w celu segmentacji mówców) Keywords: DSP, watermark, speaker segmentation, DWT Słowa kluczowe: procesor sygnałowy, znak wodny, segmentacja mówców, dyskretna transformata zafalowaniowa Introduction An idea of the presented system arose from the need for a reliable speaker segmentation during a typical phone call, (e.g., to the emergency services numbers). The inserted watermark to the emergency telephone operator voice makes subsequent conversation sides separation possible with no additional necessity of the speaker recognition. The speakers recognition algorithms, although deeply investigated, cannot guarantee 100% reliability of the speaker segmentation. Additionally they are often computationally complex, thus they need strong computing devices or long times (typically an off-line processing). The authors proposed a mixe[...]

 Strona 1