202358 |
| Konuşmacı tanıma yöntemlerinin karşılaştırmalı analizi / A comparative study of speaker recognition techniques Yazar:CEMAL HANİLÇİ Danışman: YRD. DOÇ. DR. FİGEN ERTAŞ Yer Bilgisi: Uludağ Üniversitesi / Fen Bilimleri Enstitüsü / Elektronik Mühendisliği Ana Bilim Dalı Konu:Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol = Computer Engineering and Computer Science and Control ; Elektrik ve Elektronik Mühendisliği = Electrical and Electronics Engineering Dizin:Konuşmacı tanıma = Speaker recognition ; Saklı Markov modeli = Hidden Markov model | Onaylandı Yüksek Lisans Türkçe 2007 72 s. | Son yıllarda kişinin sesinden kim olduğunun belirlenebildiği uygulamalar yoğun ilgi odağıolmuştur. Kimlik belirleme ya da doğrulama, güvenlik ve erişim kontrolü gibi uygulamalarda enönemli işlevlerden biridir. Gizli kaynaklara (bilgi, bilgisayar, özel saha) kontrollü erişimisağlamanın yöntemlerinden olan anahtar, şifre, kimlik kartı kolaylıkla kaybolabilir, çalınabilirveya taklit edilebilirken, başkalarınca taklit edilemeyen kişiye has eşsiz özellikler yanibiyometriklerin kullanımı rağbet görmeye başlamıştır. Biyometrikler parmak izi, el geometrisi veretina örüntüsü gibi fiziksel özellikleri ya da el yazısı ve sesizi (voiceprint) gibi kişisel özelliklerikullanır. Her ne kadar parmak izi ve retina örüntüsü kişinin kimliğini belirlemede daha güvenilirolsa da telefon hattı üzerinden bilgi toplama gibi pratik uygulanabilirliğinden dolayı sesörneğinden kişinin kimliğinin belirlendiği uygulamalar son yıllarda ön plana çıkmıştır.Bu tezde metinden bağımsız konuşmacı belirleme konusunda sıkça kullanılan yöntemlerdenSaklı Markov Modelleri ve Vektör Nicemle algoritmaları incelenmiştir. Birinci bölümde, konuşmacıtanıma uygulamalarında bugüne kadar kullanılmış kişinin sesini temsil eden özellikler ve buözelliklerin modellenmesinde kullanılan yöntemlerden bahsedilmektedir. İkinci bölümde bu tezdeyapılan deneyler sırasında kişinin sesini temsil eden parametrelerden mel ölçekli kepstrumkatsayıları (mfcc) ve bu katsayıların çıkarımı sırasında izlenen adımlar detaylı bir şekildeanlatılmaktadır. Konuşmacı tanıma sisteminde özellik çıkarımından sonraki adım olan modellemetekniklerinden Saklı Markov Modelleri (SMM) ve Vektör Nicemleme (VN) algoritmaları da detaylıbir şekilde ikinci bölümde anlatılmaktadır. Son bölümde ise mfcc özellikleri ile SMM ve/veya VNkullanılarak elde edilen deneysel sonuçlar verilmektedir.Bu tezin iki temel amacı vardır. Bunlardan ilki, konuşmacı tanıma sistemlerinin yapıtaşlarından olan özellik vektörleri boyutunun optimum değerinin belirlenmesidir. İkincisi isekonuşmacı tanıma uygulamalarında en çok kullanılan iki yöntem olan SMM ve VNalgoritmalarının karşılaştırmalı analizlerinin yapılmasıdır. Ayrıca SMM yöntemi ile en fazlakonuşmacı sayısının kullanıldığı metinden bağımsız konuşmacı tanıma uygulaması olmasınedeniyle de bu tez ayrı bir önem taşımaktadır.Deneyler sırasında 630 kişilik TIMIT veritabanı kullanılmıştır. VN ile yapılan deneylerde 21 sneğitim (7 cümle) ve 9 sn test verisi (3 cümle) için 32 kod kitabı ile 630 kişi için %100 tanımaoranı elde edilmiştir. Yine aynı şartlarda 32 karışım ve 1 durumlu SMM kullanılarak 630 kişi için%100 tanıma oranı elde edilmiştir. Her iki test sonucu da deneysel sonuçlar ve tartışmabölümünde de belirtileceği gibi literatürde yapılan çalışmalardan yüksektir.Anahtar kelimeler: metinden bağımsız konuşmacı tanıma, mel ölçekli kepstrum katsayıları,saklı Markov Modelleri, Vektör Nicemleme | Nowadays identifying people from their voices has become one of the most popularapplications. Personal identification is an essential requirement for controlling access toprotected resources. Personal identity can be claimed by a key, a password or a badge, all ofwhich can be easily stolen, lost or faked. However, there are some unique (biometrics) featuresof individuals which cannot be imitated by someone else. Biometrics uses physicalcharacteristics such as fingerprints, hand geometry and retinal patterns, and personal traitssuch as handwriting and voiceprint. Although fingerprints or retinal pattern are usually morereliable ways of verifying that a person is who he claims to be, identity verification based onperson?s voice has special advantages for practical deployment such as the convenience of easydata collection over the telephone.In this thesis, two most common techniques, Hidden Markov Models (HMM) and Vectorquantization (VQ), which are used in text-independent speaker identification, are analyzed fromthe view point of performance analysis. First chapter of this thesis describes the parameterswhich represent speakers? and the modeling techniques that are used for modeling of theseparameters. In the second chapter we describe the Mel Frequency Cepstral Coefficients (mfcc),that is used during experiments as the parameters that represent speaker, and the steps ofextraction these features from a given voice sample. It is also described in the second chapter,modeling of these features, HMM and VQ, which is the second step of a speaker identificationsystem. Finally it is given that the text-independent speaker identification results using bothHMM and VQ in the last chapter of this thesis.This thesis has two main purposes. First, making a decision about the optimum number ofmfcc which is going to be used in the system and the second is, comparing two popularapproaches to perform speaker identification, HMM and VQ, according to identification rates.The other importance of this thesis is, it is the largest population text-independent speakeridentification study using HMM.The TIMIT database which contains 630 speakers was used during experiments. 100%speaker identification rate was achieved with the speaker identification system that uses VQwith 32 codebooks for 630 speakers when the 7 sentences (approximately 21 seconds) of eachspeaker were used to create codebook and the remaining 3 sentences (approximately 9seconds) for testing. Under the same conditions but using a 1 state HMM with 32 mixtures formodeling the speakers instead of VQ, % 100 speaker identification rate was achieved. It will beshown that these are the highest identification rates of the earlier studies in the last chapter.Key Words: text-independent speaker identification, mel frequency cepstrum coefficients,Hidden Markov Models, Vector Quantization. |