Konuşmacı tanıma yöntemlerinin karşılaştırmalı analizi


Tezin Türü: Yüksek Lisans

Tezin Yürütüldüğü Kurum: Uludağ Üniversitesi, Türkiye

Tezin Onay Tarihi: 2007

Tezin Dili: Türkçe

Öğrenci: CEMAL HANİLÇİ

Danışman: FİGEN ERTAŞ

Özet:

Son yıllarda kişinin sesinden kim olduğunun belirlenebildiği uygulamalar yoğun ilgi odağı olmuştur. Kimlik belirleme ya da doğrulama, güvenlik ve erişim kontrolü gibi uygulamalarda en önemli işlevlerden biridir. Gizli kaynaklara (bilgi, bilgisayar, özel saha) kontrollü erişimi sağlamanın yöntemlerinden olan anahtar, şifre, kimlik kartı kolaylıkla kaybolabilir, çalınabilir veya taklit edilebilirken, başkalarınca taklit edilemeyen kişiye has eşsiz özellikler yani biyometriklerin kullanımı rağbet görmeye başlamıştır. Biyometrikler parmak izi, el geometrisi ve retina örüntüsü gibi fiziksel özellikleri ya da el yazısı ve sesizi (voiceprint) gibi kişisel özellikleri kullanır. Her ne kadar parmak izi ve retina örüntüsü kişinin kimliğini belirlemede daha güvenilir olsa da telefon hattı üzerinden bilgi toplama gibi pratik uygulanabilirliğinden dolayı ses örneğinden kişinin kimliğinin belirlendiği uygulamalar son yıllarda ön plana çıkmıştır. Bu tezde metinden bağımsız konuşmacı belirleme konusunda sıkça kullanılan yöntemlerden Saklı Markov Modelleri ve Vektör Nicemle algoritmaları incelenmiştir. Birinci bölümde, konuşmacı tanıma uygulamalarında bugüne kadar kullanılmış kişinin sesini temsil eden özellikler ve bu özelliklerin modellenmesinde kullanılan yöntemlerden bahsedilmektedir. İkinci bölümde bu tezde yapılan deneyler sırasında kişinin sesini temsil eden parametrelerden mel ölçekli kepstrum katsayıları (mfcc) ve bu katsayıların çıkarımı sırasında izlenen adımlar detaylı bir şekilde anlatılmaktadır. Konuşmacı tanıma sisteminde özellik çıkarımından sonraki adım olan modelleme tekniklerinden Saklı Markov Modelleri (SMM) ve Vektör Nicemleme (VN) algoritmaları da detaylı bir şekilde ikinci bölümde anlatılmaktadır. Son bölümde ise mfcc özellikleri ile SMM ve/veya VN kullanılarak elde edilen deneysel sonuçlar verilmektedir. Bu tezin iki temel amacı vardır. Bunlardan ilki, konuşmacı tanıma sistemlerinin yapı taşlarından olan özellik vektörleri boyutunun optimum değerinin belirlenmesidir. İkincisi ise konuşmacı tanıma uygulamalarında en çok kullanılan iki yöntem olan SMM ve VN algoritmalarının karşılaştırmalı analizlerinin yapılmasıdır. Ayrıca SMM yöntemi ile en fazla konuşmacı sayısının kullanıldığı metinden bağımsız konuşmacı tanıma uygulaması olması nedeniyle de bu tez ayrı bir önem taşımaktadır. Deneyler sırasında 630 kişilik TIMIT veritabanı kullanılmıştır. VN ile yapılan deneylerde 21 sn eğitim (7 cümle) ve 9 sn test verisi (3 cümle) için 32 kod kitabı ile 630 kişi için %100 tanıma oranı elde edilmiştir. Yine aynı şartlarda 32 karışım ve 1 durumlu SMM kullanılarak 630 kişi için %100 tanıma oranı elde edilmiştir. Her iki test sonucu da deneysel sonuçlar ve tartışma bölümünde de belirtileceği gibi literatürde yapılan çalışmalardan yüksektir.