Konuşmacı tanımada map uyarlamalı sınıflandırıcılar


Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Uludağ Üniversitesi, Türkiye

Tezin Onay Tarihi: 2013

Tezin Dili: Türkçe

Öğrenci: CEMAL HANİLÇİ

Danışman: FİGEN ERTAŞ

Özet:

Konuşmacı tanıma, üzerinde uzun zamandır çalışılan ancak henüz arzu edilen başarım oranlarına erişilememiş zorlayıcı bir örüntü tanıma uygulamasıdır. Güvenlik sistemleri, adli uygulamalar, telefon bankacılığı ve erişim kontrolü gibi birçok alanda kullanılan konuşmacı tanıma sistemlerinin başarımı, veri miktarı, kayıtlardaki gürültü, kayıtlar arasındaki oturum farklılıkları, kullanılan öznitelik vektörleri ve sınıflandırıcı algoritmalar gibi birçok bileşenden kolayca etkilenmektedir. Bu tezde bu bileşenlerin metinden bağımsız konuşmacı tanıma performansına etkileri, güncel ve başarılı sınıflandırma yöntemleri kullanılarak incelenmiştir. Sınıflandırıcı algoritmalar olarak Gauss karşım modeli (GMM), vektör nicemleme (VQ), en büyük ardıl olasılık (MAP) tabanlı (genel arkaplan modeli-UBM) GMM ve VQ (GMM-UBM ve VQ-UBM), Destek Vektör Makineleri (SVM) ve GMM süpervektör (GMM-SV) yöntemleri kullanılmıştır. UBM yönteminin konuşmacı tanımaya etkisi öncelikli olarak incelenmiş olup GMM, VQ, GMM-UBM ve VQ-UBM yöntemleri karşılaştırılmıştır. Konuşmacı tanımada eğitim ve test veri miktarlarının performansa etkileri detaylı olarak incelenmiş olup, GMM-UBM, VQ-UBM, SVM ve GMM-SV yöntemlerinin karşılaştırılması yapılmıştır. En çok kullanılan konuşmacıyı karakterize eden öznitelik vektörlerinden olan Mel-frekansı kepstrum katsayılarının (MFCC) toplamsal gürültü durumunda konuşmacı tanıma performansı incelenmiş olup, toplamsal gürültü nedeniyle tanıma başarımında meydana gelen düşüşü iyileştirmek amacı ile öznitelik çıkarımında değişik yaklaşımlar önerilmiştir. Ayrıca diğer bir popüler öznitelik çıkarma yöntemi olan doğrusal öngörü kepstrum katsayıları (LPCC) ile doğrusal öngörü neticesinde ortaya çıkan hata işaretinin konuşmacının kimliği ile ilgili bilgi içerip içermediği incelenmiştir. Oturum farklılıklarından dolayı skor ve öznitelik seviyesinde meydana gelen negatif etkileri azaltmak amacıyla sırası ile test normalizasyonu (TNorm) ve NAP yöntemleri önerilmiştir. Öznitelik vektör boyutunu azaltarak konuşmacı tanıma performansını iyileştirmek amacı ile temel bileşen analizi (PCA) tabanlı bir öneri sunulmuştur.