İstatiksel modelleme ile konuşmacı tanıma


Tezin Türü: Doktora

Tezin Yürütüldüğü Kurum: Uludağ Üniversitesi, Türkiye

Tezin Onay Tarihi: 2007

Tezin Dili: Türkçe

Öğrenci: ÖMER ESKİDERE

Danışman: FİGEN ERTAŞ

Özet:

Kisilerin konusmalarından kim olduklarının belirlenebilmesi önemi giderek artan bir ilgi alanı haline gelmistir. Uzun yıllardır kullanılan parmak izi ve retina gibi kisiye has, kisinin kimligini tanımlayıcı biometrik özelliklere son yıllarda ses de eklenmistir. Konusma örneginden kisinin kimliginin belirlenebilmesinin günümüzde özellikle güvenlik, giris ve/veya erisim kontrolü, telefon bankacılıgı gibi önemli uygulama alanları mevcuttur. Bu tip gerçek zamanlı sistemlerde en büyük sorun seslerin kaydedildigi ortamın gürültülü olması ya da konusmaların iletildigi kanalların (özellikle telefon hattı) bozucu etkisidir. Dolayısıyla, son yıllarda amaç, sistem basarımını olumsuz etkileyen bu tip etkileri en aza indirmek ve/veya bu sartlarda çalısacak dayanıklı sistemler gelistirmektir. Bu tezde Gauss Karısım Modeli (GKM) temeline dayanan, telefon hattı etkilerine karsı dayanıklı, bir konusmacı tanıma sistemi olusturulmustur. Sistem egitim ve test olmak üzere iki asamalıdır. Kisinin sesinden kimligini en iyi temsil eden öznitelikler olarak da MFCC kullanılmıs ve model parametreleri beklentinin maksimumlastırılması algoritması ile kestirilmistir. Test asamasında aday konusmacıya ait öznitelikler, egitim asamasında olusturulan her bir konusmacı modele uygulanmakta ve maksimum olasılıgı veren model konusmacıyı belirlenmektedir. Konusmacı tanıma sistemi, temiz konusma (TIMIT) ve telefon konusması (NTIMIT) içeren iki veritabanı ile denenmistir. Her iki veritabanı için, egitim ve test asamalarında, konusmacı tanıma sistemine etkisi olan tüm parametreler incelenmis ve parametrelerin optimum degerleri belirlenmistir. Ayrıca formant frekansları, perde frekansı ve enerji gibi sesin bürünsel özellikleri tek basına ve MFCC öznitelikleri ile birlikte kullanılarak konusmacı tanıma performansı ölçülmüs, perde frekansının, telefon ortamında ortalama 8.34 puan tanıma artısı sagladıgı görülmüstür. Özniteliklerin olusturulmasında kepstrum katsayılarının kümelenerek agırlıklandırılması ve konusmacı frekans bandı parçalara ayrılıp, bu parçalara F-oranına baglı olarak süzgeçler yerlestirilmesi önerilmis olup, bu iki yöntem ile konusmacı tanıma oranında 10 puana varan artıs saglanmıstır.