Akgül S., Bilgin M. (Yürütücü)
TÜBİTAK Projesi, 3005 - Sosyal ve Beşeri Bilimlerde Yenilikçi Çözümler Araştırma Projeleri Destek Programı, 2026 - 2027
Anadolu ağızları, Türkiye Türkçesinin tarihî mirasını ve bölgesel çeşitliliğini yansıtan önemli sözlü dil varlıklarıdır. Ancak günümüzde standart dile dayalı eğitim sistemleri, kitle iletişim araçları ve göç hareketleri nedeniyle ağız özellikleri hızla kaybolmaktadır. Mevcut ağız araştırmaları büyük ölçüde ellel çeviriyazı yöntemlerine dayanmakta olup bu süreç, zaman alıcı ve hata oranı yüksek bir yapıya sahiptir.
Bu proje, doğal dil işleme (NLP) tabanlı ses tanıma teknolojilerini kullanarak Ankara ağızları özelinde otomatik çeviriyazı sağlayan bir model geliştirmeyi amaçlamaktadır. Projenin kapsamı doğrultusunda öncelikle Ankara ağızları üzerine yapılmış mevcut çalışmalar incelenerek değerlendirilecektir. Bununla birlikte, proje kapsamında ihtiyaç duyulan ses verileri için yeni derleme çalışmaları Ankara ağızları özelinde gerçekleştirilecek ve kayıt altına alınan veriler fonetik çeviri yazı standartlarına göre yazıya aktarılacaktır.
Projenin uygulama aşamasında Ankara ağızlarına ait ses dosyalarında öncelikle ön işlemler gerçekleştirilecektir. Ön işlemler sonrası elde edilen verilerle dönüşüm tabanlı dil modelleri eğitilecek ve test verileri Kelime Hata Oranı (WER) ve Karakter Hata Oranı (CER) metrikleriyle değerlendirilecek ve sonuçlar raporlanacaktır.
Proje çıktıları arasında, Ankara ağızları özelinde prototip otomatik çeviri yazı aracı, etiketlenmiş geniş ölçekli bir ağız veri seti ve bu veri seti ile eğitilecek dönüşüm (transformer) tabanlı dil modelleri yer almaktadır. Bu yenilikçi yaklaşım, Türkçenin ağız çeşitliliğini dijital ortama taşıyarak dilin korunması ve belgelenmesine katkı sağlayacaktır. Ayrıca proje, dil bilimi, yapay zeka ve veri bilimi alanlarında yeni araştırmalara zemin hazırlayarak, dil teknolojileri açısından önemli bir kaynak oluşturacaktır.