Özet:
Bu çalışmada konuşmacının yaş ve cinsiyet grubunun otomatik olarak belirlenmesi konusu ele alınmıştır. Başta ticari, medikal ve adli olmak üzere geniş bir uygulama alanına sahip olan otomatik yaş ve cinsiyet tanıma sistemleri doğrudan bir servisin seçiminde kullanılabileceği gibi farklı tanıma sistemlerinde ön işlem olarak da kullanılır. Ancak konuşma sinyali oldukça değişkendir ve başarılı bir sistemin gerçekleştirilmesi için konuşmayı etkileyen tüm faktörlerin değerlendirilmesi gerekir. Bu çalışmada ses işleme alanında kullanılan çeşitli öznitelik çıkarma ve sınıflandırma yöntemleri incelenerek bu yöntemlerle geliştirilen yaş ve cinsiyet sınıflandırma sistemlerinin performans değerlendirmeleri yapılmıştır. Her bir sistemin avantaj ve dezavantajları ortaya koyularak bu sistemler için en uygun model büyüklüğü, konuşma süresi, öznitelik boyutu gibi parametreler belirlenmiştir. Çalışmada, yaygın olarak kullanılan akustik ve prosodik özniteliklerin yanı sıra ses kaynağından çıkarılan parametrelerde incelenmiştir. Sınıflandırma yöntemi olarak dinamik zaman bükme, vektör nicemleme, Gauss karışım modeli (GMM), Destek Vektör Makineleri ve GMM süpervektörler kullanılmıştır. Çalışmada ayrıca 7 farklı alt sistemin skor seviyeli birleşimine dayanan yeni bir sistem önerilerek %5 civarında başarı artışı sağlanmıştır. Sıkıntı öznitelik projeksiyonu (NAP) yöntemi ile gerçekleştirilen kanal dengelemenin başarı üzerindeki etkisi ise %1.5 olmuştur.