Bu öğeden alıntı yapmak, öğeye bağlanmak için bu tanımlayıcıyı kullanınız:
http://acikerisim.ktu.edu.tr/jspui/handle/123456789/531
Başlık: | Ses sinyalinden duygu tanıma |
Diğer Başlıklar: | Emoti̇on recogni̇ti̇on from speech si̇gnal |
Yazarlar: | Korkmaz, Onur Erdem |
Anahtar kelimeler: | Ses sinyali, Duygu tanıma, Destek vektör makineleri, K en yakın komşu, Mel frekansı kepstrum katsayısı;Speech signal, Emotion recognition, Support vector machine, K nearest neighbor, Mel frequency cepstral coefficients |
Yayın Tarihi: | 2016 |
Yayıncı: | Karadeniz Teknik Üniversitesi |
Özet: | Konuşma sinyalleri insanlar arasındaki hızlı ve en doğal iletişim yöntemlerindendir. Bu durum araştırmacıları, insan ve makine etkileşimini daha hızlı ve verimli hale getirmek için konuşma sinyalinden duygu tanıma alanında çalışmaya sevk etti. Bu tez çalışmasında Kızgın, Nötr, Mutlu ve Üzgün duygu sınıflarına ait ve toplamda 393 veriden oluşan EmoSTAR adlı Türkçe - İngilizce örnekler içeren bir veri tabanı kullanılmıştır. İki farklı dil örneğinin olması duygunun telaffuz ve dilden bağımsız olduğunu göstermek için elverişlidir. Bu veri tabanı kullanılarak, her bir konuşma sinyalinden Mel Frekansı Kepstrum Katsayları (Mfkk) ve buna ek olarak sıfırıncı Mfkk, enerji ve birinci-ikinci türevleri eklenerek farklı öz nitelikler elde edilerek incelenmiştir. Ayrıca Mfkk çıkarılırken belirlenen çerçeve uzunluğu ve kaydırma süreleri de değiştirilerek sonuçlara olan etkisi incelenmiştir. Bu tez çalışmasında Hu Momentleri ve Doğrusal Öngörü Katsayısı (DÖK) öznitelikleri de kullanılarak analizler yapılmıştır. Elde edilen öznitelikler Destek Vektör Makineleri (DVM) ve K En Yakın Komşu (k-EK) sınıflandırıcıları ile çapraz doğrulama yöntemi kullanılarak değerlendirilmiş ve %98,7 başarı oranı elde edilmiştir. Ayrıca bu çalışmada EmoDB veri seti test kümesi olarak kullanılıp, farklı veri setleri arasında doğrulama işlemi gerçekleştirildi. Çalışmanın son aşamasında Temel Bileşenler Analizi ile boyut indirgeme işlemi yapılmış, böylelikle işlem zamanı ve başarı oranı açısından iyi sonuçlar elde edildiği gözlenmiştir. Conversation signals are considered as one of the fastest and the natural communication methods among people. This case raised the importance of identifying emotions through conversation signals for researchers in order to make human and machine communication quicker and more efficient. In this thesis study, emotion classes like Angry, Neutral, Happy and Sad also a data base, called as EmoSTAR, which consist of totally 393 data and contains Turkish-English examples, are mentioned. Having two different language examples is sufficient in terms of showing emotions independent from pronunciation and language. Using this data base, it is investigated with different features adding Mel Frequency Cepstral Coefficients (Mfcc), in addition, zeroth Mfcc, energy and first-second derivatives from each speech signal. Furthermore, while Mfcc is extracting, the length of frame and scroll-time were changed in order to study the effect of it on the results. Also, in this thesis study, analyses are made by using Hu Moments and Linear Prediction Coefficient (LPC) features. Obtained features are evaluated using Support Vector Machines (SVM), K Nearest Neighbor (k-NN) classifier and cross-validation method and success rate was obtained as %98,7. Also, in this study EmoDB was used as a test set and verification between different database was performed. The final phase of this study, dimension reduction process has been done by principal componenet analysis and thus it is seen that good results has obtained in terms of processing time and succes rate. |
URI: | http://acikerisim.ktu.edu.tr/jspui/handle/123456789/531 |
Koleksiyonlarda Görünür: | Elektrik-Elektronik Mühendisliği |
Bu öğenin dosyaları:
Dosya | Açıklama | Boyut | Biçim | |
---|---|---|---|---|
Tam Metin.pdf | 3.62 MB | Adobe PDF | Göster/Aç |
DSpace'deki bütün öğeler, aksi belirtilmedikçe, tüm hakları saklı tutulmak şartıyla telif hakkı ile korunmaktadır.