Özet:
Haber analizi, e-posta ve spam filtreleme, web sayfalarından konu çıkarımı, bloglar, film özetleri, şarkı sözleri gibi metin içeren her veri seti metin madenciliği için bir uygulama alanıdır. Bu birçok alandaki uygulamalar sayesinde büyük metin depolarından bilgi çıkarılmasına olanak sağlamaktadır. Konu modelleme ise bir belge koleksiyonunda metnin gizli anlamsal yapılarını keşfetmek için kullanılan doğal dil işleme tekniğidir. Bu tez kapsamında Türkiye ve Yunanistan'a yönelik haber metinlerini konularına göre ayırabilen otonom bir konu modellemesi gerçekleştirilmiştir. Bunun için NewsAPI haber veri sitesinden elde edilmiş olan İngilizce haber metinlerinden Gizli Dirichlet Tahsisi ve Negatif Olmayan Matris Faktorizasyonu yöntemleri kullanılmış ve bu iki yöntemin başarım karşılaştırılması yapılmıştır. Türkiye için yapılan analiz sonucundaki konular incelendiğinde dış ilişkiler ağırlıkta siyasi bir gündem olduğu görülmektedir. Yunanistan için olan analizlerde ise tek siyasi gündemin Türkiye ile aralarında yaşandığı tespit edilmiştir. Her iki algoritmanın sonuçlarında da pandeminin farklı yönlerinin çoğunluğu oluşturduğu belirlenmiştir. Böylelikle metin madenciliğinde büyük boyuttaki metin içerikli veri kaynaklarından, önceden bilinmeyen ve potansiyel olarak ihtiyaç duyulan bilginin çıkarılması sağlanmış olundu.