Bu öğeden alıntı yapmak, öğeye bağlanmak için bu tanımlayıcıyı kullanınız: http://acikerisim.ktu.edu.tr/jspui/handle/123456789/398
Tüm üstveri kaydı
Dublin Core AlanıDeğerDil
dc.contributor.authorTofighi, Parham Mohammadalipour-
dc.date.accessioned2019-09-26T13:29:46Z-
dc.date.available2019-09-26T13:29:46Z-
dc.date.issued2012-
dc.identifier.urihttp://acikerisim.ktu.edu.tr/jspui/handle/123456789/398-
dc.description.abstractİnternet teknolojileri ve uygulamalarının hızlı gelişimine rağmen metinsel sayfalar hala en yaygın internet ortamlarıdır. Bunun en önemli örnekleri olarak, çoğunlukla metin tabanlı olan Twitter, Facebook, vb. sosyal ağ uygulamaları ile haber grupları, e-posta, blog, vb. gibi web uygulamaları verilebilir. Dolayısıyla, bu çalışmada, Metinsel veri Madenciliği ve Belge Sınıflandırma çerçevesinde, yazarların ana dillerini belirlemeye bir giriş çalışması yapılmıştır. Özellikle, birçok internet uygulamasında olduğu gibi İngilizcede yazılmış bir metinin yazarının ana dilini belirlemek için bir sistem geliştirilmiştir. Bu çalışmada, stylometry ve geleneksel makine öğrenmesi gibi alanlardan teknikler kullanarak bir yazarın ana dilinin belirlenmesi için bir araç geliştirilmiştir. Burada, bir yazarın tarzı, metinden çeşitli stylometric özelliklerin ölçümleri yapılarak bir örüntü (pattern) tanıma işlemine dönüştürülmektedir. Bir stilistik metnin özelliklerini dört türde (Sözcüksel, Sözdizimsel, Yapısal ve İçeriğe özgü özellikleri) ve makine öğrenme algoritmasını da üç türde (destek vektör makinesi, karar ağacı ve Naïve Bayes) ele alınmış ve daha sonra amaçlanan özelliklere dayanarak yazarın Anadilinin Tanımlaması işlemi gerçeklenmiştir. Yapılan çalışmada, dört farklı anadilden yazarlar (Türkçe, Almanca, Farsçanın ve İngilizce) tarafından yazılan çevrimiçi haber sayfalarından oluşan bir veritabanı kullanılmıştır. In the domain of Text Mining and Document Classification, an introduction into the field of Authorship Attribution is presented. On the other hand, with the rapid growth of Internet technologies and applications, text is still the most common Internet medium. Examples of this include social networking applications such as Twitter, Facebook, etc. and web applications such as newsgroups, email, blog, etc. are also mostly text based. We developed a framework to determine an anonymous author?s native language for short length and multi-genre writing in English such as the ones found in many Internet applications. This thesis describes the development of such a tool using techniques from the fields of stylometry and traditional machine learning techniques. An author?s style can be reduced to a pattern by making measurements of various stylometric features from the text. In this framework, four types of stylistic text features (Lexical, Syntactic, Structural, and Content-Specific Features) are extracted and two machine learning algorithms (Decision Tree, Support Vector Machine and Naïve Bayesian) are designed for author?s native language identification based on the proposed features. For this research, we used four different collections of writings online news messages by speakers of four different nationalities: native English as well as speakers of Turkish, German, and Persian.tr_TR
dc.language.isotrtr_TR
dc.publisherKaradeniz Teknik Üniversitesitr_TR
dc.subjectMetin tanıma ; Söz dizim ; Sınıflama yöntemleri ; Sınıflandırma ; Veri analizi ; Veri madenciliği ; Web sayfası ; Yazı analizitr_TR
dc.subjectText recognition ; Syntax ; Classification methods ; Classification ; Data analysis ; Data mining ; Web page ; Writing analysistr_TR
dc.titleWeb tabanlı metinlerde yazarın anadilini tanımlamatr_TR
dc.title.alternativeAuthors native language identification in web mediumstr_TR
dc.typeThesistr_TR
Koleksiyonlarda Görünür:Bilgisayar Mühendisliği

Bu öğenin dosyaları:
Dosya Açıklama BoyutBiçim 
Tam Metin1.24 MBAdobe PDFKüçük resim
Göster/Aç


DSpace'deki bütün öğeler, aksi belirtilmedikçe, tüm hakları saklı tutulmak şartıyla telif hakkı ile korunmaktadır.