Bu öğeden alıntı yapmak, öğeye bağlanmak için bu tanımlayıcıyı kullanınız: http://acikerisim.ktu.edu.tr/jspui/handle/123456789/437
Başlık: Web içerik madenciliği ve konu sınıflandırılması
Diğer Başlıklar: Web content mining and subject classification
Yazarlar: Gürcan, Fatih
Anahtar kelimeler: Metin sınıflandırma ; Veri madenciliği;Text categorization ; Data mining
Yayın Tarihi: 2009
Yayıncı: Karadeniz Teknik Üniversitesi
Özet: İnternet çok büyük bir bilgi deposudur. İnternetteki bu bilgiler büyük olduğu kadar düzensiz ve birbirinden bağımsız oluşturulmuş bilgilerdir. Bu yönüyle web deki bilgiler tamamen, anlamlı ve işe yarayan bilgiler değildir. Bu büyük düzensiz verilerden anlamlı bilgilerin elde edilebilmesi için, günümüze kadar değişik metotlar denenmiştir. Web İçerik Madenciliği, World Wide Web deki bütün dokümanları (metin, resim, ses, görüntü v.s.) inceleyerek, bu dokümanların içerikleri arasındaki ilişkisel benzerlikleri ve farklılıkları ortaya çıkaran bir metottur. Böylece birbiriyle gerçek anlamda ilişkili ve aynı konuda olan sayfalar, kendi içinde sınıflandırılabilir. Sayfaların içeriği analiz edilir ve sayfanın temeline inilerek gerçekte sayfanın hangi konuyu içerdiğine bakılır. Bu çalışmada, web ortamları için, Google arama motoru ile bütünleşik, bir konu sınıflandırma sistemi geliştirilmiştir. Ayrıca metin sınıflandırma da kullanılan Navie Bayes, Destek vektör makinası, K- en yakın komşuluk algoritması ve karar ağacı algoritmalarının sınıflandırma performansı test edilmiş ve sonuçlar karşılaştırılmıştır. Yapılan analiz sonucunda sayfanın gerçekte hangi konu ile ilgili olduğu tahmin edilmiştir. Yapılan bu tahminlerin, web ortamında, kullanıcıların aradığı bilgilere daha kestirme ulaşmasına yardımcı olacağı düşünülmektedir. Internet is an enormous information resource. The vast amount information on the internet is unsystematic and independent from each other as well. This information is not also meaningful and usable in this respect. Several methods have been applied to obtain meaningful information from this disordered data accumulation. Web content mining is a method that discovers similarities and differences between those documents such as text, picture, video etc by analyzing them. In this manner, documents and pages which are truly related and about the same subject can be classified. Hence, the contents of pages are analyzed and the real content of the pages are categorized. In this study, the pages are classified by taking into account certain criteria, and results of the classification which subjects of the pages, are determined related to the real content of the pages. Text categorization techniques which are used in this study (Naive Bayes, K- Nearest Neighbor, Support Vector Machine and Decision Trees) are examined on web documents for classification of the subject of the documents. These techniques have also been compared with each other. Thus, the web users may utilize these results to get directly aimed information in search of data.
URI: http://acikerisim.ktu.edu.tr/jspui/handle/123456789/437
Koleksiyonlarda Görünür:Bilgisayar Mühendisliği

Bu öğenin dosyaları:
Dosya Açıklama BoyutBiçim 
Tam Metin2.65 MBAdobe PDFKüçük resim
Göster/Aç


DSpace'deki bütün öğeler, aksi belirtilmedikçe, tüm hakları saklı tutulmak şartıyla telif hakkı ile korunmaktadır.