Detail Karya Ilmiah

  • Klasifikasi Dokumen Web Berita Universitas Menggunakan k-NN (K-Nearest Neighbor)
    Penulis : rohmi nur hidayah
    Dosen Pembimbing I : firdaus solihin, S. kom., M. Kom
    Dosen Pembimbing II :Hermawan, S.T., M.Kom
    Abstraksi

    Jumlah dokumen berita di situs web universitas semakin banyak dan up-to-date. Kebutuhan pengunjung akan informasi tersebut semakin tinggi, sedangkan di sisi lain pengguna membutuhkan penemuan informasi yang cepat dan akurat. Penelitian ini menggunakan metode cosine similarityuntuk menghitung kemiripan antar dokumen. Selain itu agar pencarian dokumen mudah ditemukan, maka dokumen diklasifikasikan berdasarkan pada kelas-kelas yang sudah ditentukan sebelumnya (preedefined) menggunakan metode k-NN (k-nearest neighbour). Untuk mempercepat penyampaian hasil pencarian kepada pengguna maka pada aplikasi ini digunakan teknik caching terhadapdokumen-dokumen yang pernah dikembalikan sebelumnya kepada pengguna. Teknik ini dimaksudkan untuk meningkatkan transfer dokumen dengan menyimpan dokumen yang pernah diakses pada cache tersebut, sehingga apabila ada dokumen yang ingin diakses adalah dokumen yang sama maka akses akan dapat dilakukan lebih cepat. Hasil pengujian memperlihatkan bahwa akurasi klasifikasi k-NN untuk dokumen teks berita mampu mencapai 95% saat dokumen diwakili oleh judul dan paragraf pertama (k=20, 25 dan 45) tetapi hanya maksimal 40% saat dokumen diwakili oleh judul dan isi lengkap. Adanya klasifikasi terbukti meningkatkan presisi hasil pencarian dan mempersingkat proes pencarian tersebut. Kehadiran cachemenjadikan waktu pemrosesan query yang telah ada sebelumnya menjadi jauh lebih cepat, rata-rata hanya memerlukan 7 mili detik. Kata kunci : k-Nearest Neighbour,cosine similaity, cache.

    Abstraction

    Most of the university's website in Indonesia has not implemented the classification of the content it provides. Three web site has been applying manual classification is ITB, UGM and IPB, where the result is still ambiguous. Visitors from the university's website require information that focus on a specific topic, fast in processing user queries and renewable. We conducted a study to establish a system called kNN portal intended to classify documents from chosen 10 news web sites using text classification method kNN (k-nearest neighbor). Classification results are then used to improve the performance of the process of handling user queries. Similarity between the query with a list of documents contained in the kNN Portal repository is calculated by the cosine similairity. Caching techniques are included to speed up the query processing. The test results show that the k-NN classification accuracy for news text document is able to achieve 95% when a document is represented by the title and first paragraph (k = 20, 25 and 45) but only a maximum of 40% when a document is represented by the title and complete text. The existence of the classification is able to improve the precision of search results and shorten the searching process. The presence of the cache makes the preexisting query processing time become much faster, on average only requires 7 milliseconds. Keywords: k-Nearest Neighbour, cosine similaity, text classification, cache, first paragraph.

Detail Jurnal