Detail Karya Ilmiah

  • EKSTRAKSI PENAMBAHAN STOPLIST DARI KATA UMUM DOKUMEN HASIL KLASIFIKASI PRETOPOLOGY
    Penulis : Mohammad Mastur
    Dosen Pembimbing I : Fika Hastarita Rachman, ST.,MEng.
    Dosen Pembimbing II :Firdaus Solihin, SKom.,Mkom.
    Abstraksi

    Dokumen teks bahasa Indonesia sangat melimpah dan setiap waktu bertambah. Dalam proses pencarian, banyak dokumen yang dihasilkan menjadi kurang relevan jika tidak sesuai dengan keinginan pengguna. Stopword merupakan kata yang “tidak relevan”, namun sering muncul dalam dokumen. Kumpulan stopword disebut stoplist. Pada sistem temu balik informasi, asumsi yang ada adalah dengan menghapus stoplist, maka mengurangi jumlah kata yang akan diproses. Sedangkan kata umum juga sering digunakan pada bidang tertentu. Sehingga perlu dilakukan ekstraksi kata umum dari dokumen hasil klasifikasi dan melakukan perbandingan efektifitas antara aplikasi pencarian-1 menggunakan penghapusan stoplist dengan aplikasi pencarian-2 menggunakan penghapusan stoplist dan kata umum untuk meningkatkan relevansi dan waktu proses pencarian dokumen. Hasil uji coba klasifikasi pretopology dengan 25 dokumen teknik, 25 ekonomi dan 25 pertanian diperoleh nilai rata-rata recall dan precision sebesar 90% dan 76%. Uji coba pencarian dengan 6 query terhadap 285 dokumen teknik, 193 ekonomi dan 268 pertanian pada aplikasi pencarian-1 diperoleh nilai rata-rata recall, precision, f-measure dan waktu proses adalah 96.7%, 22.5%, 30.6% dan 0.239 detik. Sedangkan aplikasi pencarian-2 dengan threshold kata umum 1% adalah 96%, 67%, 76.5% dan 0.098 detik. Sehingga dapat dikatakan bahwa aplikasi pencarian-2 lebih efektif dari pada aplikasi pencarian-1. Kata kunci: Sistem temu balik informasi, Stoplist, Klasifikasi Pretopology, Kata Umum.

    Abstraction

    Indonesian text documents very abundant and increases every time. In the search, many documents obtained becomes less relevant if it is not in accordance with the wishes of the user. Stopword is a word "irrelevant", but often appear in the document. Stopword set called the stoplist. In information retrieval systems, the assumption that there is to remove stoplist, then reduce the number of words to be processed. While the common word is also often used in a particular field. So we need a common word extraction of document classification results and compare the effectiveness between search-1 application using stoplist removal and search-2 application using stoplist and common words removal to improve the relevance and speed up the documents searching. The trial results of pretopology classification with 25 technical document, 25 economics and 25 agricultural obtained average recall and precision of 90% and 76%. Search trials with 6 queries against 285 technical document, 193 economics and 268 agricultural at the search-1 application obtained average recall, precision, f-measure and processing time was 96.7%, 22.5%, 30.6% and 0.239 seconds. While the search-2 application with a threshold of 1% of common words was 96%, 67%, 76.5% and 0.098 seconds. So it can be said that the search-2 application is more effective than the search-1 application. Key words: Information Retrieval System, Stoplist, Pretopology Classification, Common Word.

Detail Jurnal