PENERAPAN EKSTRAKSI INFOMASI SIMPLE TREE MATCHING (STM) PADA WEB CRAWLER BAHASA INDONESIAPenulis : Alfian QomaruddinDosen Pembimbing I : Firdaus SolihinDosen Pembimbing II :Iwan SantosaAbstraksi
Web crawler adalah salah satu bagian penting dari search engine. Web crawler bertugas mengambil informasi dari laman web yang dikunjunginya. Untuk mendapatkan konten khusus bahasa indonesia telah di desain dan diimplementasikan pada penelitan sebelumnya oleh Arifin. Dari hasil penelitian ini diperoleh web crawler yang mampu menghimpun website bahasa indonesia dengan data uji coba 1000 URL, diantaranya 500 website bahasa indonesia dan 500 website bahasa asing. Namun data yang tersimpan dari web crawler tersebut belum optimal, karena di dalam konten yang tersimpan masih terdapat beberapa bagian yang bukan sebuah informasi. Kekurangan pada pengambilan konten tersebut dicoba untuk diperbaiki dalam penelitian ini dengan menggunakan ekstraksi informasi(web data extraction) berbasis pencocokan pohon dengan menggunakan metode Simple Tree Matching(STM). Ekstraksi informasi adalah sebuah cara komputer dalam mengambil informasi pada suatu website. Simple Tree Matching adalah sebuah metode ekstraksi informasi yang melakukan pencocokan dua tree website pada proses ekstraksinya. Web crawler dengan metode STM dilakukan ujicoba kembali pada 50 website dari data penelitian sebelumnya dan didapatkan hasil konten yang lebih bersih dari implementasi sebelumnya. Dapat disimpulkan bahwa simple tree matching mampu dengan sempurna melakukan ekstraksi informasi pada web crawler. Dengan rata-rata nilai precision 100% dan recall 89.31365%.
AbstractionWeb crawler was one important part of the search engine. Web crawler was in charge to take information from the web pages visited. To get only Indonesian content has been designed and implemented in previous research by Arifin. From these results obtained by a web crawler could collect Indonesian website with URL trial data in 1000, of which 500 Indonesian websites and 500 foreign language websites. However, the data stored on the web crawler is not optimal, because in the content stored there were still some parts that are not an information. Deficiencies in the content retrieval attempted to be fixed in this study using information extraction (extraction of data web) based on tree matching by using the Simple Tree Matching (STM). Information extraction was a way of taking information on a website in computer. Simple Tree Matching was a method of information extraction that performs two tree matching on the extraction process. Web crawlers with STM method was testing back at 50 websites of previous research data and results obtained content was cleaner than previous implementations. It could be concluded that simple tree matching perfectly capable of extracting information on web crawlers. With an average value of precision 100% and a recall 89.31365%.