Detail Karya Ilmiah
-
Implementasi Efficient-SOM Pada Text Clustering Menggunakan Reduksi DimensiPenulis : Toyibatu LailiyaDosen Pembimbing I : Dr. Indah Agustien S., M.Kom.Dosen Pembimbing II :Mulaab Mulyo, S.Si., M.Kom.Abstraksi
Data berukuran besar yang sudah disimpan jarang digunakan secara optimal karena kemampuan manusia yang terbatas untuk mengelolanya. Salah satu data berskala besar adalah data teks. Data teks memiliki fitur yang sangat besar sehingga untuk mengolahnya memerlukan waktu komputasi yang besar pula. Penelitian ini bertujuan untuk mengurangi waktu komputasi dalam proses clustering sehingga data teks dapat diolah secara efisien. Proses clustering menggunakan metode SOM dengan menerapkan reduksi dimensi pada tahap preprosesing. Metode ini diterapkan untuk mengelompokan data tugas akhir mahasiswa Teknik Informatika Universitas Trunojoyo Madura. Dalam metode yang diusulkan, analisis morfologi dilakukan pada teks abstrak tugas akhir mahasiswa untuk menghasilkan vektor input dengan unsur term dari tugas akhir tersebut. Adanya elemen vektor yang jarang, memungkinkan terjadinya reduksi dimensi. Reduksi dimensi dilakukan dengan menghilangkan matriks jarang atau kolom yang banyak mengandung nilai 0. Dari percobaan yang dilakukan, diperoleh hasil bahwa optimum cluster untuk data abstrak berada pada scenario 1 yaitu jumlah term setelah direduksi sebanyak 150 term, sehingga menghasilkan nilai rata-rata SSE = 0.01117. Sedangkan untuk data laporan optimum cluster berada pada scenario 2 yaitu jumlah term setelah direduksi sebanyak 346 term, sehingga mengahasilkan nilai rata-rata SSE = 0.0085 detik.
AbstractionLarge data that is stored used rarely optimally because of the limited human ability to manage it. One of large-scale data is text data. Text data has enormous features so as to process it requires greater computational time. This study aims to reduce the computation time in text clustering process so that the data can be processed efficiently. Clustering process using SOM by applying dimensionality reduction on preprocessing. This method is applied to cluster the Informatics Engineering students' final assignment data of Trunojoyo University. In the proposed method, morphological analysis is applied on the abstract of final assignment to generate input vectors using elements of the final assignment. The existence of a sparse vector elements, allowing the dimensionality reduction. Dimensionality reduction is done by removing the sparse matrix or column that contains the value 0. From the experiments conducted, the result that the best cluster to abstract data is on scenario 1 by the number of terms = 150 words and the average value of SSE = 0.01117. Whereas the best cluster to reports data is on scenario 2 by the number of terms = 346 words and the average value of SSE = 0.0085 seconds.