STUDI KOMPARATIF PEMANFAATAN VECTOR SPACE MODEL PADA PENERAPAN ALGORITMA NAZIEF ADRIANI, K-NEAREST NEIGHBOR DAN FUNGSI JACCARD: KASUS PROTOTIPE APLIKASI KATAGORISASI TEKS BERBAHASA INDONESIA
DOI:
https://doi.org/10.33592/jutis.Vol4.Iss2.64Keywords:
Pengkategorian Dokumen, Similaritas, Text Mining, TF-IDF, WIDF, K-Nearest Neighbor, Fungsi JaccardAbstract
Kemajuan teknologi yang sangat cepat mendorong manusia dalam memanfaatkan tumbuh kembangnya teknologi
tersebut untuk melakukan pekerjaan yang dahulu dikerjakan secara manual. Teknik yang digunakan untuk
memecahkan masalah adalah dengan menggunakan teknik text mining untuk pengkategorian dokumen penulisan
ilmiah. Sedangkan untuk mencari nilai similaritas suatu dokumen dengan dokumen lainnya menggunakan kata kunci
yang didapat dari hasil pengkategorian dokumen dan algoritma yang digunakan adalah algoritma TF-IDF (Term
Frequency – Inversed Document Frequency), WIDF (Weighted Inverse Document Frequency). Untuk pengujian
sistem adalah dengan Recall & Precision. Tujuan dari penelitian ini adalah untuk implementasi sistem klasifikasi
dokumen teks berbahasa Indonesia dengan banyak kategori dan mengetahui tingkat akurasi hasil klasifikasi dengan
metode TF-IDF dan WIDF dalam mengklasifikasikan dokumen teks berbahasa Indonesia. Penelitian ini menghasilkan
nilai precision dan recall rata-rata sebesar 87.50% dengan pembobotan TF-IDF dan WIDF sebesar 83.33%. Dengan
ini diambil kesimpulan bahwa TF-IDF menghasilkan precision & recall tertinggi sebesar 87.50% dibandingkan
dengan WIDF yaitu 83.33% menggunakan similaritas fungsi jaccard. Hasil terbaik adalah pembobotan kata dengan
TF-IDF.
References
Amir Hamzah. Klasifikasi Teks Dengan Naïve
Bayes Classifier (NBC) Untuk Pengelompokan
Teks Berita dan Abstract Akademis. Seminar
Nasional Aplikasi Sains & Teknologi.
Yogyakarta. 2012.
Diah Pudi Langgeni, ZK.Abdurahman Baizal
dan Yanuar Firdaus A.W. Clustering Artikel
Berita Berbahasa Indonesia Menggunakan
Unsupervised Feature Selection. Institut
Teknologi Telkom: Bandung.2010.
F.Soesianto, Amir Hamzah, Adhi Susanto &
Jazi Eko Istiyanto. Studi Kinerja Fungsi-fungsi
Jarak dan Similaritas Dalam Clustering
Dokumen Teks Berbahasa Indonesia. Seminar
UPN Veteran. Yogyakarta.2008.
Mooney, R., Intelligent Information Retrieval
and Web Search, Austin: Texas University Pr.,
Musa, Listiyanti, Prima Kurniati, Angelina &
Arif Bijaksana, Moch. Analisis dan
Perbandingan Penggunaan Metode
Distributional Feature dengan TFIDF dan ITF pada Text Categorization. Universitas
Telkom.2012.