Buku ini sedang dalam tahap tinjauan terbuka. Kami ingin umpan balik Anda untuk membuat buku ini lebih baik bagi. Anda dapat memberikan anotasi pada beberapa teks dengan memilihnya menggunakan kursor dan kemudian klik “Beri Anotasi” pada menu pop-up. Anda juga dapat melihat anotasi orang lain: klik tanda panah di sudut kanan atas halaman

3 Ukuran Kemiripan dan Ketidakmiripan Data

“The purpose of data analysis is to understand the structure of the data and learn about the world it represents”

– William S. Cleveland

Analisis cluster berfokus pada pengelompokan objek yang memiliki kesamaan tertentu ke dalam satu kelompok atau clutser. Tujuannya adalah untuk mengidentifikasi pola atau struktur dalam data dengan cara mengelompokkan objek yang mempunyai kemiripan dan memisahkan objek yang berbeda. Setiap cluster berisi objek-objek yang lebih mirip satu sama lain dibandingkan dengan objek-objek di cluster lainnya (Han, Kamber, and Pei 2012).

Pada bab ini, akan dibahas secara mendalam berbagai ukuran yang digunakan untuk mengukur kemiripan dan ketidakmiripan dalam analisis cluster. Ukuran kemiripan digunakan untuk menilai sejauh mana dua objek atau instansi memiliki karakteristik yang serupa, sementara ukuran ketidakmiripan (atau jarak) digunakan untuk mengukur perbedaan antara objek-objek tersebut. Kedua ukuran ini sangat penting dalam menentukan bagaimana objek-objek tersebut akan dikelompokkan dalam cluster yang sesuai. Pembahasan ini mencakup berbagai metode pengukuran yang sering digunakan dalam analisis klaster, seperti jarak Euclidean, jarak Manhattan, dan ukuran kesamaan berbasis korelasi, serta cara-cara penerapannya dalam berbagai algoritma clustering dengan R.

Referensi

Han, Jiawei, Micheline Kamber, and Jian Pei. 2012. “Data Mining Concepts and Techniques, Third Edition.” Waltham, Mass.: Morgan Kaufmann Publishers. 2012.