3 Ukuran Kemiripan dan Ketidakmiripan Data
“The purpose of data analysis is to understand the structure of the data and learn about the world it represents”
– William S. Cleveland
Analisis cluster berfokus pada pengelompokan objek yang memiliki kesamaan tertentu ke dalam satu kelompok atau clutser. Tujuannya adalah untuk mengidentifikasi pola atau struktur dalam data dengan cara mengelompokkan objek yang mempunyai kemiripan dan memisahkan objek yang berbeda. Setiap cluster berisi objek-objek yang lebih mirip satu sama lain dibandingkan dengan objek-objek di cluster lainnya (Han, Kamber, and Pei 2012).
Pada bab ini, akan dibahas secara mendalam berbagai ukuran yang digunakan untuk mengukur kemiripan dan ketidakmiripan dalam analisis cluster. Ukuran kemiripan digunakan untuk menilai sejauh mana dua objek atau instansi memiliki karakteristik yang serupa, sementara ukuran ketidakmiripan (atau jarak) digunakan untuk mengukur perbedaan antara objek-objek tersebut. Kedua ukuran ini sangat penting dalam menentukan bagaimana objek-objek tersebut akan dikelompokkan dalam cluster yang sesuai. Pembahasan ini mencakup berbagai metode pengukuran yang sering digunakan dalam analisis klaster, seperti jarak Euclidean, jarak Manhattan, dan ukuran kesamaan berbasis korelasi, serta cara-cara penerapannya dalam berbagai algoritma clustering dengan R.