5.1 Tahapan Algoritma K-Medoids

Buku ini sedang dalam tahap tinjauan terbuka. Kami ingin umpan balik Anda untuk membuat buku ini lebih baik bagi. Anda dapat memberikan anotasi pada beberapa teks dengan memilihnya menggunakan kursor dan kemudian klik “Beri Anotasi” pada menu pop-up. Anda juga dapat melihat anotasi orang lain: klik tanda panah di sudut kanan atas halaman

1. Inisialisasi Centroid

Tentukan jumlah cluster \(k\) yang diinginkan. Pilih secara acak \(k\) titik data dari dataset sebagai medoid awal untuk setiap cluster.

2. Penugasan Anggota Cluster

Setiap titik data \(x_i\) dalam dataset dialokasikan ke cluster yang memiliki medoid terdekat. Penugasan dilakukan berdasarkan jarak antara titik data dan medoid menggunakan rumus jarak (misalnya, jarak Euclidean). \[ \text{Jarak}(x_i, m_k) = \sqrt{\sum_{j=1}^n (x_{ij} - m_{kj})^2} \] Di mana: \(x_i\) adalah titik data ke-i, \(m_k\) adalah medoid untuk cluster k, \(x_{ij}\) adalah nilai fitur ke-j dari titik data \(x_i\), \(m_{kj}\) adalah nilai fitur ke-j dari medoid \(m_k\), \(n\) adalah jumlah fitur.

Titik data \(x_i\) akan dimasukkan ke dalam cluster \(C_k\) yang memiliki medoid dengan jarak terkecil: \[ C_k = \{ x_i \mid \text{Jarak}(x_i, m_k) \leq \text{Jarak}(x_i, m_j) \, \text{untuk semua} \, j \neq k \} \]

3. Pembaruan Medoid

Setelah anggota cluster ditugaskan, tentukan medoid baru untuk setiap cluster. Medoid baru adalah titik data yang meminimalkan jumlah jarak ke semua titik dalam cluster tersebut. \[ m_k = \arg\min_{x_j \in C_k} \sum_{x_i \in C_k} \text{Jarak}(x_i, x_j) \] Di mana: \(m_k\) adalah medoid baru untuk cluster \(C_k\), \(x_j\) adalah kandidat medoid di dalam cluster \(C_k\), \(\text{Jarak}(x_i, x_j)\) adalah jarak antara titik data \(x_i\) dan kandidat medoid \(x_j\).

Medoid baru adalah titik data \(x_j\) yang meminimalkan jumlah total jarak ke titik-titik lainnya dalam cluster \(C_k\).

4. Iterasi

Langkah 2 dan 3 diulang hingga tidak ada perubahan pada medoid atau hingga perubahan medoid sangat kecil, menandakan konvergensi.

5. Hasil Akhir

Setelah konvergensi tercapai, algoritma berhenti, dan hasil akhir adalah pembagian dataset ke dalam \(K\) cluster dengan medoid yang mewakili setiap cluster. Titik data yang tergabung dalam cluster \(C_k\) lebih dekat ke medoid \(m_k\) dibandingkan medoid lainnya.