7.1 Tahapan Algoritma K-Modes
1. Inisialisasi
Tentukan jumlah cluster \(k\). Pilih \(k\) modus dari dataset sebagai centroid awal. Modus adalah nilai yang paling sering muncul dalam setiap atribut kategorik.
2. Pengelompokan
Untuk setiap data point, hitung jarak dissimilarity ke setiap centroid. Dalam K-Modes, jarak dissimilarity dihitung menggunakan rumus berikut:
\[ d(x_i, c_j) = \sum_{k=1}^{n} \delta(x_{ik}, c_{jk}) \]
di mana: \(d(x_i, c_j)\) adalah jarak dissimilarity antara data point \(x_i\) dan centroid \(c_j\). \(\delta(x_{ik}, c_{jk})\) adalah fungsi yang mengembalikan 0 jika \(x_{ik} = c_{jk}\) (nilai sama) dan 1 jika \(x_{ik} \neq c_{jk}\) (nilai berbeda). \(n\) adalah jumlah atribut.
3. Penugasan Cluster
Setiap data point \(x_i\) ditugaskan ke cluster dengan centroid terdekat (dengan jarak dissimilarity terkecil).
4. Update Centroid
Setelah semua data point ditugaskan ke cluster, hitung ulang centroid untuk setiap cluster dengan mengambil modus dari setiap atribut dalam cluster tersebut. Modus dapat dihitung dengan:
\[ c_j = \text{modus}(X_j) \]
di mana \(X_j\) adalah himpunan data point yang ditugaskan ke cluster \(j\).
5. Kondisi Berhenti
Ulangi langkah 2 hingga 4 sampai tidak ada perubahan dalam penugasan cluster atau sampai jumlah iterasi maksimum tercapai.
Penjelasan Tambahan
- Centroid: Dalam konteks K-Modes, centroid adalah modus dari atribut-atribut dalam cluster. Ini berbeda dengan K-Means, di mana centroid adalah rata-rata dari atribut numerik.
- Iterasi: Proses ini diulang hingga tidak ada perubahan dalam penugasan cluster, yang menunjukkan bahwa algoritma telah konvergen.