6.1 Tahapan Algoritma CLARA

Buku ini sedang dalam tahap tinjauan terbuka. Kami ingin umpan balik Anda untuk membuat buku ini lebih baik bagi. Anda dapat memberikan anotasi pada beberapa teks dengan memilihnya menggunakan kursor dan kemudian klik “Beri Anotasi” pada menu pop-up. Anda juga dapat melihat anotasi orang lain: klik tanda panah di sudut kanan atas halaman

Algoritma CLARA (Clustering Large Applications) adalah metode clustering berbasis partisi yang efisien untuk dataset besar. Berikut adalah tahapan-tahapannya:

1. Inisialisasi

Tentukan jumlah cluster \(k\). Tentukan jumlah sampel (subsets) yang akan diambil (\(s\)).

2. Pengambilan Sampel Subset Data

CLARA mengambil \(s\) subset data secara acak, di mana ukuran subset data adalah \(m\). Nilai \(m\) biasanya cukup besar untuk mencakup representasi seluruh dataset.

3. Penerapan Algoritma PAM pada Subset Data

Untuk setiap subset, algoritma PAM (Partitioning Around Medoids), Pilih \(k\) medoid awal secara acak. Tetapkan setiap data \(x_i\) ke medoid terdekat berdasarkan fungsi jarak \(d(x_i, m_j)\), di mana: \[ d(x_i, m_j) = \sqrt{\sum_{p=1}^P (x_{ip} - m_{jp})^2} \] dengan \(P\) adalah jumlah atribut. Hitung total cost untuk setiap medoid: \[ \text{Cost} = \sum_{i=1}^n \min_{j=1}^k d(x_i, m_j) \] Tukar medoid dengan non-medoid secara iteratif untuk mengurangi total cost hingga konvergen.

4. Pemilihan Medoid Terbaik

Evaluasi semua medoid yang diperoleh dari \(s\) subset menggunakan seluruh dataset. Medoid terbaik adalah yang memiliki nilai total cost terkecil.

5. Penugasan Data ke Cluster

Tetapkan seluruh data ke medoid terdekat yang dipilih pada langkah sebelumnya.

6. Evaluasi Kualitas Cluster

Gunakan metrik evaluasi seperti silhouette coefficient: \[ S(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))} \] di mana: \(a(i)\) adalah rata-rata jarak data \(i\) ke data lain dalam cluster yang sama. \(b(i)\) adalah rata-rata jarak data \(i\) ke data dalam cluster terdekat.