6.1 Tahapan Algoritma CLARA
Algoritma CLARA (Clustering Large Applications) adalah metode clustering berbasis partisi yang efisien untuk dataset besar. Berikut adalah tahapan-tahapannya:
1. Inisialisasi
Tentukan jumlah cluster \(k\). Tentukan jumlah sampel (subsets) yang akan diambil (\(s\)).
2. Pengambilan Sampel Subset Data
CLARA mengambil \(s\) subset data secara acak, di mana ukuran subset data adalah \(m\). Nilai \(m\) biasanya cukup besar untuk mencakup representasi seluruh dataset.
3. Penerapan Algoritma PAM pada Subset Data
Untuk setiap subset, algoritma PAM (Partitioning Around Medoids), Pilih \(k\) medoid awal secara acak. Tetapkan setiap data \(x_i\) ke medoid terdekat berdasarkan fungsi jarak \(d(x_i, m_j)\), di mana: \[ d(x_i, m_j) = \sqrt{\sum_{p=1}^P (x_{ip} - m_{jp})^2} \] dengan \(P\) adalah jumlah atribut. Hitung total cost untuk setiap medoid: \[ \text{Cost} = \sum_{i=1}^n \min_{j=1}^k d(x_i, m_j) \] Tukar medoid dengan non-medoid secara iteratif untuk mengurangi total cost hingga konvergen.
4. Pemilihan Medoid Terbaik
Evaluasi semua medoid yang diperoleh dari \(s\) subset menggunakan seluruh dataset. Medoid terbaik adalah yang memiliki nilai total cost terkecil.