8.1 Tahapan Agglomerative Clustering
Agglomerative Clustering adalah salah satu metode dalam hierarchical clustering yang menggunakan pendekatan bottom-up. Metode ini mengelompokkan data dengan cara menggabungkan cluster yang paling dekat satu sama lain hingga semua data tergabung dalam satu cluster atau hingga jumlah cluster yang diinginkan tercapai.
1. Inisialisasi
Setiap objek (data point) dianggap sebagai satu cluster terpisah. Jika ada \(n\) objek, maka akan ada \(n\) cluster pada awalnya.
2. Menghitung Jarak
Hitung jarak antara semua pasangan cluster. Jarak ini dapat dihitung menggunakan berbagai metrik, seperti Euclidean, Manhattan, atau Cosine. Untuk dua titik \(A(x_1, y_1)\) dan \(B(x_2, y_2)\), jarak Euclidean dapat dihitung dengan rumus:
\[ d(A, B) = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2} \]
3. Menggabungkan Cluster
Temukan dua cluster terdekat (dengan jarak terkecil) dan gabungkan mereka menjadi satu cluster baru. Proses ini mengurangi jumlah cluster sebanyak satu.
4. Memperbarui Jarak
Setelah penggabungan, perbarui matriks jarak untuk mencerminkan jarak antara cluster baru dan cluster lainnya. Ada beberapa metode untuk memperbarui jarak, termasuk:
Single Linkage: Jarak minimum antara anggota dua cluster.
\[ d(A, B) = \min \{ d(a, b) \,|\, a \in A, b \in B \} \]
Complete Linkage: Jarak maksimum antara anggota dua cluster.
\[ d(A, B) = \max \{ d(a, b) \,|\, a \in A, b \in B \} \]
Average Linkage: Rata-rata jarak antara semua pasangan anggota dari dua cluster.
\[ d(A, B) = \frac{1}{|A| \cdot |B|} \sum_{a \in A} \sum_{b \in B} d(a, b) \]
Ward’s Method: Menghitung jarak berdasarkan peningkatan varians yang dihasilkan dari penggabungan dua cluster.
\[ d(A, B) = \sqrt{\frac{n_A n_B}{n_A + n_B} \cdot d^2(A, B)} \]
di mana \(n_A\) dan \(n_B\) adalah jumlah anggota dalam cluster \(A\) dan \(B\).
5. Ulangi Proses
Ulangi langkah 3 dan 4 hingga semua objek tergabung dalam satu cluster atau hingga jumlah cluster yang diinginkan tercapai.
6. Membuat Dendrogram
Setelah semua penggabungan selesai, buat dendrogram untuk memvisualisasikan proses penggabungan cluster. Dendrogram menunjukkan hubungan antar cluster dan dapat digunakan untuk menentukan jumlah cluster yang optimal dengan memotong dendrogram pada ketinggian tertentu.
Kesimpulan
Agglomerative Clustering adalah metode yang efektif untuk mengelompokkan data berdasarkan kesamaan. Dengan mengikuti tahapan di atas, Anda dapat menerapkan teknik ini untuk berbagai aplikasi analisis data. Pastikan untuk memilih metrik jarak dan metode penggabungan yang sesuai dengan karakteristik data Anda untuk mendapatkan hasil yang optimal.