2.3 Dataset
Dataset yang digunakan dalam buku ini diperoleh dari UCI Machine Learning Repository, sebuah sumber dataset publik yang banyak digunakan dalam penelitian dan pembelajaran mesin. UCI Machine Learning Repository menyediakan berbagai dataset dari berbagai domain, seperti kesehatan, keuangan, pemasaran, dan sains sosial, yang telah digunakan secara luas dalam penelitian akademik maupun aplikasi industri.
Pemilihan dataset dari UCI didasarkan pada kriteria kualitas, keberagaman, serta relevansinya dalam analisis klaster. Dataset yang tersedia di repository ini umumnya telah melalui tahap kurasi dan dokumentasi yang baik, sehingga memudahkan pengguna dalam memahami struktur data dan variabel yang tersedia. Selain itu, dataset dalam repository ini mencakup berbagai ukuran dan kompleksitas, memungkinkan pembaca untuk mempelajari berbagai teknik analisis klaster dari skala kecil hingga besar.
Dalam buku ini, beberapa dataset yang digunakan mencakup data dengan variabel numerik, kategorikal, serta kombinasi keduanya, sehingga memberikan wawasan yang komprehensif tentang penerapan metode klasterisasi dalam berbagai jenis data. Setiap dataset akan dijelaskan secara rinci, termasuk deskripsi variabel, tujuan analisis, serta metode pemrosesan awal yang diperlukan sebelum diterapkan dalam algoritma klasterisasi.
Dengan menggunakan dataset dari UCI Machine Learning Repository, pembaca dapat dengan mudah mengakses dan mengunduh dataset yang digunakan dalam buku ini untuk bereksperimen secara mandiri menggunakan R. Dataset ini juga memungkinkan pembaca untuk menguji metode yang dipelajari dengan variasi parameter yang berbeda dan mengeksplorasi hasil klasterisasi secara lebih mendalam.