Buku ini sedang dalam tahap tinjauan terbuka. Kami ingin umpan balik Anda untuk membuat buku ini lebih baik bagi. Anda dapat memberikan anotasi pada beberapa teks dengan memilihnya menggunakan kursor dan kemudian klik “Beri Anotasi” pada menu pop-up. Anda juga dapat melihat anotasi orang lain: klik tanda panah di sudut kanan atas halaman

1 Pendahuluan

“Why is that when one man builds a wall, the next needs to to know what’s on the other side?”

– Tyrion Lannister-Game of Thrones

R adalah bahasa pemrograman dan perangkat lunak yang dirancang khusus untuk keperluan analisis data, pengolahan statistik, dan visualisasi data. Bahasa ini menawarkan fleksibilitas untuk menulis kode guna menjalankan berbagai metode analisis statistik, mulai dari analisis statistik deskriptif hingga prediktif. Sebagai perangkat lunak, R menyediakan lingkungan interaktif untuk eksplorasi data, pengolahan, serta pembuatan laporan yang informatif. Kemampuan ini diperkuat dengan paket visualisasi yang sangat kaya seperti ggplot2, lattice, dan plotly, yang memungkinkan pengguna membuat grafik berkualitas tinggi. R tidak hanya membantu menganalisis data tetapi juga memvisualisasikannya dengan cara yang interaktif dan estetis, sehingga dapat menggali wawasan yang lebih dalam. R pertama kali dikembangkan pada awal 1990-an oleh Ross Ihaka dan Robert Gentleman di University of Auckland, Selandia Baru. Proyek ini terinspirasi oleh bahasa pemrograman S yang dikembangkan oleh John Chambers di Bell Laboratories. Pada tahun 1995, R dirilis sebagai perangkat lunak open source, sehingga memungkinkan pengembang di seluruh dunia untuk berkontribusi dalam pengembangannya.

Sejak itu, R berkembang pesat dengan ribuan paket yang tersedia di CRAN (Comprehensive R Archive Network) serta repositori lainnya. Dukungan komunitas dan kontribusi aktif dari pengembang di seluruh dunia telah menjadikan R sebagai bahasa yang terus berevolusi untuk memenuhi kebutuhan analisis data modern. R memiliki salah satu komunitas pengguna paling aktif di dunia. Komunitas ini terdiri dari akademisi, peneliti, praktisi industri, hingga pengembang perangkat lunak. Forum diskusi seperti RStudio Community, Stack Overflow, dan mailing list R membantu pengguna menyelesaikan masalah serta berbagi ide.

Ekosistem R terus berkembang dengan adanya RStudio sebagai Integrated Development Environment (IDE) yang populer. Selain itu, repositori paket seperti CRAN dan Bioconductor. Bioconductor adalah sebuah platform perangkat lunak untuk analisis data genomik yang kompleks, dikembangkan khusus untuk mendukung penelitian dalam bioinformatika dan biologi komputasi. Dibangun di atas bahasa pemrograman R, Bioconductor menyediakan berbagai paket yang dirancang untuk analisis data omics, seperti genomik, proteomik, dan metabolomik. Dukungan komunitas yang besar, dokumentasi yang melimpah, dan ketersediaan sumber daya membuat R menjadi alat yang mudah diakses oleh pemula sekaligus sangat berguna bagi pengguna tingkat lanjut.

R dapat diintegrasikan dengan berbagai bahasa pemrograman lain, seperti Python, C++, Java, dan SQL. Kompatibilitas ini memungkinkan pengguna untuk menggabungkan kekuatan masing-masing bahasa dalam satu proyek. Misalnya, pengguna dapat memanfaatkan Python untuk preprocessing data skala besar, kemudian menggunakan R untuk analisis statistik mendalam dan visualisasi. Selain itu, R juga mendukung integrasi dengan berbagai perangkat lunak lain seperti Excel, Tableau, dan Power BI, membuatnya menjadi bagian penting dalam alur kerja data modern.

R telah menjadi alat yang sangat populer di berbagai bidang, berkat fleksibilitasnya dalam menangani analisis data. Beberapa bidang utama yang banyak memanfaatkan R antara lain:

  • Statistik: R digunakan untuk berbagai jenis analisis statistik, seperti uji hipotesis, analisis regresi, dan analisis multivariat.

  • Data Science: R digunakan untuk eksplorasi data, pembuatan model prediktif, dan pengolahan data besar.

  • Biologi dan Bioinformatika: Paket seperti Bioconductor memungkinkan analisis data genomik dan proteomik.

  • Ekonomi dan Keuangan: R digunakan untuk analisis time series, pemodelan risiko, dan optimasi portofolio.

  • Ilmu Sosial: R membantu dalam analisis survei, data panel, dan analisis konten.

R dirancang khusus untuk analisis statistik, membuatnya menjadi salah satu alat terbaik untuk keperluan ini. Selain itu, R menyediakan banyak metode untuk data mining, seperti clustering, classification, dan association rule mining. Dukungan paket seperti caret untuk machine learning dan tm untuk analisis teks menjadikan R alat yang sangat andal dalam data mining dan pengolahan data tidak terstruktur. Selain itu, paket bookdown menjadi alat utama dalam proyek ini. Paket ini berbasis rmarkdown dan memberikan kemudahan untuk membuat dokumen yang menarik, seperti halaman web interaktif, e-book, dan laporan dalam format PDF. Dengan fitur yang memungkinkan integrasi antara teks, kode, dan hasil analisis, bookdown sangat cocok digunakan untuk pembelajaran dan dokumentasi ilmiah.

Dengan menggunakan paket bookdown , kami menyusun sebuah buku berjudul Analisis Cluster dengan R: Panduan Lengkap untuk Pemula. Buku ini dirancang sebagai panduan interaktif yang menggabungkan teori, kode, dan hasil analisis dalam satu kesatuan. Tujuannya adalah menyediakan bahan belajar elektronik yang dapat diakses di berbagai platform, sehingga pembaca dapat memahami teori sekaligus mempraktikkan analisis data secara langsung. Buku ini diharapkan menjadi panduan lengkap bagi pemula untuk mempelajari analisis cluster dengan pendekatan yang mudah dipahami dan terstruktur.

Setiap bab dalam buku ini dilengkapi dengan latihan pemrograman interaktif menggunakan R. Latihan-latihan ini dirancang untuk melengkapi contoh kode yang menunjukkan penerapan algoritma clustering yang dibahas. Latihan dibuat dengan menggunakan DataCamp light widget yang terhubung langsung ke sesi R yang dikelola oleh server DataCamp.

Melalui pendekatan ini, pembaca dapat langsung mencoba dan bereksperimen dengan latihan yang disediakan, sehingga pemahaman mereka terhadap metode yang dipelajari dapat lebih mendalam. Kami berharap metode ini dapat memberikan pengalaman belajar yang menyeluruh dan menarik, terutama bagi pembaca yang ingin mempelajari analisis cluster menggunakan R secara praktis.

Widget ini terdiri dari dua tab. Tab pertama, script.R, berfungsi seperti file dengan format .R, yang umum digunakan untuk menyimpan kode R. Baris yang diawali dengan tanda # merupakan komentar, yang tidak dihitung sebagai kode oleh R. Tab script.R ini berfungsi seperti lembar latihan, di mana Anda dapat menuliskan solusi Anda. Setelah menulis kode, Anda bisa menekan tombol Run untuk menjalankannya. Sistem akan menguji kebenaran solusi yang Anda buat dan memberi tahu apakah solusi tersebut benar. Jika salah, Anda akan mendapatkan umpan balik berupa saran atau petunjuk perbaikan.

Tab kedua, R Console, adalah konsol R yang sepenuhnya berfungsi, yang memungkinkan Anda mencoba solusi terlebih dahulu sebelum mengirimkannya. Anda juga bisa mengirimkan hampir semua kode R ke konsol untuk bereksperimen dan mengeksplorasi lebih lanjut. Cukup ketikkan perintah dan tekan Enter untuk menjalankannya.

Pada konsol, Anda akan melihat simbol > di panel kanan (konsol). Simbol ini disebut prompt dan menandakan bahwa pengguna dapat mulai memasukkan kode untuk dijalankan. Agar tidak membingungkan, simbol ini tidak akan ditampilkan di buku ini. Output yang dihasilkan oleh kode R akan diberi komentar dengan #>.

Biasanya, kami menampilkan kode R bersama dengan output yang dihasilkan dalam satu potongan kode. Sebagai contoh, perhatikan baris kode berikut yang ditampilkan dalam potongan di bawah ini. Kode ini memberi perintah kepada R untuk menghitung jumlah paket yang tersedia di CRAN. Potongan kode tersebut diikuti oleh output yang dihasilkan.

# Cek jumlah paket R yang tersedia di CRAN
nrow(available.packages(repos = "http://cran.us.r-project.org"))
#> [1] 22029

Setiap potongan kode dilengkapi dengan tombol di sisi kanan yang memungkinkan Anda menyalin kode ke clipboard. Fitur ini mempermudah pekerjaan dengan segmen kode yang lebih besar, baik di versi R/RStudio Anda maupun di widget-widget yang ada di sepanjang buku ini. Pada widget di atas, Anda bisa mengklik tab R Console dan mengetikkan perintah nrow(available.packages(repos = "http://cran.us.r-project.org")) (perintah dari potongan kode di atas), lalu menjalankannya dengan menekan tombol Enter pada keyboard Anda.

Setiap potongan kode dilengkapi dengan tombol di sisi kanan luar yang memungkinkan Anda menyalin kode ke clipboard Anda. Ini membuat pekerjaan dengan segmen kode yang lebih besar menjadi lebih nyaman, baik di versi R/RStudio Anda maupun di widget-widget yang disajikan di sepanjang buku ini. Pada widget di atas, Anda dapat mengklik tab R Console Console dan mengetikkan nrow(available.packages(repos = "http://cran.us.r-project.org")) (perintah dari potongan kode di atas) dan menjalankannya dengan menekan tombol Enter pada keyboard Anda. 1


  1. Sesi R akan diinisialisasi dengan mengklik widget. Proses ini mungkin memakan waktu beberapa detik. Cukup tunggu hingga indikator di samping tombol Run berubah menjadi hijau.↩︎