in Concept

Kerangka Kerja CRISP-DM untuk Proyek Data

Reading Time: 7 minutes
  1. Kerangka Kerja CRISP-DM
  2. Business Understanding
  3. Data Understanding
  4. Data Preparation
  5. Modeling
  6. Evaluation
  7. Deployment

A. Apa itu CRISP-DM?

CRISP-DM (CRoss Industry Standard Process for Data Mining) adalah sebuah kerangka kerja proses pengolahan data yang tersusun atas enam fase yang merepresentasikan suatu siklus data science. CRISP-DM pertama kali dicetuskan pada tahun 1996 oleh empat perusahaan besar bidang data mining kala itu, yaitu Daimler-Benz, Integral Solutions, NCR, dan OHRA. Semenjak pertama diluncurkan, CRISP-DM menjadi salah satu standar proses data mining yang paling populer hingga saat ini.

Pada survey yang dilakukan oleh datascience-pm.com, pada tahun 2020, menempatkan CRISP-DM sebagai standar proses data mining paling populer, unggul jauh di atas Scrum pada posisi kedua. Dari sini dapat diambil kesimpulan bahwa meskipun sudah lebih dari 20 tahun, CRISP-DM masih merajai data mining di dunia.

B. Kerangka Kerja CRISP-DM

CRISP-DM terdiri atas enam fase pengolahan data, yaitu Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation, dan Deployment. Bagian ini akan membahas secara singkat masing-masing fase.

Kenneth Jensen, CC BY-SA 3.0, via Wikimedia Commons

B.1. Business Understanding

Hal pertama yang harus dilakukan dalam sebuah proyek data mining adalah dengan memahami terlebih dahulu kebutuhan bisnis yang dibutuhkan. Jangan sampai ketika data sudah didapatkan, ternyata tidak sesuai dengan kebutuhan yang sebenarnya. Beberapa poin utama yang menjadi perhatian pada fase ini adalah:

  • Memastikan tujuan bisnis. Pada tahap ini, yang perlu dilakukan adalah memahami tujuan dalam perspektif bisnis. Beberapa pertanyaan sederhana yang sebaiknya bisa dijawab pada tahapan ini adalah: Apa yang berusaha untuk dicapai? Bagaimana langkah untuk mencapai tujuan tersebut? Bagaimana mengukur tujuan tersebut telah tercapai atau belum? Apakah tujuan yang ingin dicapai sudah sesuai dengan kebutuhan pasar? Dengan tujuan yang jelas, harapannya langkah-langkah yang dilakukan selanjutnya menjadi lebih terarah. Contoh tujuan bisnis disini misalnya: membuat pelanggan tidak berpindah ke kompetitor.
  • Menaksir situasi. Setelah mendefinisikan tujuan besar, langkah selanjutnya adalah melihat kebutuhan utama untuk mencapai tujuan tersebut. Data apa saja yang dibutuhkan? Bagaimana dengan data apa yang tersedia? Data apa yang harus diambil? Bagaimana pengambilan datanya? Asumsi apa yang diperlukan? Tahap ini dapat digunakan untuk memberikan batasan-batasan terhadap proses yang akan dilakukan. Contohnya, data yang sudah ada sekarang adalah data umum terkait pelanggan, namun untuk mencapai tujuan bisnis, diperlukan data tambahan berupa informasi demografi dari pelanggan. Oleh karena itu, diperlukan upaya untuk melengkapi data yang ada.
  • Memastikan tujuan dari data mining. Apa bedanya tujuan bisnis dengan tujuan data mining? Tujuan data mining memiliki cakupan yang lebih sempit dan lebih teknikal, meskipun masih terkait dengan proses bisnis. Misalnya dengan tujuan bisnis seperti di atas, maka kita bisa membuat tujuan data mining yaitu: memprediksi berapa banyak produk yang dibeli oleh pelanggan pada bulan depan. Hasil yang nanti didapat dari data mining dengan tujuan tersebut diharapkan berkontribusi terhadap tujuan bisnis di awal.
  • Membuat perencanaan proyek. Perencanaan proyek meliputi proses step-by-step untuk mencapai tujuan data mining yang dituliskan secara detil dan terjadwal. Langkah-langkah yang dituliskan meliputi fase-fase yang selanjutnya akan dibahas pada CRISP-DM ini.

B.2. Data Understanding

Fase kedua dalam kerangka CRISP-DM ini pada dasarnya adalah memahami data yang ada.

  • Pengambilan data. Langkah pertama tentu saja adalah mengambil data yang dibutuhkan. Data bisa diambil dengan berbagai macam cara dan dari berbagai macam sumber. Metode pengambilkan data bergantung dari sumbernya. Untuk pengambilan melalui formulir/kuesioner/dsb, tentu perlu dipikirkan terkait media pengambilannya; bisa dikaitkan dengan faktor keamanan dan kemudahan pengambilan. Apakah pengambilan melalui formulir digital seperti Google Form atau penulisan konvensional di atas kertas? Tentu masing-masing memiliki kelebihan dan kekurangan masing-masing. Selain itu, apabila pengambilan data melalui bantuan mesin, seperti API, akan ada tantangan serta hal-hal yang perlu diperhatikan juga.
  • Mengamati deskripsi data. Setelah data didapatkan, langkah penting selanjutnya adalah mengamati deskripsi data tersebut. Deskripsi data di sini adalah gambaran besar dan dangkal dari suatu data. Hal-hal sederhana seperti berapa jumlah baris, berapa jumlah kolom, masing-masing kolom memiliki tipe data apa, apakah secara umum data sudah memenuhi harapan, dan lain-lain. Dengan mengamati hal-hal tersebut, jika ternyata dibutuhkan untuk pengambilan ulang, maka langkah selanjutnya bisa saja kembali pada proses pengambilan data.
  • Melakukan eksplorasi data. Apa bedanya eksplorasi dan deskripsi data? Secara sederhana, perbedaannya terletak pada kedalaman pengamatan. Proses eksplorasi data melihat lebih jauh ke dalam data. Biasanya proses ini akan disertai dengan pembuatan visualisasi. Pembahasan lebih jauh terkait langkah ini dapat dibaca pada tautan berikut: Exploratory Data Analysis.
  • Memeriksa kualitas data. Pada tahap ini, dilakukan proses pengecekan tentang kualitas dari data yang sudah diambil. Apakah ada data yang kosong? Adakah isian yang typo? Apakah ada data yang tidak sesuai kolomnya?

B.3. Data Preparation

Fase ini berguna untuk mempersiapkan data yang ada sebelum dilakukan proses analisis lebih lanjut. Tentu saja ada beberapa hal yang perlu diatur dalam data agar sesuai dengan kebutuhan analisis yang dibutuhkan. Hal-hal utama yang biasa dilakukan pada proses ini adalah

  • Pemilihan data. Dari data yang sudah diambil, bisa saja tidak semua diperlukan dalam mencapai tujuan data mining tertentu. Langkah ini berguna untuk melakukan seleksi tersebut. Misalnya hanya diambil tabel atau kolom-kolom tertentu yang sesuai.
  • Pembersihan data. Pembersihan data di sini merupakan tindakan nyata dari hasil pengamatan terhadap kualitas data yang sudah dilakukan pada langkah Data Understanding. Sudah menjadi rule-of-thumb pada proyek data analisis bahwa fase pembersihan data merupakan proses yang paling lama dilakukan serta seringkali membutuhkan usaha yang terbesar. Namun, langkah ini tentu saja tidak boleh diabaikan, karena akan sangat menentukan hasil analisisnya.
  • Penyusunan data baru. Tidak jarang, untuk memenuhi kebutuhan analisis/modeling, dibuatlah atribut-atribut baru dalam suatu data. Proses ini sering disebut juga sebagai Feature Engineering. Contohnya, pada suatu data tentang produk ada kolom panjang, lebar, dan tinggi. Dari tiga kolom tersebut, dapat dibuat sebuah kolom/atribut baru bernama volume, yang berisi hasil perkalian diantara ketiganya. Penyusunan atribut baru ini tentu saja tidak bisa dilakukan secara asal. Seorang analis data membutuhkan pengetahuan yang cukup tentang domain dari data untuk dapat membuat atribut yang sesuai.
  • Pengintegrasian data. Data yang diambil dari berbagai sumber, perlu untuk disatukan (diintegrasikan) agar mendapatkan data terpusat yang komprehensif. Dalam proses ini termasuk juga agregasi data untuk membantu mendapatkan data yang lebih menyeluruh.
  • Pengaturan format data. Masih terkait dengan sumber data yang beraneka ragam. Dalam proses integrasi, akan mungkin dijumpai format yang berbeda-beda, baik dalam tingkatan dokumen maupun tipe data. Oleh karena itu, penting dipikirkan apakah perlu untuk dilakukan pengaturan format ulang pada semua data yang sudah diintegrasikan ke dalam sebuah format yang terstandar.

B.4. Modeling

Fase Modeling merupakan sebuah proses untuk mendapatkan representasi matematis dalam sebuah data untuk suatu tujuan tertentu. Modeling dalam konteks CRISP-DM ini lebih mengarah pada penggunaan Machine Learning sebagai upaya untuk mencapai tujuan dari data mining yang sudah didefinisikan di awal.

  • Memilih teknik pemodelan. Metode yang digunakan dalam Machine Learning sangat beraneka ragam, dan di dalamnya memuat banyak teknik-teknik yang bisa digunakan. Pemilihan teknik menjadi tahap yang cukup krusial. Masing-masing teknik biasanya memiliki asumsi-asumsi yang harus ada pada suatu data. Selain itu, struktur dan karakteristik data juga bisa menjadi pertimbangan dalam pemilihan teknik. Misalnya, kapan harus menggunakan Decision Tree berbasis C4.5, kapan menggunakan Na├»ve Bayes, kapan menggunakan SVM, dan sebagainya.
  • Mendesain pengujian model. Hasil model yang didapat kemudian diuji menggunakan metrik yang sesuai. Misalnya untuk klasifikasi, dicari berapa akurasi, precision, recall, AUC, kemudian berapa false positive/negative, dan sebagainya. Untuk klastering, bisa diukur nilai WCSS, silhouette score, calinski-harabasz index, dan lain-lain. Selain itu, proses membagi data ke dalam training-validation-testing tentu juga perlu untuk dirancang.
  • Membuat model. Setelah mendapatkan hasil model yang optimal pada langkah sebelumnya, model perlu dibuat menggunakan data yang sudah disiapkan untuk mendapatkan model yang nanti digunakan pada fase Deployment.
  • Menilai model. Pada langkah terakhir ini, hasil model dinilai oleh analis data. Maksudnya di sini adalah melihat model berdasarkan sudut pandang domain knowledge yang terkait dengan kebutuhan bisnis. Selain itu, para analis data bisa juga membandingkan antara model satu dengan alternatif model yang lain untuk memilih mana yang sesuai dengan kebutuhan bisnis.

B.5. Evaluation

Evaluasi merupakan fase yang penting dalam sebuah kerangka kerja data mining, terutama terkait dengan model yang sudah dibuat. Beberapa tahapan dalam fase evaluasi ini diantaranya sebagai berikut

  • Mengevaluasi hasil. Evaluasi dalam tahapan ini adalah mengaitkan hasil model yang diperoleh dengan tujuan bisnis yang sudah didefinisikan pada fase Business Understanding. Apakah hasilnya sudah sesuai tujuan atau ada yang perlu pembenahan? Jika perlu pembenahan, maka dari sini bisa kembali lagi fase pertama, sesuai dengan ilustrasi skema di awal. Selain itu, dalam tahap ini dapat juga dilakukan pengujian model terhadap data real, kemudian bisa dinilai apakah faktor waktu dan biaya masih dalam batasan yang sudah ditetapkan pada fase pertama atau tidak.
  • Meninjau proses. Pada tahap ini, para analis data akan meninjau ulang keseluruhan proses; melihat apakah ada tahapan yang terlewat atau kurang sesuai. Jadi, untuk tahap ini, proses alur kerjanya yang ditinjau.
  • Memastikan langkah selanjutnya. Setelah mengetahui evaluasi hasil model serta alur proses dari keseluruhan proyek, dari sini dapat ditentukan apa langkah selanjutnya. Jika dirasa butuh pembenahan, maka proses kerja dapat kembali ke fase pertama, sedangkan jika sudah sesuai bisa dilanjutkan menuju fase Deployment.

B.6. Deployment

Deployment merupakan proses untuk memasang model secara live untuk membantu proses pengambilan keputusan dalam suatu organisasi. Namun sebelum masuk pada tahap ini, harus dipastikan terlebih dahulu fase Evaluation sudah dilaksanakan dengan baik.

  • Merencanakan deployment. Tahap ini adalah perencanaan hasil model untuk siap dipasang dalam kepentingan bisnis.
  • Merencanakan monitoring dan maintenance. Hasil model yang didapat tidak akan bisa digunakan untuk selamanya. Dalam dunia data mining, ada kondisi yang menyebabkan suatu model itu perlu untuk ditinjau ulang, yaitu Model Decay. Oleh karena itu, diperlukan pengamatan terhadap model yang sudah dibuat secara rutin.
  • Membuat laporan akhir. Laporan akhir berisi rangkuman proyek, pengalaman-pengalaman yang dilalui selama proyek, hasil akhir model yang didapat dikaitkan dengan tujuan bisnis, dan sebagainya. Pada dasarnya ini merangkum semua yang telah dilakukan.
  • Meninjau keseluruhan proyek. Tahap ini menandai akhir dari suatu proyek data mining. Hal-hal yang terjadi selama proyek berlangsung dapat menjadi catatan untuk pengerjaan proyek serupa di kemudian hari.

C. Rangkuman

Secara umum, enam fase dari CRISP-DM dapat dirangkum sebagai berikut.

Business UnderstandingData UnderstandingData Preparation
Memastikan tujuan bisnis
Menaksir situasi
Memastikan tujuan dari data mining
Membuat perencanaan proyek
Pengambilan data
Mengamati deskripsi data
Melakukan eksplorasi data
Memeriksa kualitas data
Pemilihan data
Pembersihan data
Penyusunan data baru
Integrasi data
Pengaturan format data
ModelingEvaluationDeployment
Memilih teknik pemodelan
Mendesain pengujian model
Membuat model
Menilai model
Mengevaluasi hasil
Meninjau proses
Memastikan langkah selanjutnya
Merencanakan deployment
Merencanakan monitoring dan maintenance
Membuat laporan akhir
Meninjau keseluruhan proyek

Bahan Bacaan

  • Shearer, C. (2000). The CRISP-DM model: the new blueprint for data mining. Journal of data warehousing, 5(4), 13-22.
  • Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., & Wirth, R. (2000). CRISP-DM 1.0: Step-by-step data mining guide. SPSS inc, 9, 13.

  •  
  •  
  •  
  •  
  •