Tahukah Kalian, Pengertian Data Mining, Apa itu Penggalian atau Penambangan Data? Menurut Para Ahli, Sejarah, Fungsi, Jenis, Proses dan Tahapannya? Sebelumnya, tahukah kalian bahwa dengan menggunakan data mining, maka hal tersebut dapat membantu kita mengidentifikasi pelanggan terbaik kita. Organisasi dapat menggunakan teknik data mining untuk menganalisis pembelian pelanggan sebelumnya dan memperkirakan apa yang mungkin akan dibeli oleh pelanggan di masa mendatang. Hal itu juga dapat dilakukan menyoroti pembelian yang tidak biasa bagi pelanggan dan mungkin saja mengindikasikan adanya sebuah penipuan.
Pemasar yang digerakkan oleh data biasanya lebih bijaksana untuk mengingat bahwa mereka perlu memanfaatkan pelaporan dan analisis sebagai dua bagian terpisah dari keseluruhan proses penambangan data, sehingga mereka dapat membuat keputusan pemasaran berbasis data yang berakar pada wawasan yang diperoleh dari pelaporan dan analisis. Perusahaan dapat menggunakannya untuk menemukan inefisiensi proses manufaktur, potensi cacat pada produk atau kelemahan dalam rantai pasokannya. Terkait hal tersebut, dalam postingan kali ini, Kami akan membahas secara lebih detail dan lengkap tentang apa itu pengertian data mining. Mari simak ulasannya di bawah ini!
Daftar Isi Konten:
Pengertian Data Mining
Berarti penambangan data, data mining adalah proses yang digunakan oleh perusahaan untuk mengubah data mentah menjadi informasi yang bermanfaat berdasarkan simpulan Kami yang bersumber dari Situs Investopedia.
Dengan menggunakan software atau perangkat lunak untuk mencari pola dalam kumpulan data yang besar seperti big data (baca pengertian big data di sini), bisnis dapat belajar lebih banyak tentang pelanggan mereka untuk mengembangkan strategi pemasaran yang lebih efektif, meningkatkan penjualan dan mengurangi biaya.
Penambangan data tergantung pada pengumpulan data yang efektif, pergudangan, dan pemrosesan komputer.
Apa itu Penggalian atau Penambangan Data?
Lalu, apa itu sebenarnya penggalian atau penambangan data? Memang, istilah ini lebih sering dikenal dengan data mining, penggalian atau penambangan data adalah ekstraksi pola yang menarik dari data dalam jumlah besar.
Suatu pola dikatakan menarik apabila pola tersebut tidak biasa, implisit dan tidak diketahui sebelumnya, serta juga berguna. Pola yang disajikannya haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat dengan kepastian tertentu, berguna serta baru.
Penggalian data diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari sistem basis bata sebuah perusahaan, e-commerce, data saham, data sensus, data bioinformatika dan lain sebagainya), tetapi tidak tahu pola apa yang bisa untuk didapatkan.
Selain itu, perlu kalian ketahui bahwa seperti yang disampaikan oleh seorang pakar bernama Larose (2005), ada beberapa istilah lain yang mempunyai makna yang sama dengan apa itu data mining, yaitu Knowledge Discovery in Databases (KDD), Knowledge Extraction atau ekstraksi pengetahuan, Data/Pattern Analysis, Business Intelligence dan Data Archeology serta Data Dredging.
Kemampuan penggalian data dalam mencari informasi bisnis yang berharga dari basis data yang besar, dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya.
Oleh karena itulah, teknologi ini biasa digunakan untuk:
- Prediksi trend dan sifat-sifat bisnis; Dimana data mining di sini mengotomatisasi proses pencarian informasi pemprediksi di dalam basis data yang besar.
- Penemuan pola-pola; Disini data mining menyapu basis data, lalu mengidentifikasi pola-pola yang sebelumnya tersembunyi di dalam sapuan tersebut.
- Membuat keputusan penting; Data mining berguna untuk membuat sebuah keputusan yang penting atau kritis, terutama didalam strategi.
Pengertian Data Mining Menurut Para Ahli
Agar lebih memahami tentang apa it data mining, maka kita juga harus merujuk kepada pendapat para pakar dan ahli terkait definisi mereka tentang hal itu.
Adapun pengertian data mining menurut para ahli yang perlu kalian ketahui adalah sebagai berikut.
1. Larose (2006)
Menurut Larose, definisi data mining adalah proses menemukan sesuatu yang bermakna oleh suatu korelasi baru, pola dan juga tren yang terdapat dengan cara memilah-milah data yang berukuran besar, di mana data tersebut disimpan dalam repository, menggunakan teknologi sosialisasi pola serta statistik dan teknik matematika.
Pengertian penambangan data atau “data mining” merupakan analisis pengamatan database dalam menemukan hubungan yang tidak terduga serta juga untuk meringkas data dengan cara atau sebuah metode baru yang dapat dimengerti yang berguna pada pemilik data.
Penggalian data juga dapat diartikan sebagai suatu proses ekstraksi sebuah informasi yang berguna serta juga potensial dari sekumpulan data yang secara implisit terdapat didalam suatu kumpulan data.
2. Turban Et Al (2005)
Menurut Turban Et Al, arti data mining adalah proses yang memakai teknik statistik, teknik matematika, kecerdasan protesis, machine learning dalam melakukan ekstraksi dan mengidentifikasi informasi yang bermanfaat serta pengetahuan yang terkait oleh berbagai database (yang berukuran) besar.
3. Pramudiono (2006)
Menurut Pramudiono, pengertian data mining adalah analisa yang dilakukan secara automatic (otomatis) pada data yang berjumlah besar dan kompleks dengan tujuan untuk mendapatkan kecendrungan atau pola penting yang keberadaannya biasanya tidak disadari.
Sejarah Data Mining
Membahas mengenai data mining dan artinya, pastinya kita juga harus mengetahui apa sejarahnya bukan? Salah satu artikel pertama yang menggunakan frasa “data mining” diterbitkan oleh Michael C. Lovell pada tahun 1983.
Pada saat itu, Lovell dan banyak ekonom lain mengambil pandangan yang cukup negatif dari praktik tersebut, percaya bahwa statistik dapat mengarah pada kesimpulan yang salah ketika tidak diinformasikan oleh pengetahuan tentang materi pelajaran.
Tetapi pada tahun 1990-an, gagasan untuk mengekstraksi nilai dari data dengan mengidentifikasi pattern atau pola telah menjadi jauh lebih populer. Basis data dan vendor data warehouse mulai menggunakan kata kunci untuk memasarkan perangkat lunak mereka. Dan perusahaan mulai menyadari manfaat potensial dari praktik tersebut.
Pada tahun 1996, sekelompok perusahaan yang termasuk teradata dan NCR memimpin proyek untuk menstandarisasi dan memformalkan metodologi penambangan data. Pekerjaan mereka menghasilkan proses standar lintas-industri untuk penambangan data atau Cross-Industry Standard Process for Data Mining (CRISP-DM).
Standar terbuka ini memecah proses data mining menjadi 6 (enam) fase:
- Business Understanding (pemahaman bisnis)
- Data Understanding (pemahaman data)
- Data Preparation (persiapan data)
- Modelling (pemodelan)
- Evaluation (evaluasi)
- Deployment (penyebaran)
Perusahaan seperti IBM terus mempromosikan model CRISP-DM ini hingga sekarang, dan pada tahun 2015, IBM merilis versi terbaru yang memperluas model dasarnya.
Pada awal tahun 2000-an, perusahaan web mulai melihat kekuatan dari data mining, dan praktiknya benar-benar berjalan bahkan sampai sekarang ini.
Sementara frase “data mining” sejak saat itu telah dikalahkan oleh kata kunci lain seperti “data analytics atau analisis data” “big data” dan “machine learning” prosesnya tetap menjadi bagian integral dari praktik bisnis. Bahkan, wajar untuk mengatakan bahwa data mining telah menjadi bagian de facto dari menjalankan bisnis modern seperti di tahun 2024 sekarang ini.
Fungsi Data Mining
Terkait fungsinya sendiri, perlu kalian ketahui bahwa data mining memiliki kegunaan yang penting untuk membantu kita dalam mendapatkan informasi yang efektif serta meningkatkan pengetahuan untuk penggunanya. Pada dasarnya, data mining memiliki 4 (empat) fungsi dasar yaitu adalah:
- Prediction (prediksi)
- Description (deskripsi)
- Classification (klasifikasi)
- Association (asosiasi)
Di bawah ini adalah penjelasan dari masing-masing fungsi data mining di atas secara detailnya.
1. Prediction
Fungsi data mining yang pertama adalah prediksi atau prediction. Ini adalah proses untuk menemukan pola dari data dengan dan juga menggunakan beberapa variabel untuk memprediksikan variabel lainnya yang nilai atau jenisnya masih tidak diketahui.
2. Description
Berikutnya ada fungsi deskripsi atau description. Ini adalah proses untuk menemukan suatu ciri krusial dari data yang terdapat di dalam suatu database atau basis data.
3. Classification
Klasifikasi atau classification adalah suatu proses untuk menemukan contoh atau fungsi agar dapat menggambarkan grup atau konsep dari suatu data. Proses yang digunakan untuk menggambarkan data tersebut adalah hal yang penting serta juga bisa memprediksi kecenderungan data yang terdapat pada masa depan (mendatang).
4. Association (Asosiasi)
Yang terakhir adalah asosiasi atau association. Ini adalah proses yang dipakai untuk menemukan suatu hubungan yang terdapat pada nilai atribut daripada sekumpulan data.
Jenis-Jenis Data Mining
Mengacu pada pembahasan apa itu pengertian dan sejarah data mining di atas, perlu kalian ketahui bahwa, para ilmuwan dan analis data menggunakan berbagai teknik penggalian atau penambangan untuk mencapai tujuan mereka.
Adapun beberapa jenis-jenis data mining yang paling umum digunakan dan harus kalian ketahui adalah sebagai berikut.
a. Clustering
Pengelompokan atau clustering melibatkan menemukan kelompok dengan karakteristik yang sama. Misalnya, pemasar sering menggunakan data mining jenis ini untuk mengidentifikasi kelompok dan subkelompok dalam target pasar mereka. Ini akan menjadi sangat bermanfaat ketika Anda tidak tahu kesamaan apa yang mungkin ada dalam data Anda.
b. Classification
Jenis data mining yang selanjutnya yaitu adalah klasifikasi atau classification. Jenis ini mengurutkan item (atau individu) ke dalam kategori berdasarkan model yang telah dipelajari sebelumnya.
Klasifikasi sering muncul setelah pengelompokan (walaupun Anda juga dapat membuat suatu sistem untuk mengklasifikasikan data berdasarkan kategori yang didefinisikan oleh ilmuwan atau analis data).
c. Association
Asosiasi atau association mengidentifikasi potongan-potongan data yang biasanya ditemukan berdekatan satu sama lain. Ini adalah teknik yang menggerakkan sebagian besar mesin rekomendasi, seperti ketika Amazon menyarankan bahwa jika Anda membeli satu item, Anda mungkin juga menyukai item lain.
d. Anomaly Detection
Jenis deteksi anomali atau anomaly detection ini mencari potongan data yang tidak sesuai dengan pola yang biasa. Teknik-teknik ini sangat berguna untuk mendeteksi penipuan.
e. Regression
Regresi atau regression adalah alat statistik yang lebih maju yang umum dalam analitik prediktif. Ini dapat membantu pengembang media sosial dan aplikasi smartphone meningkatkan keterlibatan atau yang biasanya lebih dikenal dengan istilah engagement (baca pengertian engagement di sini)
Selain itu juga, ini dapat membantu memperkirakan penjualan di masa mendatang dan meminimalkan risiko. Regresi dan klasifikasi juga dapat digunakan bersama dalam Model Tree (pohon) yang berguna dalam berbagai situasi.
f. Text Mining
Penambangan teks atau text mining adalah jenis data mining yang menganalisis seberapa sering orang menggunakan kata-kata tertentu.
Ini dapat berguna untuk sentimen atau analisis kepribadian, serta untuk menganalisis postingan media sosial untuk tujuan pemasaran atau untuk menemukan potensi kebocoran data dari karyawan.
g. Summarization
Peringkasan atau summarization adalah jenis data mining dengan menempatkan sekelompok data ke dalam bentuk yang lebih ringkas serta lebih mudah dipahami.
Sebagai contoh misalnya, Anda dapat menggunakan ringkasan untuk membuat grafik atau menghitung rata-rata dari set data yang diberikan. Summarization adalah salah satu bentuk penambangan data yang paling akrab dan dapat dengan mudah digunakan.
Proses Data Mining
Selain arti dan pengertian data mining di atas, perlu kalian ketahui untuk proses yang umumnya dilakukan dan terdapat dalam penggalian atau penambangan data diantaranya adalah termasuk:
- Deskripsi
- Prediksi
- Estimasi
- Klasifikasi
- Clustering dan,
- Asosiasi
Hal ini juga sesuai dengan pendapat Larose (2005), secara detailnya, untuk proses dari data mining akan Kami jelaskan sebagai berikut.
a. Deskripsi
Proses deskripsi yang pertama ini bertujuan untuk mengidentifikasi pola yang timbul secara berulang pada suatu data dan mengubah pola tersebut menjadi aturan dan kriteria yang dapat dan mudah dimengerti oleh para ahli. Aturan yang didapatkan di sini harus mudah dimengerti agar dapat dengan efektif meningkatkan tingkat knowledge atau pengetahuan pada sistem.
Tugas deskriptif merupakan tugas data mining yang sering dibutuhkan teknik postprocessing untuk melakukan validasi serta mengungkapkan hasil daripada proses data mining.
Postprocessing merupakan proses yang dipakai dan digunakan untuk memastikan (hanya) hasil yang Valid dan juga berguna yang dapat dipakai oleh pihak yang berkepentingan.
b. Prediksi
Breikutnya adalah proses prediksi, ini memiliki kemiripan dengan proses deskripsi, akan tetapi, data dalam tahapan ini diklasifikasikan berdasarkan perilaku atau nilai yang diperkirakan akan datang pada masa yang akan datang.
Contoh dari tugas prediksi, misalnya adalah untuk memprediksikan adanya pengurangan jumlah pelanggan dalam waktu dekat serta prediksi harga saham dalam 3 (tiga) bulan yang akan datang.
c. Estimasi
Selanjutnya ada proses estimasi, di sini hampir sama dengan prediksi, kecuali untuk variabel target perkiraannya yang lebih ke arah numerik dari kepada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel dari target, sebagaimana nilai pada saat proses prediksi.
Selanjutnya, pada peninjauan berikutnya, estimasi nilai dari variabel target dibentuk berdasarkan dari nilai variabel prediksi.
Sebagai contoh, misalnya akan dilakukan perkiraan tekanan darah sistolik terhadap seorang pasien yang ada di rumah sakit berdasarkan umur pasien, jenis kelamin, berat badan, dan juga level sodium darah. Hubungan antara tekanan darah sistolik dan juga nilai variabel prediksi dalam proses pembelajaran akan menghasilkan model estimasi.
d. Klasifikasi
Proses klasifikasi merupakan proses menemukan sebuah model atau fungsi yang mendeskripsikan serta juga membedakan data ke dalam kelas-kelas.
Klasifikasi melibatkan proses pemeriksaan karakteristik dari objek dan memasukkan objek ke dalam salah satu kelas yang telah didefinisikan sebelumnya.
e. Clustering
Proses clustering adalah pengelompokan data tanpa berdasarkan kelas data tertentu ke dalam kelas objek yang sesuai.
Sebuah cluster atau kluster merupakan kumpulan record yang mempunyai kemiripan suatu dengan yang lainnya serta juga mempunyai ketidakmiripan dengan record yang berada dalam kluster lain.
Tujuannya adalah untuk membentuk pengelompokan objek yang mirip satu sama lain dalam kumpulannya. Semakin besar kemiripan objek yang ada dalam suatu cluster dan semakin besar perbedaan tiap kluster maka kualitas analisis cluster pun akan menjadi semakin baik.
f. Asosiasi
Tugas proses asosiasi dalam data mining adalah menemukan atribut yang ada dalam suatu waktu. Dalam dunia bisnis, hal ini lebih awamnya dianggap sebagai analisis keranjang belanja atau dikenal dengan istilah Market Basket Analysis.
Tugas asosiasi berusaha agar dapat mengetahui anggaran untuk mengukur hubungan antara 2 (dua) atau lebih attribute yang ada.
Tahapan Data Mining
Setelah kita mengetahui pengertian, sejarah, fungsi, jenis, proses dan tahapan data mining, kita juga harus mengetahui apa saja tahapan dalam penambangan atau penggalian data. Tahapan yang dilakukan pada proses data mining ini biasanya dimulai dari seleksi data dari data sumber ke data target (sasaran).
Tahap preprocessing adalah untuk memperbaiki kualitas data, transformasi, data mining dan tahap interpretasi serta juga evaluasi yang membuat hasil berupa sebuah pengetahuan baru yang dibutuhkan memberikan kontribusi yang lebih baik. Hal ini juga sesuai dengan penjelasan Fayyad (1996).
Perlu kalian ketahui bahwa proses data mining diklasifikasikan dalam 2 (dua) stage atau tahap yaitu adalah:
- Data preprocessing
- Data mining
Proses persiapan data atau preprocessing meliputi data cleaning, data integration, data selection dan data transformation, sedangkan fase selanjutnya meliputi data mining, pattern evaluation dan knowledge representation.
Di bawah ini adalah penjelasan dari masing-masing prosen yang berlangsung dalan stage atau tahapan data mining.
a. Data Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan cleaning terhadap data yang akan menjadi fokus.
Proses ini diantaranya meliputi pembuangan duplikasi data, mengecek data yang inkonsisten, dan memperbaiki kesalahan terhadap data.
b. Data Integration
Dalam proses integrasi data atau data integration, data diintegrasikan dari sumber data yang berbeda, seperti data dalam format berbeda di lokasi yang berbeda.
Kita dapat menyimpan data dalam database, file teks, spreadsheet, dokumen, kubus data, dan sebagainya. Meskipun, integrasi data rumit karena biasanya data tidak cocok dengan sumber yang berbeda.
c. Data Selection
Tahapan yang pertama adalah seleksi data atau data selection. Ini adalah tahapan pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum menuju tahap penggalian informasi dimulai.
Data output seleksi yang dipakai untuk proses tahapan data mining ini disimpan dalam suatu berkas, dan terpisah dari database operasional.
d. Transformation
Coding merupakan proses transformasi atau transformation pada data yang sudah dipilih, sehingga data tersebut sesuai untuk proses penambangan datanya.
Proses coding dalam Knowledge Discovery in Databases adalah proses yang kreatif dan sangat tergantung terhadap jenis atau pola informasi yang akan dicari dalam basis data.
e. Data Mining
Data mining adalah proses mencari pola atau informasi menarik yang ada dalam data terpilih dengan menggunakan teknik atau metode tertentu saja.
Teknik, metode, atau algoritma dalam data mining ini sangat bervariasi. Pemilihan metode atau prosedur pemecahan yang tepat sangat bergantung kepada tujuan dan juga proses Knowledge Discovery in Databases (KDD) secara keseluruhan.
f. Pattern Evaluation
Evaluasi pola atau pattern evaluation mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan berbagai jenis tindakan yang menarik. Suatu pola dianggap menarik jika berpotensi bermanfaat dan mudah dimengerti.
Secara lebih lanjutnya, ini memvalidasi beberapa hipotesis bahwa seseorang ingin mengkonfirmasi data baru dengan tingkat kepastian tertentu.
g. Knowledge Representation
Representasi pengetahuan atau knowledge representation adalah langkah atau tahapan di mana visualisasi data dan alat representasi pengetahuan digunakan untuk mewakili data yang digali atau yang dikenal dengan sebutan mined data. Data divisualisasikan dalam bentuk laporan, tabel, dan lain sebagainya.
Kesimpulan
Bagaimana? Sudah jelaskan? Baiklah, dari penjelasan dan pembahasan mengenai Pengertian Data Mining, Apa itu Penggalian atau Penambangan Data? Menurut Para Ahli, Sejarah, Fungsi, Jenis, Proses dan Tahapannya di atas, dapat kita simpulkan bahwa penggalian, penambangan data atau data mining adalah proses menemukan pattern atau pola dan pengetahuan menarik dari sejumlah besar data.
Untuk sumber datanya sendiri, mereka dapat mencakup database atau basis data, data werehouses (gudang data), website, dan repositori informasi lainnya atau data yang dialirkan ke sistem secara dinamis.
Penutup
Demikianlah ulasan yang dapat Kami bagikan kali ini, di mana Kami membahas mengenai Pengertian Data Mining, Apa itu Penggalian atau Penambangan Data? Menurut Para Ahli, Sejarah, Fungsi, Jenis, Proses dan Tahapannya. Semoga dapat bermanfaat dan menambah wawasan Kita semua terutama dalam memahami penambangan data untuk penerapannya ke dalam bisnis kita.
Silahkan bagikan artikel atau tulisan Kami di sini jika kalian rasa ini bermanfaat untuk teman-teman dan kerabat kalian semua. Sekian dari Saya, Terima Kasih.
Postingan ini juga tersedia dalam versi: