DATA MINING
Definisi
sederhana dari data mining adalah ekstraksi informasi atau pola yang penting atau menarik dari data
yang ada di database yang besar. Dalam jurnal ilmiah, data mining juga dikenal
dengan nama Knowledge Discovery in Databases (KDD).
Data mining
didefinisikan sebagai
satu set teknik yang digunakan secara otomatis untuk mengeksplorasi secara
menyeluruh dan membawa ke permukaan relasi-relasi yang kompleks pada set data
yang sangat besar. Set data yang dimaksud di sini adalah set data yang
berbentuk tabulasi, seperti yang banyak diimplementasikan dalam teknologi
manajemen basis data relasional. Akan tetapi, teknik-teknik data mining dapat
juga diaplikasikan pada representasi data yang lain, seperti domain data
spatial, berbasis text, dan multimedia (citra).
1. Database
Database
(Connoly dan Begg, 2010 : 54-66) adalah suatu pembagian kumpulan data yang
berisi secara logika, dan keterangan dari masing-masing data yang didesain
untuk mendapatkan informasi yang dibutuhkan sebuah organisasi. Database system
adalah kumpulan program aplikasi yang berinteraksi dengan basis data bersama
dengan Database Management System (DBMS) dan basis data itu sendiri, sedangkan
Database Management System (DBMS) adalah merupakan sistem perangkat lunak yang
memungkinkan pengguna untuk mendefinisikan, membuat, memelihara dan kontrol ke
akses database.
Database
(Mcleod, 2007 : 124), adalah kumpulan dari semua data berbasis komputer pada
suatu perusahaan.
Dari
teori-teori tersebut dapat disimpulkan bahwa Database adalah sejumlah data yang
terorganisasi dengan record dan field-nya yang terstruktrur dan saling
terhubung untuk menyediakan informasi yang dibutuhkan oleh perusahaan.
2. Definisi
Data Mining
Data mining
(Connolly dan Begg, 2010) adalah suatu proses ekstraksi atau penggalian data
yang belum diketahui sebelumnya, namun dapat dipahami dan berguna dari database
yang besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat
penting.
Data mining
(Segall et.all, 2008) biasa juga disebut dengan “Data atau knowledge discovery”
atau menemukan pola tersembunyi pada data. Data mining adalah proses dari
menganalisa data dari prespektif yang berbeda dan menyimpulkannya ke dalam
informasi yang berguna.
Data mining
(Han dan Kamber, 2006 : 5) didefinisikan sebagai proses mengekstrak atau
menambang pengetahuan yang dibutuhkan dari sejumlah data besar.
Pada
prosesnya data mining akan mengekstrak informasi yang berharga dengan cara
menganalisis adanya pola-pola ataupun hubungan keterkaitan tertentu dari
data-data yang berukuran besar. Data mining berkaitan dengan bidang ilmu-ilmu
lain, seperti Database System, Data Warehousing, Statistic, Machine Learning,
Information Retrieval, dan Komputasi Tingkat Tinggi. Selain itu data mining
didukung oleh ilmu lain seperti Neural Network, Pengenalan Pola, Spatial Data
Analysis, Image Database, Signal Processing.
Beberapa
survey tentang proses pemodelan dan metodologi menyatakan bahwa, “Data mining
digunakan sebagai penunjuk, dimana data mining menyajikan intisari atas
sejarah, deskripsi dan sebagai standar petunjuk mengenai masa depan dari sebuah
proses model data mining”(Mariscal, Marba’n dan Ferna’ndes, 2010)
Karakteristik
data mining sebagai berikut:
a. Data
mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data
tertentu yang tidak diketahui sebelumnya.
b. Data
mining biasa menggunakan data yang sangat besar. Biasanya data yang besar
digunakan untuk membuat hasil lebih dapat dipercaya.
c. Data
mining berguna untuk membuat keputusan kritis.
Berdasarkan
beberapa pengertian tersebut dapat ditarik kesimpulan bahwa Data Mining adalah
suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada
suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola
yang menarik yang sebelumnya tidak diketahui.
3. Fungsi
Data Mining
Teknik –
teknik data mining telah digunakan untuk menemukan pola yang tersembunyi dan
meprediksi tren masa depan. Dan keuntungan kompetitif dari data mining termasuk
dengan meningkatnya pendapatan, berkurangnya pengeluaran, dan kemampuan
pemasaran yang meningkat. (Pujari et. All, 2012)
Data mining
dibagi menjadi dua kategori utama (Han dan Kamber, 2006 : 21- 29) yaitu:
A. Prediktif
Tujuan dari
tugas prediktif adalah untuk memprediksi nilai dari atribut tertentu
berdasarkan pada nilai atribut-atribut lain. Atribut yang diprediksi umumnya
dikenal sebagai target atau variable tak bebas, sedangkan atribut-atribut yang
digunakan untuk membuat prediksi dikenal sebagai explanatory atau variable
bebas.
B.
Deskriptif
Tujuan dari
tugas deskriptif adalah untuk menurunkan pola-pola (korelasi, trend, cluster,
teritori, dan anomali) yang meringkas hubungan yang pokok dalam data. Tugas
data mining deskriptif sering merupakan penyelidikan dan seringkali memerlukan
teknik post-processing untuk validasi dan penjelasan hasil.
Fungsi dari
data mining juga ada dalam dunia kesehatan, dimana data mining telah digunakan
untuk untuk meningkatkan diagnosis dan pengobatan atau lebih mengerti perilaku
dari pasien. (Sandra et all, 2009)
Data mining
juga memiliki beberapa fungsionalitas yaitu Concept/Class Description:
Characterization and Discrimination, Mining Frequent Patterns, Associations,
and Correlations, Classification and Prediction, Cluster Analysis, Outlier
analysis, dan Evolution analysis. (Han dan Kamber, 2006 : 21 – 27)
Berikut
adalah penjelasan dari masing-masing fungsi diatas:
1. Concept/Class
Description: Characterization and Discrimination
Data
characterization adalah ringkasan dari semua karakteristik atau fitur dari data
yang telah diperoleh dari target kelas. Data yang sesuai dengan kelas yang
telah ditentukan oleh pengguna biasanya dikumpulkan di dalam database.
Misalnya, untuk mempelajari karakteristik produk perangkat lunak dimana pada
tahun lalu seluruh penjualan telah meningkat sebesar 10%, data yang terkait
dengan produk-produk tersebut dapat dikumpulkan dengan menjalankan sebuah query
SQL. Sedangkan, data discrimination adalah perbandingan antara fitur umum objek
data target kelas dengan fitur umum objek dari satu atau satu set kelas
lainnya. target diambil melalui query database. Misalnya, pengguna mungkin
ingin membandingkan fitur umum dari produk perangkat lunak yang pada tahun lalu
penjualannya meningkat sebesar 10% tetapi selama periode yang sama seluruh
penjualan juga menurun setidaknya 30%.
2. Mining
Frequent Patterns, Associations, and Correlations
Frequent
Patterns adalah pola yang sering terjadi di dalam data. Ada banyak jenis dari
frequent patterns, termasuk di dalamnya pola, sekelompok item set,
sub-sequence, dan sub-struktur. Sebuah frequent patterns biasanya mengacu pada
satu set item yang sering muncul bersama-sama dalam suatu kumpulan data
transaksional, misalnya seperti susu dan roti.
Associations
Analysis adalah pencarian aturan-aturan asosiasi yang menunjukan
kondisi-kondisi nilai atribut yang sering terjadi bersama-sama dalam sekumpulan
data. Analisis asosiasi sering digunakan untuk menganalisa Market Basket
Analysis dan data transaksi.
3.
Classification and Prediction
Klasifikasi
adalah proses untuk menemukan model atau fungsi yang menggambarkan dan
membedakan kelas data atau konsep dengan tujuan memprediksikan kelas untuk data
yang tidak diketahui kelasnya. Model yang diturunkan didasarkan pada analisis
dari training data (yaitu objek data yang memiliki label kelas yang diketahui).
Model yang diturunkan dapat direpresentasikan dalam berbagai bentuk seperti
If-then klasifikasi, decision tree, dan sebagainya.
Teknik
classification bekerja dengan mengelompokkan data berdasarkan data training dan
nilai atribut klasifikasi. Aturan pengelompokan tersebut akan digunakan untuk
klasifikasi data baru ke dalam kelompok yang ada. Classification dapat
direpresentasikan dalam bentuk pohon keputusan (decision tree). Setiap node
dalam pohon keputusan menyatakan suatu tes terhadap atribut dataset, sedangkan
setiap cabang menyatakan hasil dari tes tersebut. Pohon keputusan yang
terbentuk dapat diterjemahkan menjadi sekumpulan aturan dalam bentuk IF
condition THEN outcome. (Mewati Ayub, 2007 : 7).
Dalam banyak
kasus, pengguna ingin memprediksikan nilai-nilai data yang tidak tersedia atau
hilang (bukan label dari kelas). Dalam kasus ini nilai data yang akan
diprediksi merupakan data numeric. Disamping itu, prediksi lebih menekankan
pada identifikasi trend dari distribusi berdasarkan data yang tersedia.
4. Cluster
Analysis
Cluster
adalah kumpulan objek data yang mirip satu sama lain dalam kelompok yang sama
dan berbeda dengan objek data di kelompok lain. Sedangkan, Clustering atau
Analisis Custer adalah proses pengelompokkan satu set benda-benda fisik atau
abstrak kedalam kelas objek yang sama. Tujuannya adalah untuk menghasilkan
pengelompokan objek yang mirip satu sama lain dalam kelompok-kelompok. Semakin
besar kemiripan objek dalam suatu cluster dan semakin besar perbedaan tiap
cluster maka kualitas analisis cluster semakin baik.
1. Outlier analysis
Outlier
merupakan objek data yang tidak mengikuti perilaku umum dari data. Outlier
dianggap sebagai noise atau pengecualian. Analisis data outlier dapat dianggap
sebagai noise atau pengecualian. Analisis data outlier dinamakan Outlier
Mining. Teknik ini berguna dalam fraud detection dan rare events analysis.
2. Evolution analysis
Analisis
evolusi data menjelaskan dan memodelkan trend dari objek yang memiliki perilaku
yang berubah setiap waktu. Teknik ini dapat meliputi karakterisasi,
diskriminasi, asosiasi, klasifikasi, atau clustering dari data yang berkaitan
dengan waktu.
4. Tujuan
Data Mining
Tujuan dari
data mining (Hoffer, Prescott, dan McFadden, 2007) adalah:
1.
Explanatory
Untuk
menjelaskan beberapa kondisi penelitian, seperti mengapa penjualan truk pick-up
meningkat di Colorado.
2.
Confirmatory
Untuk
mempertegas hipotesis, seperti halnya dua kali pendapatan keluarga lebih suka
dipakai untuk membeli peralatan keluarga dibandingkan dengan satu kali
pendapatan keluarga.
3.
Exploratory
Untuk
menganalisa data yang memiliki hubungan yang baru. Misalnya, pola apa yang
cocok untuk kasus penggelapan kartu kredit.
5.
Arsitektur Data Mining
Data mining
merupakan proses pencarian pengetahuan yang menarik dari data berukuran besar
yang disimpan dalam basis data, data warehouse atau tempat penyimpanan
informasi lainnya. Dengan demikian arsitektur sistem data mining memiliki
komponen-komponen utama (Han dan Kamber, 2006) yaitu:
a. Database,
data warehouse, World Wide Web, atau tempat penyimpanan informasi lainnya: bisa
berbentuk satu atau banyak database, data warehouse, spreadsheet, ataupun
tempat penyimpanan informasi lainnya. Data Cleaning, Data Integration dan Data
Selection dapat dijalankan pada data tersebut.
b. Database
dan data warehouse server. Komponen ini bertanggung jawab dalam pengambilan
data yang relevan, berdasarkan permintaan pengguna.
c. Knowledge
Based. Komponen ini merupakan domain knowledge yang digunakan untuk memandu
pencarian atau mengevaluasi pola-pola yang dihasilkan. Pengetahuan tersebut
meliput hirarki konsep yang digunakan untuk mengorganisasikan atribut atau
nilai atribut kedalam level abstraksi yang berbeda. Pengetahuan tersebut juga
dapat berupa kepercayaan pengguna (user belief), yang dapat digunakan untuk
menentukan kemenarikan pola yang diperoleh.
d. Data
mining engine. Bagian ini merupakan komponen penting dalam arsitektur sistem
data mining. Komponen ini terdiri dari modul-modul fungsional seperti
karakterisasi, asosiasi, klasifikasi, dan analisis cluster.
e. Ghrapical
user interface (GUI). Modul ini berkomunikasi dengan pengguna dan data mining.
Melalui komponen ini, pengguna berinteraksi dengan sistem menggunakan query.
Gambar
Arsitektur sistem data mining
6.
Klasifikasi Sistem Data Mining
Data Mining
(Han dan Kamber, 2006 : 29) merupakan suatu pendekatan dalam pemecahan masalah
dengan menggunakan tinjauan berbagai sudut pandang ilmu secara terpadu yaitu,
database system, statistics, machine learning, visualization, dan information
system. (Gambar 2.2)
Gambar
Data mining merupakan irisan dari berbagai disiplin
7. Knowledge
Discovery In Databases
Han dan
Kamber (2006 : 7), lebih spesifik menyatakan istilah Data Mining dan Knowledge
Discovery in Databases (KDD) secara bergantian untuk menjelaskan proses
penggalian informasi tersembunyi dalam suatu kumpulan data yang besar. Akan
tetapi kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan
satu sama lain dan salah satu tahap dalam proses KDD adalah data mining.
Data mining
adalah salah satu langkah dalam proses KDD secara keseluruhan. Secara umum,
data mining digunakan oleh banyak peneliti sebagai sinonim dari proses KDD.
Akhir-akhir ini, data mining dan knowledge discovery telah diusulkan sebagai
nama yang paling memadai untuk keseluruhan proses KDD. Knowledge Discovery in
Databases berkaitan dengan proses penemuan pengetahuan yang diterapkan pada
database. Hal ini juga didefinisikan sebagai proses non-trivial untuk
identifikasi data yang valid, baru, berpotensi bermanfaat, dan akhirnya
memiliki pola yang dapat dimengerti. (Kurgan dan Musilek, 2006)
Knowledge
discovery sering terhalang karena tantangan dalam integrasi dan navigasi dari
data yang berbeda. Selain itu, karena jumlah dimensi di dalam data meningkat,
pendekatan baru untuk penemuan pola sangat diperlukan. (Zhiyuan Chen, 2007).
Berdasarkan
pengertian beberapa pengertian tersebut dapat ditarik kesimpulan bahwa
Knowledge Discovery in Database (KDD) adalah proses yang bertujuan untuk
menggali dan menganalisis sejumlah besar himpunan data dan mengekstrak
informasi serta pengetahuan yang berguna.
Langkah
penting dalam proses KDD dapat dilihat pada gambar 2.3 yang terdiri dari
tahapan-tahapan sebagai berikut:
1) Data
cleaning
Data
cleaning merupakan proses membuang duplikasi data, memeriksa data yang tidak
konsisten, dan memperbaiki kesalahan pada data, seperti kesalahan penulisan.
Pada umumnya data yang diperoleh baik dari database suatu perusahaan maupun
hasil eksperimen, memiliki isi yang tidak sempurna seperti data yang hilang,
data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga
atribut-atribut data yang tidak relevan dengan hipotesa data mining yang
dimiliki. Data cleaning juga akan mempengaruhi hasil informasi dari teknik data
mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.
2) Data
integration
Proses
menambah data yang sudah ada dengan data atau informasi lain yang relevan atau
bisa disebut juga merupakan penggabungan data dari berbagai database kedalam
satu database baru yang dibutuhkan oleh KDD.
Tahapan
cleaning dan integration pada KDD mengasumsikan bahwa integrator data harus
menghapus noise dari data awal secara paralel dengan mengintegrasikan beberapa
data set. (M. Brian Blake, 2009)
Gambar Data
mining sebagai tahapan dalam proses KDD
3) Data
selection
Pemilihan
data yang relevan dan dapat dilakukan analisis dari data operasional. Data
hasil pemilihan disimpan dalam database yang terpisah.
4) Data
transformation
Proses
tranformasi data kedalam bentuk format tertentu sehingga data tersebut sesuai
untuk proses data mining. Sebagai contoh beberapa metode standar seperti
analisis asosiasi dan clustering hanya bisa menerima input data kategorikal.
5) Data
mining
Proses
mencari pola atau informasi menarik dengan menggunakan teknik, metode atau
algoritma tertentu.
6) Pattern
evaluation
Mengidentifikasi
pola-pola yang benar-benar menarik dari hasil data mining. Dalam tahap ini
hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi
dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai atau tidak.
7) Knowledge
presentation
Menampilkan
pola informasi yang dihasilkan dari proses data mining, visualisasi ini
membantu mengkomunikasikan hasil data mining dalam bentuk yang mudah
dimengerti.
Contoh Aplikasi Data Mining
Dari sudut
pandang keilmuan, data mining dapat digunakan untuk mengcapture, menganlisis
serta menyimpan data yang bersifat real-time dan sangat besar, misalnya:
- Remote sensor, yang ditempatkan pada suatu satelit
- Telescope, yang digunakan untuk memindai langit
- Simulasi saintifik, yang membangkitkan data dalam ukuran terrabytes.
Contoh
Pemanfaatan Data Mining di bidang keilmuan (Tan dkk, 2004)
Contoh
aplikasi data mining pada beberapa bidang seperti: Pemasaran, Bank dan
Asuransi.
Aplikasi
data mining
Data mining
merupakan salah satu metode alternatif yang dapat digunakan untuk mengolah data
mentah, ketika metode konvensional tidak fisibel untuk dilakukan karena
besarnya volume data yang diolah. Hal ini dapat terjadi karena datamining
memiliki kemampuan mereduksi data baik melalui teknik katalogisasi, klasifikasi
maupun segementasi.
Kelebihan & Kekurangan.
Kelebihan
Data Mining :
1. Kemampuan
dalam mengolah data dalam jumlah yang besar.
2. Pencarian
Data secara otomatis.
Kekurangan
Data Mining :
1. Kendala
Database ( Garbage in garbage out ).
2. Tidak
bisa melakukan analisa sendiri.
Kesimpulan
Dilihat dari
cara kerja data mining yaitu “menggali” hal-hal penting yang belum
diketahui sebelumnya atau memprediksi apa yang akan terjadi? Teknik yang
digunakan untuk melaksanakan tugas ini disebut pemodelan. Pemodelan di sini
dimaksudkan sebagai kegiatan untuk membangun sebuah model pada situasi yang
telah diketahui “jawabannya” dan kemudian menerapkannya pada situasi lain yang akan
dicari jawabannya.
Sumber :
http://globallavebookx.blogspot.co.id/2015/01/pengertian-definisi-dan-fungsi-data.html