Data Mining
1.
Pengertian Data Mining
Menurut Gartner Group data mining adalah suatu proses
menemukan hubungan yang berarti,
pola, dan kecenderungan dengan memeriksa dalam sekumpulan
besar
data yang tersimspan dalam
penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika (Larose dalam Kusrini, 2009).
Sedangkan Data mining
adalah suatu istilah yang digunakan untuk menguraikan penemuan
pengetahuan di dalam database.
Data mining adalah proses yang
menggunakan teknik statistik, matematika,
kecerdasan buatan, dan machine
learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terakit dari berbagai database
besar (Turban,
dkk, 2005).
Berdasarkan definisi
di atas dapat disimpulkan bahwa data
mining adalah suatu proses mengekstraksi dan
mengidentifikasi informasi
dari database yang besar menggunakan
teknik statistik, kecerdasan
buatan
dan
machine learning.
2.
Pengelompokan Data Mining
Data mining
dibagi menjadi beberapa kelompok berdasarkan tugas yang
dapat dilakukan,
yaitu (Larose dalam
Kusrini, 2009) :
1. Estimasi
Estimasi hampir sama
dengan klasifikasi, kecuali variabel target estimasi
lebih kearah numerik daripada kearah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variabel target
sebagai nilai prediksi. Selanjutnya
pada
peninjauan berikutnya estimasi nilai
dari variabel
target dibuat berdasarkan
nilau
variabel prediksi.
2.
Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi. Kecuali bahwa
dalam
prediksi nilai dari
hasil akan ada di masa mendatang.
3.
Klasifikasi
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh,
penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan
tinggi,
sedang dan rendah.
5.
Klastering
Klastering merupakan
pengelompokkan record,
pengamatan atau memperhatikan dan
membentuk kelas objek-objek yang memiliki
kemiripan. Kluster adalah kumpulan record yang memiliki kemiripan satu
dengan
yang lainnya dan
memiliki ketidakmiripan
dengan record-record dalam
kluster lain. Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya
variabel target
dalam pengklusteran. Pengklusteran tidak mencoba melakukan klasifikasi,
estimasi atau
memprediksi nilai dari variabel target. Akan tetapi, algoritma
pengklusteran
mencoba untuk melakukan
pembagian terhadap
keseluruhan
data menjadi kelompok-kelompok yang memiliki
kemiripan (homogen), yang
mana
kemiripan record dalam satu kelompok akan bernilai maksimal,
sedangkan kemiripan dengan record dalam kelompok lain akan bernilai minimal.
5.
Asosiasi
Tugas asosiasi adalah
menemukan atribut yang muncul dalam satu waktu. Dalam
dunia bisnis lebih umum disebut analisis keranjang belanja.
3. Konsep Klasifikasi
Klasifikasi merupakan pekerjaan
menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan utama yang dilakukan, yaitu (1) pembangunan model sebagai
prototipe untuk disimpan sebagai memori dan (2) penggunaan model
tersebut untuk melakukan pengenalan/ klasifikasi/ prediksi pada suatu
objek data lain agar
diketahui di kelas mana objek data tersebut dalam model yang sudah disimpannya (Prasetyo, 2012).
Klasifikasi adalah metode data mining yang dapat digunakan untuk proses pencarian sekumpulan model (fungsi) yang dapat menjelaskan dan membedakan kelas-kelas data atau konsep, yang
tujuannya supaya model tersebut dapat digunakan
memprediksi objek
kelas yang labelnya tidak
diketahui atau dapat memprediksi kecenderungan data-data yang muncul di masa depan. Metode
klasifikasi juga bertujuan untuk melakukan pemetaan data ke dalam kelas yang sudah
didefinisikan
sebelumnya berdasarkan
pada nilai atribut
data (Han
dan
Kamber,
2006). Proses klasifikasi
tersebut seperti terlihat pada
gambar 2.1.
Gambar 2.1. Proses Pekerjaan Klasifikasi
Referensi
http://eprints.ung.ac.id/873/6/2013-2-57201-531409030-bab2-10012014022350.pdf
No comments:
Post a Comment