Data
mining merupakan teknologi yang menggabungkan metoda analisis tradisional
dengan algoritma yang canggih untuk memproses data dengan volume besar. Data
mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan yang
tersembunyi di dalamdatabase.Data mining merupakan proses semi otomatik yang
menggunakan teknik statistik, matematika, kecerdasanbuatan, dan machine
learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan
potensial dan berguna yang bermanfaat yang tersimpan di dalamdatabase besar.
(Turban et al, 2005 ).
Beberapa
definisi awal dari data mining meyertakan focus pada proses otomatisasi. Berry
danLinoff, (2004) dalam buku Data Mining Technique for Marketing, Sales, and
Customer Support mendefinisikan data mining sebagai suatu proses eksplorasi dan
analisis secara otomatis maupun semi otomatis terhadap data dalam jumlah besar
dengan tujuan menemukan pola atau aturan yang berarti (Larose, 2006).
Analisis
yang diotomatisasi yang dilakukanoleh data mining melebihi yang dilakukan oleh
sistem pendukung keputusan tradisional yang sudah banyak digunakan. Data Mining
dapat menjawab pertanyaan-pertanyaan bisnis yang dengan caratradisional memerlukan
banyak waktu dan cost tinggi. Data Mining mengeksplorasi basis datauntuk
menemukan pola-pola yang tersembunyi, mencari informasi untuk memprediksi
yangmungkin saja terlupakan oleh para pelaku bisnis karena terletak di luar
ekspektasi mereka.
Perkembangan
yang cepat dalam teknologi pengumpulan dan penyimpanan data telah memudahkan
organisasi untuk mengumpulkan sejumlah data berukuran besar, sehingga
menghasilkan gunung data. Data Maining adalah proses pencarian secara otomatis
informasi yang berguna dalam tempat penyimpanan data berukuran besar. Istilah
lain yang sering digunakan diantaranya knowledge discovery (mining) indatabases
(KDD). Istilah data mining dan Knowledge Discovery in Database (KDD) sering
kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi
tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah
tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan
salah satu tahapan dalam keseluruhan proses KDD adalah data mining.
1.
Teknik
Data Mining
Data mining adalah serangkaian proses untuk menggali nilai
tambah dari suatu kumpulandata berupa pengetahuan yang selama ini tidak
diketahui secara manual. Perlu diingat bahwa katamining sendiri berarti usaha
untuk mendapatkan sedikit data berharga dari sejumlah besar datadasar. Karena
itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu
sepertikecerdasan buatan (artificial intelligent), machine learning, statistik
dan basisdata. Beberapa teknikyang sering disebut-sebut dalam literatur data
mining antara lain yaitu association rule mining,clustering, klasifikasi,
neural network, genetic algorithm dan lain-lain. Model maupun hasil analisanya,
salah satunya dengan kemampuan pembelajaran yang dimiliki beberapa teknik data
mining seperti klasifikasi.Data mining adalah serangkaian proses untuk menggali
nilai tambah dari suatu kumpulandata berupa pengetahuan yang selama ini tidak
diketahui secara manual. Perlu diingat bahwa katamining sendiri berarti usaha
untuk mendapatkan sedikit data berharga dari sejumlah besar datadasar. Karena
itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu
sepertikecerdasan buatan (artificial intelligent), machine learning, statistik
dan basisdata. Beberapa teknik yang sering disebut-sebut dalam literatur data
mining antara lain yaitu association rule mining,clustering, klasifikasi,
neural network, genetic algorithm dan lain-lain.
Berikut
adalah karakteristik utama dan tujuan dari data mining:
·
Data
seringkali terkubur dalam database yang sangat besar, yang terkadang berisi
data selama bertahun-tahun. Dalam banyak kasus, data dibersihkan dan disatukan
ke dalam data warehouse.
·
Environment
data mining pada umumnya adalah arsitektur client-server atau arsitektur sistem
informasi berbasis web.
·
Berbagai
tool baru yang canggih, termasuk berbagai tool visualisasi yang canggih,
membantu untuk mengangkat biji informasi yang terkubur dalam file-file korporat
atau record-record arsip. Untuk mendapatkannya akan melibatkan memoles dan
mensinkronisasikan data untuk mendapatkan hasil-hasil yang tepat. Data miners
yang mutakhir juga memeriksa kemanfaatan data (misalnya, teks yang tak
terstruktur yang disimpan dalam tempat-tempat seperti database Lotus Notes,
file-file teks di internet, atau intranet korporat). [Baca juga: Berbagai Tool Software Data Mining]
·
Si
penambang seringkali adalah end-user, yang didukung dengan ‘bor-bor data’ dan
berbagai tool query handal lainnya untuk menanyakan pertanyaan-pertanyaan
dengan tujuan tertentu dan mendapatkan jawaban-jawaban dengan cepat,
dengan sedikit atau bahkan tanpa skill pemrograman sekalipun.
·
Dalam
menemukan pola seringkali menemukan hasil yang tak diharapkan dan meminta
end-user untuk berpikir secara kreatif dalam menjalankan proses, termasuk
interpretasi terhadap temuan.
·
Banyak
tool data mining siap dikombinasikan dengan berbagai spreadsheet dan tool
development software lainnya. Jadi, data yang ditambang bisa dianalisa
dan diterapkan dengan cepat dan mudah. [Baca juga: Berbagai Tool
Software Data Mining]
·
Karena
jumlah data yang sangat besar dan usaha pencarian yang massif, kadang-kadang
perlu menggunakan pemrosesan parallel untuk data mining.
Perusahaan
yang secara efektif memanfaatkan tool-tool dan teknologi data mining bisa
mendapatkan dan mempertahankan keunggulan kompetitif strategis. Data
mining menawarkan perusahaan suatu environment yang sangat diperlukan
untuk meningkatkan keputusan untuk memanfaatkan peluang-peluang baru dengan
mentransformasikan data menjadi senjata yang strategis.
2.
Definisi
Klasifikasi
Klasifikasi
adalah sebuah proses untuk menemukan model yang menjelaskan atau membedakan
konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari
suatu objek yang kelasnya tidak diketahui (Tan et all, 2004). Di dalam
klasifikasi diberikan sejumlah record yang dinamakan training set, yang terdiri
dari beberapa atribut, atribut dapat berupa kontinyu ataupun kategoris, salah
satu atribut menunjukkan kelas untuk record.
Gambar 1. Klasifikasi sebagai suatu tugas memetakan atribut x ke
dalam label kelas y (Tan et all, 2006)
Model Klasifikasi terdiri dari (Tan et all, 2006):
a)
Pemodelan
Deskriptif
Dapat bertindak
sebagai suatu alat
yang bersifat menjelaskan
untuk membedakan antara objek dengan klas yang berbeda.
b) Pemodelan Prediktif
Model
klasifikasi juga dapat menggunakan prediksi label kelas yang belum diketahui
recordnya.
3.
Tujuan
Klasifikasi
Tujuan dari klasifikasi adalah
untuk:
a) Menemukan model dari training
set yang membedakan record kedalam kategori atau kelas yang sesuai, model tersebut kemudian digunakan untuk
mengklasifikasikan record yang kelasnya belum diketahui sebelumnya pada test
set.
b) Mengambil keputusan
dengan memprediksikan suatu
kasus, berdasarkan hasil klasifikasi yang diperoleh .
4.
Konsep
Pembuatan Model dalam Klasifikasi
Untuk mendapatkan
model, kita harus
melakukan analisis terhadap
data latih (training set).
Sedangkan data uji (test set) digunakan untuk mengetahui tingkat akurasi
dari model yang telah dihasilkan. Klasifikasi dapat digunakan untuk memprediksi
nama atau nilai kelas dari suatu obyek data. Proses klasifikasi data dapat
dibedakan dalam 2 tahap, yaitu :
a)
Pembelajaran
/ Pembangunan Model
Tiap – tiap record pada data latih dianalisis
berdasarkan nilai – nilai atributnya, dengan menggunakan suatu algoritma
klasifikasi untuk mendapatkan model.
b)
Klasifikasi
Pada tahap ini, data uji
digunakan untuk mengetahui tingkat akurasi dari model yang dihasilkan. Jika
tingkat akurasi yang diperoleh sesuai dengan nilai yang ditentukan, maka model
tersebut dapat digunakan untuk mengklasifikasikan record – record data baru
yang belum pernah dilatihkan atau diujikan sebelumnya.
Untuk
meningkatkan akurasi dan efisiensi proses klasifikasi, terdapat beberapa
langkah pemrosesan terhadap data, yaitu :
a)
Data
Cleaning
Data cleaning merupakan suatu
pemrosesan terhadap data untuk menghilangkan noise dan penanganan terhadap
missing value pada suatu record.
b)
Analisis
Relevansi
Pada tahap ini, dilakukan penghapusan terhadap atribut –
atribut yang redundant
ataupun kurang berkaitan dengan
proses klasifikasi yang akan dilakukan. Analisis
relevansi dapat
meningkatkan efisiensi klasifikasi
karena waktu yang diperlukan untuk pembelajaran lebih sedikit daripada
proses pembelajaran terhadap data – data dengan atribut yang masih lengkap
(masih terdapat redundansi).
c)
Transformasi
Data
Pada data dapat dilakukan
generalisasi menjadi data dengan level yang lebih tinggi. Misalnya dengan
melakukan diskretisasi terhadap
atribut degan nilai
kontinyu. Pembelajaran
terhadap data hasil
generalisasi dapat mengurangi
kompleksitas pembelajaran yang harus dilakukan karena ukuran data yang
harus diproses lebih kecil.
Atau melalui tahap dengan cara kedua
ini Tahapan dari klasifikasi dalam data mining terdiri
dari
a)
Pembangunan model, dalam tahapan ini
dibuat sebuah model untuk menyelesaikan masalah klasifikasi class atau attribut
dalam data, model ini dibangun berdasarkan training set-sebuah contoh data dari
permasalahan yang dihadapi, training set ini sudah mempunyai informasi yang
lengkap baik attribut maupun classnya
b) Penerapan
model, pada tahapan ini model yang sudah dibangun sebelumnya digunakan untuk
menentukan attribut / class dari sebuah data baru yang attribut / classnya
belum diketahui sebelumnya
c) Evaluasi,
pada tahapan ini hasil dari penerapan model pada tahapan sebelumnya dievaluasi
menggunakan parameter terukur untuk menentukan apakah model tersebut dapat
diterima
Gambar 2. Proses Klasifikasi: Learning
Gambar
3. Proses Klasifikasi: Classification
Gambar
2. Proses Klasifikasi: Learning merupakan Training data dianalisis dengan
algoritma klasifikasi. Disini
atribut label kelas
adalah ”Tenured“, dan “Learned
Model“ atau “classifier“ di gambarkan pada blok aturan klasifikasi. Sedangkan
pada Gambar 3. Proses Klasifikasi: Classification merupakan Test data digunakan untuk memperkirakan keakuratan aturan klasifikasi. Jika
keakuratan tersebut dianggap diterima, maka aturan itu dapat diaplikasikan
untuk mengkalsifikasikan data tuples baru.
Pada
Gambar 2 dan 3 terdiri dari pembuatan model dan penggunaan model. Pembuatan
model menguraikan sebuah set dari penentuan kelas-kelas sebagai:
a)
Setiap
tuple diasumsikan sudah mempunyai
kelas yang dikenal seperti ditentukan oleh label kelas atribut.
b)
Kumpulan
tuple yang digunakan untuk
membuat model disebut
kumpulan pelatihan (training set)
c)
Model direpresentasikan sebagai
classification rules, decision
tree atau formula
matematika.
Penggunaan
model menguraikan pengklasifikasian
masa yang akan
datang atau obyek yang belum
ketahui, yaitu taksiran keakuratan dari model yang terdiri dari:
a)
Label yang telah
diketahui dari contoh
tes dibandingkan dengan
hasil klasifikasi dari model.
b)
Nilai
keakuratan adalah prosentase dari kumpulan contoh tes yang diklasifikasikan
secara tepat oleh model.
c)
Kumpulan
tes tidak terikat pada kumpulan pelatihan,
d)
Jika akurasi
diterima, gunakan model
untuk mengklasifikasikan data
tuple yang
label kelasnya belum diketahui.
Untuk mengevaluasi performansi sebuah model yang dibangun
oleh algoritma klasifikasi dapat dilakukan dengan menghitung jumlah dari test
record yang di prediksi secara benar (akurasi) atau
salah (error rate)
oleh model tersebut.
Akurasi dan error
rate didefinisikan sebagai berikut.
Algoritma
klasifikasi berusaha untuk mencari model
yang mempunyai akurasi yang tinggi
atau error rate yang rendah ketika model diterapkan pada test set.
5.
Teknik
Klasifikasi
Teknik klasifikasi merupakan pendekatan sistematis
untuk membangun model klasifikasi dari sekumpulan data input . Contohnya
adalah decision tree (pohon keputusan), rule-based (berbasis
aturan), neural network (jaringan syaraf), support
vector machine (SVM), naive bayes dan
nearest neighbour.
Referensi
https://www.google.co.id/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=0ahUKEwjDxp25t9TLAhULHo4KHX_GCYsQFggnMAE&url=http%3A%2F%2Frepository.widyatama.ac.id%2Fxmlui%2Fbitstream%2Fhandle%2F123456789%2F4695%2FBab%25202.pdf%3Fsequence%3D10&usg=AFQjCNFFztwVX03PT0RZUc7nBB7h3m-HHg&sig2=OYOiWkCMvclVQYGqm7nQfw
http://repository.usu.ac.id/bitstream/123456789/34494/4/Chapter%20II.pdf
No comments:
Post a Comment