• DATA MINING

    Data mining merupakan teknologi yang menggabungkan metoda analisis tradisional dengan algoritma yang canggih untuk memproses data dengan volume besar. Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalamdatabase.Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasanbuatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang bermanfaat yang tersimpan di dalamdatabase besar. (Turban et al,  2005 ).
    Beberapa definisi awal dari data mining meyertakan focus pada proses otomatisasi. Berry danLinoff, (2004) dalam buku Data Mining Technique for Marketing, Sales, and Customer Support mendefinisikan data mining sebagai suatu proses eksplorasi dan analisis secara otomatis maupun semi otomatis terhadap data dalam jumlah besar dengan tujuan menemukan pola atau aturan yang berarti (Larose, 2006).
    Analisis yang diotomatisasi yang dilakukanoleh data mining melebihi yang dilakukan oleh sistem pendukung keputusan tradisional yang sudah banyak digunakan. Data Mining dapat menjawab pertanyaan-pertanyaan bisnis yang dengan caratradisional memerlukan banyak waktu dan cost tinggi. Data Mining mengeksplorasi basis datauntuk menemukan pola-pola yang tersembunyi, mencari informasi untuk memprediksi yangmungkin saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi mereka.
    Perkembangan yang cepat dalam teknologi pengumpulan dan penyimpanan data telah memudahkan organisasi untuk mengumpulkan sejumlah data berukuran besar, sehingga menghasilkan gunung data. Data Maining adalah proses pencarian secara otomatis informasi yang berguna dalam tempat penyimpanan data berukuran besar. Istilah lain yang sering digunakan diantaranya knowledge discovery (mining) indatabases (KDD). Istilah data mining dan Knowledge Discovery in Database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining.

    1.      Teknik Data Mining

    Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulandata berupa pengetahuan yang selama ini tidak diketahui secara manual. Perlu diingat bahwa katamining sendiri berarti usaha untuk mendapatkan sedikit data berharga dari sejumlah besar datadasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu sepertikecerdasan buatan (artificial intelligent), machine learning, statistik dan basisdata. Beberapa teknikyang sering disebut-sebut dalam literatur data mining antara lain yaitu association rule mining,clustering, klasifikasi, neural network, genetic algorithm dan lain-lain. Model maupun hasil analisanya, salah satunya dengan kemampuan pembelajaran yang dimiliki beberapa teknik data mining seperti klasifikasi.Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulandata berupa pengetahuan yang selama ini tidak diketahui secara manual. Perlu diingat bahwa katamining sendiri berarti usaha untuk mendapatkan sedikit data berharga dari sejumlah besar datadasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu sepertikecerdasan buatan (artificial intelligent), machine learning, statistik dan basisdata. Beberapa teknik yang sering disebut-sebut dalam literatur data mining antara lain yaitu association rule mining,clustering, klasifikasi, neural network, genetic algorithm dan lain-lain.
    Berikut adalah karakteristik utama dan tujuan dari data mining:
    ·         Data seringkali terkubur dalam database yang sangat besar, yang terkadang berisi data selama bertahun-tahun. Dalam banyak kasus, data dibersihkan dan disatukan ke dalam data warehouse.


    ·         Environment data mining pada umumnya adalah arsitektur client-server atau arsitektur sistem informasi berbasis web.
    ·         Berbagai tool baru yang canggih, termasuk berbagai tool visualisasi yang canggih, membantu untuk mengangkat biji informasi yang terkubur dalam file-file korporat atau record-record arsip. Untuk mendapatkannya akan melibatkan memoles dan mensinkronisasikan data untuk mendapatkan hasil-hasil yang tepat. Data miners yang mutakhir juga memeriksa kemanfaatan data (misalnya, teks yang tak terstruktur yang disimpan dalam tempat-tempat seperti database Lotus Notes, file-file teks di internet, atau intranet korporat). [Baca juga: Berbagai Tool Software Data Mining]
    ·         Si penambang seringkali adalah end-user, yang didukung dengan ‘bor-bor data’ dan berbagai tool query handal lainnya untuk menanyakan pertanyaan-pertanyaan  dengan tujuan tertentu dan mendapatkan jawaban-jawaban dengan cepat, dengan sedikit atau bahkan tanpa skill pemrograman sekalipun.
    ·         Dalam menemukan pola seringkali menemukan hasil yang tak diharapkan dan  meminta end-user untuk berpikir secara kreatif dalam menjalankan proses, termasuk interpretasi terhadap temuan.
    ·         Banyak tool data mining siap dikombinasikan dengan berbagai  spreadsheet dan tool development software lainnya. Jadi,  data yang ditambang bisa dianalisa dan diterapkan dengan cepat dan mudah. [Baca juga: Berbagai Tool Software Data Mining]
    ·         Karena jumlah data yang sangat besar dan usaha pencarian yang massif, kadang-kadang perlu menggunakan pemrosesan parallel untuk data mining.

    Perusahaan yang secara efektif memanfaatkan tool-tool dan teknologi data mining bisa mendapatkan dan mempertahankan  keunggulan kompetitif strategis. Data mining  menawarkan perusahaan suatu environment yang sangat diperlukan untuk meningkatkan keputusan untuk memanfaatkan peluang-peluang baru dengan mentransformasikan data menjadi senjata yang strategis.

    2.      Definisi Klasifikasi

    Klasifikasi adalah sebuah proses untuk menemukan model yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang kelasnya tidak diketahui (Tan et all, 2004). Di dalam klasifikasi diberikan sejumlah record yang dinamakan training set, yang terdiri dari beberapa atribut, atribut dapat berupa kontinyu ataupun kategoris, salah satu atribut menunjukkan kelas untuk record.



    Gambar 1. Klasifikasi sebagai suatu tugas memetakan atribut x ke dalam label kelas y (Tan et all, 2006)

    Model Klasifikasi terdiri dari (Tan et all, 2006):
    a)         Pemodelan Deskriptif
    Dapat   bertindak   sebagai   suatu   alat   yang   bersifat   menjelaskan   untuk membedakan antara objek dengan klas yang berbeda.  
    b)   Pemodelan Prediktif
    Model klasifikasi juga dapat menggunakan prediksi label kelas yang belum diketahui recordnya. 

    3.      Tujuan Klasifikasi

    Tujuan dari klasifikasi adalah untuk:
    a) Menemukan model dari training set yang membedakan record kedalam kategori atau kelas yang sesuai, model  tersebut kemudian digunakan untuk mengklasifikasikan record yang kelasnya belum diketahui sebelumnya pada test set.
    b) Mengambil  keputusan  dengan  memprediksikan  suatu  kasus,  berdasarkan  hasil klasifikasi yang diperoleh .

    4.      Konsep Pembuatan Model dalam Klasifikasi

    Untuk  mendapatkan  model,  kita  harus  melakukan  analisis  terhadap  data  latih (training set). Sedangkan data uji (test set) digunakan untuk mengetahui tingkat akurasi dari model yang telah dihasilkan. Klasifikasi dapat digunakan untuk memprediksi nama atau nilai kelas dari suatu obyek data. Proses klasifikasi data dapat dibedakan dalam 2 tahap, yaitu :
    a)      Pembelajaran / Pembangunan Model
    Tiap – tiap  record pada data latih dianalisis berdasarkan nilai – nilai atributnya, dengan menggunakan suatu algoritma klasifikasi untuk mendapatkan model.
    b)      Klasifikasi
    Pada tahap ini, data uji digunakan untuk mengetahui tingkat akurasi dari model yang dihasilkan. Jika tingkat akurasi yang diperoleh sesuai dengan nilai yang ditentukan, maka model tersebut dapat digunakan untuk mengklasifikasikan record – record data baru yang belum pernah dilatihkan atau diujikan sebelumnya.

    Untuk meningkatkan akurasi dan efisiensi proses klasifikasi, terdapat beberapa langkah pemrosesan terhadap data, yaitu :
    a)      Data Cleaning
    Data cleaning merupakan suatu pemrosesan terhadap data untuk menghilangkan noise dan penanganan terhadap missing value pada suatu record.
    b)      Analisis Relevansi
    Pada tahap ini,  dilakukan penghapusan terhadap atribut – atribut yang  redundant
    ataupun kurang berkaitan dengan proses klasifikasi yang akan dilakukan. Analisis
    relevansi  dapat  meningkatkan  efisiensi  klasifikasi  karena waktu yang diperlukan untuk pembelajaran lebih sedikit daripada proses pembelajaran terhadap data – data dengan atribut yang masih lengkap (masih terdapat redundansi).
    c)      Transformasi Data
    Pada data dapat dilakukan generalisasi menjadi data dengan level yang lebih tinggi. Misalnya  dengan  melakukan  diskretisasi  terhadap  atribut  degan  nilai  kontinyu. Pembelajaran  terhadap  data  hasil  generalisasi  dapat  mengurangi  kompleksitas pembelajaran yang harus dilakukan karena ukuran data yang harus diproses lebih kecil.
    Atau melalui tahap dengan cara kedua ini Tahapan dari klasifikasi dalam data mining terdiri dari 
    a)       Pembangunan model, dalam tahapan ini dibuat sebuah model untuk menyelesaikan masalah klasifikasi class atau attribut dalam data, model ini dibangun berdasarkan training set-sebuah contoh data dari permasalahan yang dihadapi, training set ini sudah mempunyai informasi yang lengkap baik attribut maupun classnya
    b)       Penerapan model, pada tahapan ini model yang sudah dibangun sebelumnya digunakan untuk menentukan attribut / class dari sebuah data baru yang attribut / classnya belum diketahui sebelumnya
    c)       Evaluasi, pada tahapan ini hasil dari penerapan model pada tahapan sebelumnya dievaluasi menggunakan parameter terukur untuk menentukan apakah model tersebut dapat diterima


    Gambar 2. Proses Klasifikasi: Learning 


    Gambar 3. Proses Klasifikasi: Classification

    Gambar 2. Proses Klasifikasi: Learning merupakan Training data dianalisis dengan algoritma  klasifikasi.  Disini  atribut  label  kelas  adalah  ”Tenured“, dan “Learned Model“ atau “classifier“ di gambarkan pada blok aturan klasifikasi. Sedangkan pada Gambar 3. Proses Klasifikasi: Classification merupakan Test  data digunakan untuk memperkirakan  keakuratan aturan klasifikasi. Jika keakuratan tersebut dianggap diterima, maka aturan itu dapat diaplikasikan untuk mengkalsifikasikan data tuples baru.
    Pada Gambar 2 dan 3 terdiri dari pembuatan model dan penggunaan model. Pembuatan model menguraikan sebuah set dari penentuan kelas-kelas sebagai:
    a)      Setiap tuple diasumsikan sudah mempunyai  kelas yang dikenal seperti ditentukan oleh label kelas atribut.
    b)      Kumpulan tuple yang   digunakan   untuk   membuat   model   disebut   kumpulan pelatihan (training set)
    c)      Model  direpresentasikan  sebagai  classification  rules,  decision  tree  atau  formula
    matematika.
    Penggunaan model menguraikan pengklasifikasian  masa  yang  akan  datang  atau obyek yang belum ketahui, yaitu taksiran keakuratan dari model yang terdiri dari:
    a)      Label  yang telah  diketahui  dari   contoh  tes   dibandingkan  dengan  hasil klasifikasi dari model.
    b)      Nilai keakuratan adalah prosentase dari kumpulan contoh tes yang diklasifikasikan secara tepat oleh model.
    c)      Kumpulan tes tidak terikat pada kumpulan pelatihan,
    d)     Jika  akurasi  diterima,  gunakan  model  untuk  mengklasifikasikan  data  tuple  yang
    label kelasnya belum diketahui.
    Untuk mengevaluasi performansi sebuah model yang dibangun oleh algoritma klasifikasi dapat dilakukan dengan menghitung jumlah dari test record yang di prediksi secara benar (akurasi)  atau  salah  (error  rate)  oleh  model  tersebut.  Akurasi  dan  error  rate didefinisikan sebagai berikut.




    Algoritma klasifikasi berusaha untuk mencari model  yang mempunyai  akurasi yang tinggi atau error rate yang rendah ketika model diterapkan pada test set.

    5.      Teknik Klasifikasi

    Teknik klasifikasi merupakan pendekatan sistematis untuk membangun model klasifikasi dari sekumpulan data input . Contohnya adalah decision tree (pohon keputusan), rule-based (berbasis aturan), neural network (jaringan syaraf), support vector machine (SVM), naive bayes dan nearest  neighbour



    Referensi

    https://www.google.co.id/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=0ahUKEwjDxp25t9TLAhULHo4KHX_GCYsQFggnMAE&url=http%3A%2F%2Frepository.widyatama.ac.id%2Fxmlui%2Fbitstream%2Fhandle%2F123456789%2F4695%2FBab%25202.pdf%3Fsequence%3D10&usg=AFQjCNFFztwVX03PT0RZUc7nBB7h3m-HHg&sig2=OYOiWkCMvclVQYGqm7nQfw
    http://repository.usu.ac.id/bitstream/123456789/34494/4/Chapter%20II.pdf
  • You might also like

    No comments:

    Post a Comment

L-ID mania. Powered by Blogger.