Minggu, 01 Februari 2009

DATA MINING

1.Definisi

Narrow Scope
Data mining adalah penemuan (discovery) secara automatis tentang hal-hal yang “menarik” (interesting) , atau pola-pola yang tidak begitu kentara dalam sebuah database yang memiliki potensial tinggi untuk berkontribusi pada bottom line.

Makna penemuan (discovery) adalah temuan yang sebelumnya tidak diketahui. Dalam proses ini jutaan data mungkin harus diperiksa untuk menemukan pola-pola yang menarik.

Makna “menarik” (interesting) adalah hubungan-hubungan yang memiliki dampak pada taktik atau strategi atau secara mendasar obyektif dari sebuah organisasi.

Scope dalam pengertian sempit ini meliputi: computer-based methods (machine learning methods) dalam proses mana ektraksi informasi dilakukan secara otomatis dengan sedikit keterlibatan manusia. Asal-muasal metoda ini adalah di Kecerdasan Buatan (AI), contohnya : jaringan saraf tiruan (neural network), association rules, decision trees dan genetic algorithm.

Broad Scope
Data mining melingkupi seluruh proses konfirmasi atau pemeriksaan berbagai hubungan (relationship) yang diperoleh melalui proses discovery. Dalam proses ini diganakan metoda-metoda statistik yang biasa untuk secara formal memeriksa hipotesa-hipotesa yang muncul dalam proses discovery. Dalam definisi yang luas ini keterlibatan orang (manager dan analis) lebih banyak dalam mengidentifikasi variabel yang penting serta struktur analisis yang akan dilakukan.

Very Broad Scope
Dalam arti seluas-luasnya data mining didefinisikan sebagai penemuan/penggalian pengetahuan dari dalam database (KDD : Knowledge Discovery in databases). Aktivitas yang tercakup seperti:
· Acquiring. Mencari dan mendapatkan data internal dan external.
· Preparing. Translating, cleaning dan formatting the data.
· Analysing & Interpreting.
· Scoring databases.
· Building & Implementing decissiopn support system and tools untuk membuat hasil
datamining tersedia bagi decision makers dan staf lebih rendah.
· Maintaining.

Sebenarnya berbagai langkah tersebut diatas telah banyak dilakukan sejak dulu, hanya kini prosesnya menjadi secara formal dikelola, secara berkesinambungan di perbaharui dan menjadi inti dari jalannya bisnis.

2. Driving Factors

Akar mula datamining telah dilakukan oleh John Tukey dari Princeton and Bell Labs (tengah 1970-an) yang memperkenalkan Exploratory Data Analysis (EDA). Perbedaannya kini data yang tersedia menggunung, dan tersedia komputer kecepatan tinggi untuk membantu mengolahnya, selain itu datamining lebih berat menekankan pada machine-learning daripada human-learning, dan proses dilakukan pada keseluruhan data bukan sampel.
· Supply side factors
- Kemajuan IT telah menurunkan ongkos untuk memperoleh, menyimpan dan mengolah data.
- Turunnya biaya komunikasi elektronik
- Munculnya teknik-teknik analisa baru yang memungkinkan proses analisa secara
otomatis.
- Software komputer yang semakin ramah terhadap pengguna.

· Demand side factors
- Kebutuhan yang semakin bertumbuh akan analisa dan hasil yang dapat secara cepat
diperoleh.
- Berkurangnya hirarki di organisasi bisnis
- Membludaknya buku/artikel tentang building and maintaining customer relationships.

3. Usage of Data Mining in Marketing

· Customer Acquisition.
Langkah pertama, marketer menerapkan metoda data mining terhadap database pelanggan untuk menemukan atribut yang dapat memprediksikan respons pelanggan terhadap penawaran dan komunikasi yang akan dilakukan. Tahap berikutnya, atribut yang disebutkan model sebagai yang paling positif responsnya dicocokkan dengan atribut yang dimiliki oleh non-pelanggan sehingga dapat dipilih para calon pelanggan yang potensial.

· Customer Retention.
Mengidentifikasi para pelanggan yang berkontribusi pada bottom-line perusahaan tapi mungkin sekali berniat pindah ke kompetitor. Menggunakan informasi ini sehingga perusahaan dapat melakukan penawaran/perlakuan khusus pada mereka yang rawan tersebut.

· Customer Abandonment.
Beberapa pelanggan membutuhkan biaya lebih dari keuntungan yang diberikan, mereka mesti didorong untuk pindah. Datamining digunakan untuk menemukan efek negative yang dihasilkan oleh pelanggan macam tersebut pada bottom-line perusahaan.

· Market Basket Analysis.
Mengidentifikasi asosiasi antar berbagai produk yang dibeli pada saat pembayaran di POS (point of sales), Marketer menggunakan data ini untuk mengembangkan product affinities dan promosi yang lebih terfokus.

4. Data Mining Tasks and Tools

Obyek dari datamining bisa berupa: daftar individe, benda, ide, potongan tulisan atau bentuk lain yang dapat direpresentasikan secara elektronik. Akan tetapi untuk marketing umumnya yang dimodelkan adalah individu atau rumah tangga.

Tugas data mining yang mendasar adalah:
a. Summarization.
Merujuk pada metoda untuk meringkas garis besar data yang memberikan gambaran tentang data dan hubungan yang ada di dalamnya. Contoh: SQL (count, average, total etc), statistik deskriptif (central tendency dan dispersion), x-tab, grafik. Gunanya memberikan gambaran garis besar walaupun tidak mampu detail.

b. Predictive Modelling.
Merujuk pada metoda yang dapat meramalkan hasil (outcome) berdasarkan satu set variabel. Contohnys Least Square Regression, Logit Regression, Analisa Diskriminan, Association Rules, Decision Trees, Neural Network dan Genetic Algorithm.

c. Clustering.
Merujuk pada proses pembentukan kelompok/segmen berdasarkan satu set variabel. Marketer memanfaatkan ini agar program marketingnya lebih fokus dan efektif. Contoh : metoda Analisa Cluster, Decision Tree Based method (eg. CHAID : Chisquare Automatic Interaction Detector), neural network dan genetic algoritm.

d. Classification.
Serupa dengan Clustering, hanya disini fokusnya adalah untuk menentukan obyek baru masuk kategori yang mana berdasarkan satu set variabel yang telah dipakai untuk menganalisa data yang lama.

e. Link Analysis.
Merujuk pada sekumpulan metoda yang mencari korelasi dari pola pembelian secara x-section atau time-series. Hal ini digunakan untuk meramalkan produk yang akan dibeli pelanggan jika mereka tahu atau ada perlakuan khusus, misalnya seseorang yang membeli sepeda balap, lebih mungkin akan mau membeli perlengkapan tambahan sepeda (topi, dll) dibandingkan pembeli sepeda biasa.

Alat (Tools) untuk melakukan data mining adalah sbb:
a. Query Tools.

Bilamana pemakai telah mengetahui hal yang dicari bisa menggunakan simple query untuk menghasilkan frekuensi, mean, std dll. Biasanya bahasa database telah menyediakan fasilitas query. Syaratnya tahu struktur database dan tahu yang ingin dicari. Contoh Microsoft access.

b. Descriptive Statistics.
Pada akhir proses KDD descriptive statistics memberikan dukungan tambahan untuk meyakinkan pola-pola yang tergali dari proses data mining.

c. Visualization tools.
Teknik visualisasi berguna untuk dengan cepat melihat pola data yang jumlahnya banyak sekali, contohnya grafik histogram, scatter XY dll.
d. Regression-type model.
Yang termasuk dalam keluarga ini adalah (1) ordinary least squares. (2) logit (3) analisa diskriminan.

e. Association rules.
Asosiasi biasanya dinyatakan dalam kondisi biner (ya atau tidak atau probabilitas untuk ya). Pada dasarnya adalah sebuah statement yang menyatakan perilaku individu (probabilitas untuk ya) berdasarkan satu set variabel. Aturan yang ditemukan dipakai untuk menentukan klasifikasi data baru berdasarkan nilai set variabel yang dimilikinya. Contoh kita tertarik mempromosikan kaus balap sepeda kepada pelanggan yang baru saja menelpon membeli perlengkapan sepeda. Kita ingin hanya memberikan penawaran kepada penelpon yang memiliki probabilitas beli yang besar berdasarkan data masa lampau. Misalnya analisa data menunjukkan bahwa mereka yang membeli helm dan celana balap adalah yang paling mungkin membeli kaus balap pada pembelian berikutnya. Sehingga ketika seorang penelpon membeli helm dan celana balap, maka sistem akan memiliki probabilitas tinggi untuk juga menawarkan untuk membeli helm.

f. Decision trees.
Pada dasarnya metoda ini menyusun pohon keputusan menggunakan struktur if-then-else. Berguna untuk mengidentifikasi variabel yang penting, hubungan nonlinear, dan interaksi antar variabel dan bisa bekerja baik pada kasus dengan variabel prediktor yang banyak dan banyak yang tidak relevan. Akan tetapi analisa ini dengan cepat menghabiskan data. Ada bahaya overfitting, yaitu kriteria yang dipakai untuk pengelompokkan pada berbagai cabang bukanlah karakter yang mendasar, sehingga bila diterapkan pada data baru akan menghasilkan pola yang berbeda. Oleh karena itu cross-validasi (half-split) menjadi alat yang berguna. Contoh decision trees algorithm adalah CHAID, CART dan C4.5.

g. Case-based reasoning.
Pada dasarnya ini adalah sebuah proses pencocokan antara kasus masa lalu dengan data yang baru masuk paling mirip dengan yang mana. Contohnya sbb: Misal sebuah supermarket akan mencari lokasi yang cocok. Langkah pertama menentukan spesifikasi , misal m2, jumlah outlet, ada bagian roti segar atau tidak dll. Langkah kedua, identifikasi atribut-atribut yang penting yang untuk mengidentifikasi suatu lokasi, misal : kepadatan penduduk, kepadatan lalu lintas, pengeluaran rumah tangga, umur kepala rumah tangga. Langkah ketiga bandingkan lokasi-lokasi yang potensial dengan lokasi supermarket yang telah ada berdasarkan atribut pada langkah kedua lengkap dengan performance indexnya misalnya. Langkah keempat CBR akan mengidentifikasi lokasi baru yang paling mungkin sukses berdasarkan data yang ada, lengkap dengan spesifikasi yang sebaiknya dimiliki toko tersebut. Kekuatan metoda ini adalah efektif dalam mengubah konsep abstrak menjadi hal yang real. Memaksa analis untuk fokus pada persamaan dan perbedaan secara sistematis dan terstruktur. Bisa mengakomodasi data kualitatif, diskrit maupun hubungan yang tidak jelas. Kelemahannya antara lain solusinya bisa tidak optimal sebab hal yang terbaik di masa lalu belum tentu demikian juga hari ini. Kurang baik jika antara variabel prediktor berinteraksi secara kuat.

h. Neural networks.
Metoda ini meniru kerja otak dalam mengenali pola. Pada prinsipnya metoda ini belajar mengenali pola dengan belajar dari berbagai set data yang ada dan berusaha menemukan hubungan antara variabel-variabel prediktor dan dependent. Kekuatan metoda ini adalah mampu mengkombinasikan banyak informasi dari prediktor, bahkan jika variabel prediktor tersebut saling berkorelasi dan ada hubungan bersifat non linear. Kelemahannya adalah membutuhkan banyak waktu dalam seleksi variabel yang terlibat serta transformasi yang diperlukan dan proses belajarnya. Disamping itu proses kerjanya tidak transparen/sulit dipahami oleh non-expert.

i. Genetic algorithm.
Metoda ini mengikuti pola yang terjadi pada evolusi biologis, yaitu terjadinya seleksi, reproduksi, mutasi dan yang kuat menang dalam mencari solusi yang bersifat prediksi atau klasifikasi. Kekuatannya baik digunakan untuk mencari solusi problem yang tidak begitu dipahami dan berstruktur kurang baik juga sebab metoda ini secara simultan berusaha mencari banyak solusi sekaligus. Metoda ini juga kadang bisa menemukan hubungan yang “baru” tak terduga sebelumnya. Kelemahannya dalam proses pembentukannya (fitting) memerlukan waktu yang lama sebab perlu banyak runs. Selain itu solusinya sering sulit dijelaskan, sebab tidak ada penjelasan bagaimana metoda ini bisa sampai pada satu kesimpulan.

Tidak ada komentar:

Posting Komentar