SlideShare une entreprise Scribd logo
1  sur  19
Konsep Dasar Klasifikasi
Irwansyah Saputra, S.Kom., M.Kom., MTA
Founder of Multinity Indonesia
Tentang Saya
• Irwansyah Saputra
• Dosen Ilmu Komputer
• Mahasiswa S3 Ilmu Komputer IPB University
• Bidang Kajian: Computational Intelligence &
Optimization (Data mining, machine
learning, artificial intelligence)
Halo semuanya, saya suka belajar tentang
segala hal dan suka berbagi pengetahuan. Saya
juga sering menjadi pembicara di berbagai
seminar.
Kontak yang bisa dihubungi:
WhatsApp: 0895323302241
Instagram: @irwansight_
Web: https://irw.one
Disclaimer
Materi ini digunakan sebagai bahan ajar Program Data Mining di
Multinity.id
Silakan gunakan, mohon untuk tidak mengubah template.
Jika Anda memiliki kesulitan dalam memahami materi pada slide
ini, silakan belajar di Multinity.id
Referensi
1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques Third
Edition, Elsevier, 2012
2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine Learning
Tools and Techniques 3rd Edition, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining Use Cases and
Business Analytics Applications, CRC Press Taylor & Francis Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to Data Mining,
John Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MIT Press, 2014
6. Florin Gorunescu, Data Mining: Concepts, Models and Techniques, Springer,
2011
7. Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery Handbook
Second Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advances in Data Mining
of Enterprise Data: Algorithms and Applications, World Scientific, 2007
9. Suyanto, DATA MINING: Untuk klasifikasi dan klasterisasi data, Penerbit
Informatika, 2017
APA ITU KLASIFIKASI?
Secara umum, klasifikasi itu berarti mengumpulkan sesuatu ke dalam kelompok yang sejenis.
Pengelempokkan tersebut berdasarkan data yang sudah ada sebelumnya.
Syarat masuk jurusan science:
1. Nilai IPA > 70
2. Berpikir analitik
3. Senang menghitung
Syarat masuk jurusan ekonomi:
1. Nilai IPS > 70
2. Berpikir sosial
3. Senang berkomunikasi
Contoh kasus:
CONTOH SEDERHANA KLASIFIKASI
DIAZ ZAID
Diaz & Zaid adalah lulusan SMP yang
akan masuk ke sekolah ini. Tapi
mereka tidak tahu jurusan mana yang
harus diambil. Maka dilakukan tes oleh
sekolah ini untuk menyeleksi
keduanya.
ZAID
DIAZ
Hasil seleksi dari pihak sekolah
menyatakan bahwa Diaz sesuai
dengan syarat-syarat jurusan
Science.
Hasil seleksi dari pihak sekolah
menyatakan bahwa Zaid sesuai
dengan syarat-syarat jurusan
ekonomi
Sehingga, Diaz yang sebelumnya tidak
memiliki class, dimasukkan kedalam
klasifikasi jurusan Science yang
didalamnya terdapat siswa-siswa yang
sejenis.
Begitupun dengan Zaid yang
sebelumnya tidak memiliki class,
dimasukkan kedalam klasifikasi jurusan
Ekonomi yang didalamnya terdapat
siswa-siswa yang sejenis.
Dari kasus tersebut, dapat dianalisis ciri-ciri klasifikasi adalah
2. Menentukan class untuk data baru berdasarkan atribut/ketentuan
yang dimiliki oleh data latih. Misalnya, Nilai IPA > 70, berpikir sosial,
senang berkomunikasi dan lain sebagainya.
1. Mengelompokkan data baru kedalam class yang sudah ditentukan sebelumnya.
Class baru tidak akan muncul karena sudah dibatasi oleh class yang ada. Yaitu
Science dan Ekonomi.
3. Klasifikasi sangat bergantung pada data latih. Dalam kasus ini data latihnya adalah para
siswa yang sudah masuk ke dalam class Science dan Ekonomi. Semakin kuantitatif dan
random, maka data latih semakin baik.
Contoh Kasus dengan Dataset
• Berdasarkan riwayat transaksi tahun sebelumnya, ada 20 data yang dapat digunakan sebagai acuan
perusahaan untuk menentukan bonus kepada pelanggannya.
• Jadi, 20 data ini akan dijadikan data latih untuk mengklasifikasikan pelanggan ke 21 dan seterusnya,
layak atau tidak mendapatkan bonus.
• Data ke 21 dan seterusnya disebut dengan data uji (testing).
NOMOR PANGGILAN BLOK BONUS
1 30 50 TIDAK
2 40 140 TIDAK
3 50 220 TIDAK
4 60 300 TIDAK
5 100 80 TIDAK
6 120 150 TIDAK
7 130 220 TIDAK
8 150 110 TIDAK
9 160 150 TIDAK
10 200 30 TIDAK
11 90 500 YA
12 150 400 YA
13 250 300 YA
14 270 200 YA
15 300 120 YA
16 320 210 YA
17 350 330 YA
18 400 100 YA
19 450 50 YA
20 500 500 YA
21 210 160 ?
Atribut Umum Class/Label
o Kolom PANGGILAN dan BLOK digunakan sebagai acuan untuk menentukan bonus. Sehingga posisi
keduanya disebut dengan Atribut Umum.
o Kolom BONUS adalah tempat untuk mengisi layak atau tidaknya pelanggan mendapatkan bonus.
Sehingga disebut dengan atribut Class/Label.
o Kolom NOMOR tidak termasuk atribut karena tidak memiliki pengaruh apapun dalam menentukan
Bonus.
• Diaz memiliki perusahaan seluler. Dia memiliki 2 kriteria yaitu PANGGILAN yang sering dilakukan dan
BLOK untuk menentukan layak tidaknya pelanggan mendapatkan bonus.
Contoh Kasus dengan Dataset
NOMOR PANGGILAN BLOK BONUS
1 30 50 TIDAK
2 40 140 TIDAK
3 50 220 TIDAK
4 60 300 TIDAK
5 100 80 TIDAK
6 120 150 TIDAK
7 130 220 TIDAK
8 150 110 TIDAK
9 160 150 TIDAK
10 200 30 TIDAK
11 90 500 YA
12 150 400 YA
13 250 300 YA
14 270 200 YA
15 300 120 YA
16 320 210 YA
17 350 330 YA
18 400 100 YA
19 450 50 YA
20 500 500 YA
21 210 160 ?
Atribut Umum Class/Label
Pertanyaannya adalah….
Apakah pelanggan ke 21 akan mendapatkan bonus? Bagaimana cara
menentukannya? Dan teknik apa yang bisa digunakan untuk menentukannya?
Ada banyak teknik yang dapat digunakan untuk menyelesaikan permasalahan ini.
seperti,
1. Menggunakan probabilitas
2. Menggunakan aturan IF ELSE
3. Menggunakan Garis Keputusan
4. Menggunakan Statistik Average Distance
5. Menggunakan pengaruh jumlah data tetangga
6. Menggunakan titik pusat kelas
7. Menggunakan jarak terdekat dengan data tetangga
8. Teknik ke 8 hingga seterusnya lumayan sulit dipraktikkan. Jadi menyusul saja.
Jawabannya adalah….
Sebelum kita bahas penyelesaiannya,
Tahapan paling pertama yang harus dilakukan adalah membuat SEBARAN
DATA, visualisasikan dalam bentuk ruang dua dimensi,
Agar lebih mudah dimengerti
VISUALISASI SEBARAN DATA KEDALAM RUANG 2 DIMENSI
NOMOR PANGGILAN BLOK BONUS
1 30 50 TIDAK
2 40 140 TIDAK
3 50 220 TIDAK
4 60 300 TIDAK
5 100 80 TIDAK
6 120 150 TIDAK
7 130 220 TIDAK
8 150 110 TIDAK
9 160 150 TIDAK
10 200 30 TIDAK
11 90 500 YA
12 150 400 YA
13 250 300 YA
14 270 200 YA
15 300 120 YA
16 320 210 YA
17 350 330 YA
18 400 100 YA
19 450 50 YA
20 500 500 YA
21 210 160 ?
0
50
100
150
200
250
300
350
400
450
500
550
0 50 100 150 200 250 300 350 400 450 500 550
BLOK
PANGGILAN
Bonus = Tidak
Bonus = Ya
Pelanggan baru. Apakah termasuk
segitiga atau lingkaran?
1. Menggunakan Probabilitas
Bonus = Tidak
Bonus = Ya
Pelanggan baru. Apakah termasuk
segitiga atau lingkaran?
Teknik ini menggunakan probabilitas/peluang. Jika nilai yang akan
dihitung bersifat nominal (angka, nomor, summary), maka ubah
terlebih dahulu menjadi kategorial. Nilai pada Atribut Panggilan
dibagi menjadi 3, yaitu Sedikit, Cukup dan Banyak.
Sedangkan untuk Atribut Blok dibagi menjadi Rendah, Sedang dan
Tinggi.
Pengubahan jenis data nominal menjadi kategorial dilakukan
untuk memudahkan dalam proses perhitungan.
Range/Jarak nilai antara Sedikit, Cukup dan Banyak pada atribut
Panggilan dibuat sesuai dengan aturan pakar atau ahli. Misal,
untuk nilai Sedikit adalah 0 – under 250 dan sebagainya.
Hal ini berlaku juga untuk atribut Blok.
Dengan menggunakan teknik statistic seperti Theorema Bayes,
didapatkan hasil klasifikasi untuk data uji yaitu data uji tidak
mendapatkan bonus. Karena berada pada area Bonus = Tidak.
0
50
100
150
200
250
300
350
400
450
500
550
0 50 100 150 200 250 300 350 400 450 500 550
BLOK
PANGGILAN
Rendah
Sedang
Tinggi
Sedikit Cukup Banyak
2. Menggunakan Aturan IF ELSE
Bonus = Tidak
Bonus = Ya
Pelanggan baru. Apakah termasuk
segitiga atau lingkaran?
Teknik ini mudah dilakukan. Karena hanya dibutuhkan
pembatas untuk X dan Y. Pembatas ini berfungsi sebagai
garis pemisah antara satu aturan IF dengan aturan IF yang
lain.
Misalnya terdapat aturan: IF Panggilan < 225 AND Blok <
350 THEN Bonus = Tidak (segitiga) ELSE Bonus = Ya
(lingkaran).
Dengan aturan tersebut, data uji akan diklasifikasikan
sebagai pelanggan yang tidak mendapatkan bonus.
0
50
100
150
200
250
300
350
400
450
500
550
0 50 100 150 200 250 300 350 400 450 500 550
BLOK
PANGGILAN
Garis pemisah yang sejajar antara sumbu X dan sumbu Y.
3. Menggunakan Garis Keputusan
Bonus = Tidak
Bonus = Ya
Pelanggan baru. Apakah termasuk
segitiga atau lingkaran?
Teknik ini menggunakan perhitungan matematis untuk
mendapatkan hasil garis miring dengan gradient tertentu.
Setelah ditemukan hasil garis miring seperti pada gambar, cukup
tambahkan aturan IF sederhana,
IF data baru berada di bawah garis THEN segitiga (Bonus = tidak)
ELSE lingkaran (bonus = ya). Sehingga data uji termasuk kepada
segitiga. Artinya pelanggan tersebut tidak layak mendapatkan
bonus.
Karena materi ini baru mengenalkan konsep dasar. Jadi pelajari
saja dulu dasar-dasar klasifikasinya.
Jika penasaran dengan perhitungan matematisnya, silakan cari
terlebih sendiri untuk menambah wawasan dan pengetahuan.
0
50
100
150
200
250
300
350
400
450
500
550
0 50 100 150 200 250 300 350 400 450 500 550
BLOK
PANGGILAN
Buat garis miring menggunakan teknik gradien sedemikian
4. Menggunakan Statistik Average Distance
Bonus = Tidak
Bonus = Ya
Pelanggan baru. Apakah termasuk
segitiga atau lingkaran?
Teknik ini mengandalkan total jarak dari titik yang diuji
dengan titik data yang sudah ada.
Jumlah jarak tersingkat adalah hasil yang diambil.
Dari gambar di samping terlihat bahwa total jarak
tersingkat yang didapat oleh data uji adalah segitiga.
Sehingga data uji tidak layak mendapatkan bonus.
Mungkin ada yang bertanya, bagaimana kita dapat
menghitung total jaraknya secara matematis jika data
tersebut tanpa gambar/grafik?
Jawab: Mudah sekali. Kalau bisa menghitung jarak pada
gambar, seharusnya di tabel lebih mudah lagi.
0
50
100
150
200
250
300
350
400
450
500
550
0 50 100 150 200 250 300 350 400 450 500 550
BLOK
PANGGILAN
Hitung total jarak ke semua data yang ada. Piliih class/label
yang memiliki jarak minimum.
0
50
100
150
200
250
300
350
400
450
500
550
0 50 100 150 200 250 300 350 400 450 500 550
BLOK
PANGGILAN
5. Menggunakan Pengaruh Jumlah Data Tetangga
Bonus = Tidak
Bonus = Ya
Pelanggan baru. Apakah termasuk
segitiga atau lingkaran?
Pengaruh dari data tetangga terdekat ditentukan oleh
sebanyak jumlah k yang diinginkan.
Misal dalam hal ini, k yang dipilih adalah 3, maka ambil data
tetangga sebanyak 3 data. Dari ke-3 data tersebut, mana
yang lebih banyak muncul. Apakah lingkaran atau segitiga.
Jumlah terbanyaklah yang menentukan class/label.
Dari gambar di samping, dapat diketahui bahwa data yang
diuji berubah menjadi segitiga. Artinya dengan panggilan =
210 dan blok = 160, pelanggan tersebut tidak layak
mendapatkan bonus.
6. Menggunakan Titik Pusat Kelas
Bonus = Tidak
Bonus = Ya
Pelanggan baru. Apakah termasuk
segitiga atau lingkaran?
Teknik ini memerlukan titik pusat dari setiap class untuk
diambil jarak ke data uji. Jarak yang paling minimum
menjadi hasil keputusan.
Titik pusat didapatkan dari hasil perhitungan rata-rata dari
setiap class. Beberapa cara yang dapat dilakukan untuk
menghasilkan nilai rata-rata seperti mean, median dan
modus.
Dari gambar di samping, dapat diketahui bahwa data uji
diklasifikasikan kepada segitiga, karena jaraknya lebih dekat.
Artinya pelanggan tersebut tidak layak mendapatkan bonus.
0
50
100
150
200
250
300
350
400
450
500
550
0 50 100 150 200 250 300 350 400 450 500 550
BLOK
PANGGILAN
Menentukan sebuah objek data sebagai titik pusat dari masing-
masing class. kemudian tarik garis ke data baru.
Jarak minimum menjadi keputusan klasifikasi.
7. Menggunakan Jarak Terdekat Dengan Data Tetangga
Bonus = Tidak
Bonus = Ya
Pelanggan baru. Apakah termasuk
segitiga atau lingkaran?
Teknik ini mudah dilakukan. Ambil beberapa data dari setiap
class, kemudian cari jarak minimum untuk dipilih sebagai
keputusan data uji.
Pada gambar di samping, k yang dipakai adalah k = 3,
Dari ketiga data yang dipilih, ternyata segitiga memiliki jarak
minimum dari data uji. Sehingga data uji menjadi segitiga.
Artinya tidak mendapatkan bonus.
0
50
100
150
200
250
300
350
400
450
500
550
0 50 100 150 200 250 300 350 400 450 500 550
BLOK
PANGGILAN
Pilih beberapa data dari setiap class yang terdekat dengan data uji.
Jarak minimum yang dipilih sebagai keputusan untuk data uji
Tugas 
• Cari contoh kasus yang terkait dengan klasifikasi. Lakukan analisis bagaimana
proses menyelesaikan kasus tersebut menggunakan teknik yang sudah
dijelaskan.
• Jika dataset tidak memiliki label, apa yang harus dilakukan? Bagaimana proses
labeling dilakukan agar dataset tetap asli (karena proses labeling biasanya
bersifat subjektif)?
• Apakah ada syarat tertentu suatu dataset boleh diolah dengan teknik klasifikasi
seperti penjelasan sebelumnnya? Jika ada, jelaskan alasannya!
• Bagaimana cara Anda bisa yakin dengan teknik yang Anda gunakan adalah
benar? Bagaimana cara Anda melakukan pembuktian terhadap hal tersebut?

Contenu connexe

Tendances

Data mining 2 exploratory data analysis
Data mining 2   exploratory data analysisData mining 2   exploratory data analysis
Data mining 2 exploratory data analysisIrwansyahSaputra1
 
K-Means Clustering.ppt
K-Means Clustering.pptK-Means Clustering.ppt
K-Means Clustering.pptAdam Superman
 
Data mining 3 similarity and disimilarity
Data mining 3   similarity and disimilarityData mining 3   similarity and disimilarity
Data mining 3 similarity and disimilarityIrwansyahSaputra1
 
Modul 8 - Jaringan Syaraf Tiruan (JST)
Modul 8 - Jaringan Syaraf Tiruan (JST)Modul 8 - Jaringan Syaraf Tiruan (JST)
Modul 8 - Jaringan Syaraf Tiruan (JST)ahmad haidaroh
 
Perancangan dan Analisa Sistem
Perancangan dan Analisa SistemPerancangan dan Analisa Sistem
Perancangan dan Analisa Sistemguestb7aaaf1e
 
Matematika Diskrit - 11 kompleksitas algoritma - 03
Matematika Diskrit - 11 kompleksitas algoritma - 03Matematika Diskrit - 11 kompleksitas algoritma - 03
Matematika Diskrit - 11 kompleksitas algoritma - 03KuliahKita
 
Analisis sistem-informasi
Analisis sistem-informasiAnalisis sistem-informasi
Analisis sistem-informasiryanprasetya
 
Konsep Data Mining
Konsep Data MiningKonsep Data Mining
Konsep Data Miningdedidarwis
 
Forward Backward Chaining
Forward Backward ChainingForward Backward Chaining
Forward Backward ChainingHerman Tolle
 
Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)dedidarwis
 
Metode enkripsi caesar cipher
Metode enkripsi caesar cipherMetode enkripsi caesar cipher
Metode enkripsi caesar cipherBobby Chandra
 
UML Aplikasi Rental Mobil
UML Aplikasi Rental MobilUML Aplikasi Rental Mobil
UML Aplikasi Rental MobilDwi Mardianti
 
Modul 4 representasi pengetahuan
Modul 4   representasi pengetahuanModul 4   representasi pengetahuan
Modul 4 representasi pengetahuanahmad haidaroh
 
Jaringan Syaraf Tiruan (JST)
Jaringan Syaraf Tiruan (JST)Jaringan Syaraf Tiruan (JST)
Jaringan Syaraf Tiruan (JST)Farichah Riha
 
Kriptografi - Kriptografi Kunci Publik
Kriptografi - Kriptografi Kunci PublikKriptografi - Kriptografi Kunci Publik
Kriptografi - Kriptografi Kunci PublikKuliahKita
 
Bab 4 operasi-operasi dasar pengolahan citra dijital
Bab 4 operasi-operasi dasar pengolahan citra dijitalBab 4 operasi-operasi dasar pengolahan citra dijital
Bab 4 operasi-operasi dasar pengolahan citra dijitalSyafrizal
 
Permasalahan terstruktur, semi terstruktur dan tidak terstruktur dan penerapa...
Permasalahan terstruktur, semi terstruktur dan tidak terstruktur dan penerapa...Permasalahan terstruktur, semi terstruktur dan tidak terstruktur dan penerapa...
Permasalahan terstruktur, semi terstruktur dan tidak terstruktur dan penerapa...I Gede Iwan Sudipa
 

Tendances (20)

Data mining 2 exploratory data analysis
Data mining 2   exploratory data analysisData mining 2   exploratory data analysis
Data mining 2 exploratory data analysis
 
Jawaban Struktur data soal-latihan
Jawaban Struktur data soal-latihanJawaban Struktur data soal-latihan
Jawaban Struktur data soal-latihan
 
Slide minggu 6 (citra digital)
Slide minggu 6 (citra digital)Slide minggu 6 (citra digital)
Slide minggu 6 (citra digital)
 
K-Means Clustering.ppt
K-Means Clustering.pptK-Means Clustering.ppt
K-Means Clustering.ppt
 
Data mining 3 similarity and disimilarity
Data mining 3   similarity and disimilarityData mining 3   similarity and disimilarity
Data mining 3 similarity and disimilarity
 
Modul 8 - Jaringan Syaraf Tiruan (JST)
Modul 8 - Jaringan Syaraf Tiruan (JST)Modul 8 - Jaringan Syaraf Tiruan (JST)
Modul 8 - Jaringan Syaraf Tiruan (JST)
 
Sistem pakar
Sistem pakarSistem pakar
Sistem pakar
 
Perancangan dan Analisa Sistem
Perancangan dan Analisa SistemPerancangan dan Analisa Sistem
Perancangan dan Analisa Sistem
 
Matematika Diskrit - 11 kompleksitas algoritma - 03
Matematika Diskrit - 11 kompleksitas algoritma - 03Matematika Diskrit - 11 kompleksitas algoritma - 03
Matematika Diskrit - 11 kompleksitas algoritma - 03
 
Analisis sistem-informasi
Analisis sistem-informasiAnalisis sistem-informasi
Analisis sistem-informasi
 
Konsep Data Mining
Konsep Data MiningKonsep Data Mining
Konsep Data Mining
 
Forward Backward Chaining
Forward Backward ChainingForward Backward Chaining
Forward Backward Chaining
 
Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)Perancangan Data Warehouse (Logical dan Physical)
Perancangan Data Warehouse (Logical dan Physical)
 
Metode enkripsi caesar cipher
Metode enkripsi caesar cipherMetode enkripsi caesar cipher
Metode enkripsi caesar cipher
 
UML Aplikasi Rental Mobil
UML Aplikasi Rental MobilUML Aplikasi Rental Mobil
UML Aplikasi Rental Mobil
 
Modul 4 representasi pengetahuan
Modul 4   representasi pengetahuanModul 4   representasi pengetahuan
Modul 4 representasi pengetahuan
 
Jaringan Syaraf Tiruan (JST)
Jaringan Syaraf Tiruan (JST)Jaringan Syaraf Tiruan (JST)
Jaringan Syaraf Tiruan (JST)
 
Kriptografi - Kriptografi Kunci Publik
Kriptografi - Kriptografi Kunci PublikKriptografi - Kriptografi Kunci Publik
Kriptografi - Kriptografi Kunci Publik
 
Bab 4 operasi-operasi dasar pengolahan citra dijital
Bab 4 operasi-operasi dasar pengolahan citra dijitalBab 4 operasi-operasi dasar pengolahan citra dijital
Bab 4 operasi-operasi dasar pengolahan citra dijital
 
Permasalahan terstruktur, semi terstruktur dan tidak terstruktur dan penerapa...
Permasalahan terstruktur, semi terstruktur dan tidak terstruktur dan penerapa...Permasalahan terstruktur, semi terstruktur dan tidak terstruktur dan penerapa...
Permasalahan terstruktur, semi terstruktur dan tidak terstruktur dan penerapa...
 

Dernier

Perlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdfPerlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdfjeffrisovana999
 
Geologi Jawa Timur-Madura Kelompok 6.pdf
Geologi Jawa Timur-Madura Kelompok 6.pdfGeologi Jawa Timur-Madura Kelompok 6.pdf
Geologi Jawa Timur-Madura Kelompok 6.pdfAuliaAulia63
 
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHANKONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHANDevonneDillaElFachri
 
Contoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data miningContoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data miningSamFChaerul
 
KISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkksKISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkksdanzztzy405
 
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...Shary Armonitha
 
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptxUKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptxzidanlbs25
 

Dernier (8)

Perlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdfPerlindungan Anak Dalam Hukum Perdata (2).pdf
Perlindungan Anak Dalam Hukum Perdata (2).pdf
 
Geologi Jawa Timur-Madura Kelompok 6.pdf
Geologi Jawa Timur-Madura Kelompok 6.pdfGeologi Jawa Timur-Madura Kelompok 6.pdf
Geologi Jawa Timur-Madura Kelompok 6.pdf
 
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHANKONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
KONSEP DASAR ADVOKASI GIZI KEBIJAKAN PEMERINTAHAN
 
Contoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data miningContoh Algoritma Asosiasi pada data mining
Contoh Algoritma Asosiasi pada data mining
 
KISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkksKISI KISI PSAJ IPS KLS IX 2324.docskskkks
KISI KISI PSAJ IPS KLS IX 2324.docskskkks
 
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
Sistem operasi adalah program yang bertindak sebagai perantara antara user de...
 
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptxUKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
UKURAN PENTYEBARAN DATA PPT KELOMPOK 2.pptx
 
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
Abortion pills in Kuwait salmiyah [+966572737505 ] Get Cytotec in Kuwait city...
 

Data mining 4 konsep dasar klasifikasi

  • 1. Konsep Dasar Klasifikasi Irwansyah Saputra, S.Kom., M.Kom., MTA Founder of Multinity Indonesia
  • 2. Tentang Saya • Irwansyah Saputra • Dosen Ilmu Komputer • Mahasiswa S3 Ilmu Komputer IPB University • Bidang Kajian: Computational Intelligence & Optimization (Data mining, machine learning, artificial intelligence) Halo semuanya, saya suka belajar tentang segala hal dan suka berbagi pengetahuan. Saya juga sering menjadi pembicara di berbagai seminar. Kontak yang bisa dihubungi: WhatsApp: 0895323302241 Instagram: @irwansight_ Web: https://irw.one
  • 3. Disclaimer Materi ini digunakan sebagai bahan ajar Program Data Mining di Multinity.id Silakan gunakan, mohon untuk tidak mengubah template. Jika Anda memiliki kesulitan dalam memahami materi pada slide ini, silakan belajar di Multinity.id
  • 4. Referensi 1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques Third Edition, Elsevier, 2012 2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine Learning Tools and Techniques 3rd Edition, Elsevier, 2011 3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining Use Cases and Business Analytics Applications, CRC Press Taylor & Francis Group, 2014 4. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to Data Mining, John Wiley & Sons, 2005 5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MIT Press, 2014 6. Florin Gorunescu, Data Mining: Concepts, Models and Techniques, Springer, 2011 7. Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery Handbook Second Edition, Springer, 2010 8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advances in Data Mining of Enterprise Data: Algorithms and Applications, World Scientific, 2007 9. Suyanto, DATA MINING: Untuk klasifikasi dan klasterisasi data, Penerbit Informatika, 2017
  • 5. APA ITU KLASIFIKASI? Secara umum, klasifikasi itu berarti mengumpulkan sesuatu ke dalam kelompok yang sejenis. Pengelempokkan tersebut berdasarkan data yang sudah ada sebelumnya. Syarat masuk jurusan science: 1. Nilai IPA > 70 2. Berpikir analitik 3. Senang menghitung Syarat masuk jurusan ekonomi: 1. Nilai IPS > 70 2. Berpikir sosial 3. Senang berkomunikasi Contoh kasus:
  • 6. CONTOH SEDERHANA KLASIFIKASI DIAZ ZAID Diaz & Zaid adalah lulusan SMP yang akan masuk ke sekolah ini. Tapi mereka tidak tahu jurusan mana yang harus diambil. Maka dilakukan tes oleh sekolah ini untuk menyeleksi keduanya. ZAID DIAZ Hasil seleksi dari pihak sekolah menyatakan bahwa Diaz sesuai dengan syarat-syarat jurusan Science. Hasil seleksi dari pihak sekolah menyatakan bahwa Zaid sesuai dengan syarat-syarat jurusan ekonomi Sehingga, Diaz yang sebelumnya tidak memiliki class, dimasukkan kedalam klasifikasi jurusan Science yang didalamnya terdapat siswa-siswa yang sejenis. Begitupun dengan Zaid yang sebelumnya tidak memiliki class, dimasukkan kedalam klasifikasi jurusan Ekonomi yang didalamnya terdapat siswa-siswa yang sejenis.
  • 7. Dari kasus tersebut, dapat dianalisis ciri-ciri klasifikasi adalah 2. Menentukan class untuk data baru berdasarkan atribut/ketentuan yang dimiliki oleh data latih. Misalnya, Nilai IPA > 70, berpikir sosial, senang berkomunikasi dan lain sebagainya. 1. Mengelompokkan data baru kedalam class yang sudah ditentukan sebelumnya. Class baru tidak akan muncul karena sudah dibatasi oleh class yang ada. Yaitu Science dan Ekonomi. 3. Klasifikasi sangat bergantung pada data latih. Dalam kasus ini data latihnya adalah para siswa yang sudah masuk ke dalam class Science dan Ekonomi. Semakin kuantitatif dan random, maka data latih semakin baik.
  • 8. Contoh Kasus dengan Dataset • Berdasarkan riwayat transaksi tahun sebelumnya, ada 20 data yang dapat digunakan sebagai acuan perusahaan untuk menentukan bonus kepada pelanggannya. • Jadi, 20 data ini akan dijadikan data latih untuk mengklasifikasikan pelanggan ke 21 dan seterusnya, layak atau tidak mendapatkan bonus. • Data ke 21 dan seterusnya disebut dengan data uji (testing). NOMOR PANGGILAN BLOK BONUS 1 30 50 TIDAK 2 40 140 TIDAK 3 50 220 TIDAK 4 60 300 TIDAK 5 100 80 TIDAK 6 120 150 TIDAK 7 130 220 TIDAK 8 150 110 TIDAK 9 160 150 TIDAK 10 200 30 TIDAK 11 90 500 YA 12 150 400 YA 13 250 300 YA 14 270 200 YA 15 300 120 YA 16 320 210 YA 17 350 330 YA 18 400 100 YA 19 450 50 YA 20 500 500 YA 21 210 160 ? Atribut Umum Class/Label o Kolom PANGGILAN dan BLOK digunakan sebagai acuan untuk menentukan bonus. Sehingga posisi keduanya disebut dengan Atribut Umum. o Kolom BONUS adalah tempat untuk mengisi layak atau tidaknya pelanggan mendapatkan bonus. Sehingga disebut dengan atribut Class/Label. o Kolom NOMOR tidak termasuk atribut karena tidak memiliki pengaruh apapun dalam menentukan Bonus. • Diaz memiliki perusahaan seluler. Dia memiliki 2 kriteria yaitu PANGGILAN yang sering dilakukan dan BLOK untuk menentukan layak tidaknya pelanggan mendapatkan bonus.
  • 9. Contoh Kasus dengan Dataset NOMOR PANGGILAN BLOK BONUS 1 30 50 TIDAK 2 40 140 TIDAK 3 50 220 TIDAK 4 60 300 TIDAK 5 100 80 TIDAK 6 120 150 TIDAK 7 130 220 TIDAK 8 150 110 TIDAK 9 160 150 TIDAK 10 200 30 TIDAK 11 90 500 YA 12 150 400 YA 13 250 300 YA 14 270 200 YA 15 300 120 YA 16 320 210 YA 17 350 330 YA 18 400 100 YA 19 450 50 YA 20 500 500 YA 21 210 160 ? Atribut Umum Class/Label Pertanyaannya adalah…. Apakah pelanggan ke 21 akan mendapatkan bonus? Bagaimana cara menentukannya? Dan teknik apa yang bisa digunakan untuk menentukannya? Ada banyak teknik yang dapat digunakan untuk menyelesaikan permasalahan ini. seperti, 1. Menggunakan probabilitas 2. Menggunakan aturan IF ELSE 3. Menggunakan Garis Keputusan 4. Menggunakan Statistik Average Distance 5. Menggunakan pengaruh jumlah data tetangga 6. Menggunakan titik pusat kelas 7. Menggunakan jarak terdekat dengan data tetangga 8. Teknik ke 8 hingga seterusnya lumayan sulit dipraktikkan. Jadi menyusul saja. Jawabannya adalah….
  • 10. Sebelum kita bahas penyelesaiannya, Tahapan paling pertama yang harus dilakukan adalah membuat SEBARAN DATA, visualisasikan dalam bentuk ruang dua dimensi, Agar lebih mudah dimengerti
  • 11. VISUALISASI SEBARAN DATA KEDALAM RUANG 2 DIMENSI NOMOR PANGGILAN BLOK BONUS 1 30 50 TIDAK 2 40 140 TIDAK 3 50 220 TIDAK 4 60 300 TIDAK 5 100 80 TIDAK 6 120 150 TIDAK 7 130 220 TIDAK 8 150 110 TIDAK 9 160 150 TIDAK 10 200 30 TIDAK 11 90 500 YA 12 150 400 YA 13 250 300 YA 14 270 200 YA 15 300 120 YA 16 320 210 YA 17 350 330 YA 18 400 100 YA 19 450 50 YA 20 500 500 YA 21 210 160 ? 0 50 100 150 200 250 300 350 400 450 500 550 0 50 100 150 200 250 300 350 400 450 500 550 BLOK PANGGILAN Bonus = Tidak Bonus = Ya Pelanggan baru. Apakah termasuk segitiga atau lingkaran?
  • 12. 1. Menggunakan Probabilitas Bonus = Tidak Bonus = Ya Pelanggan baru. Apakah termasuk segitiga atau lingkaran? Teknik ini menggunakan probabilitas/peluang. Jika nilai yang akan dihitung bersifat nominal (angka, nomor, summary), maka ubah terlebih dahulu menjadi kategorial. Nilai pada Atribut Panggilan dibagi menjadi 3, yaitu Sedikit, Cukup dan Banyak. Sedangkan untuk Atribut Blok dibagi menjadi Rendah, Sedang dan Tinggi. Pengubahan jenis data nominal menjadi kategorial dilakukan untuk memudahkan dalam proses perhitungan. Range/Jarak nilai antara Sedikit, Cukup dan Banyak pada atribut Panggilan dibuat sesuai dengan aturan pakar atau ahli. Misal, untuk nilai Sedikit adalah 0 – under 250 dan sebagainya. Hal ini berlaku juga untuk atribut Blok. Dengan menggunakan teknik statistic seperti Theorema Bayes, didapatkan hasil klasifikasi untuk data uji yaitu data uji tidak mendapatkan bonus. Karena berada pada area Bonus = Tidak. 0 50 100 150 200 250 300 350 400 450 500 550 0 50 100 150 200 250 300 350 400 450 500 550 BLOK PANGGILAN Rendah Sedang Tinggi Sedikit Cukup Banyak
  • 13. 2. Menggunakan Aturan IF ELSE Bonus = Tidak Bonus = Ya Pelanggan baru. Apakah termasuk segitiga atau lingkaran? Teknik ini mudah dilakukan. Karena hanya dibutuhkan pembatas untuk X dan Y. Pembatas ini berfungsi sebagai garis pemisah antara satu aturan IF dengan aturan IF yang lain. Misalnya terdapat aturan: IF Panggilan < 225 AND Blok < 350 THEN Bonus = Tidak (segitiga) ELSE Bonus = Ya (lingkaran). Dengan aturan tersebut, data uji akan diklasifikasikan sebagai pelanggan yang tidak mendapatkan bonus. 0 50 100 150 200 250 300 350 400 450 500 550 0 50 100 150 200 250 300 350 400 450 500 550 BLOK PANGGILAN Garis pemisah yang sejajar antara sumbu X dan sumbu Y.
  • 14. 3. Menggunakan Garis Keputusan Bonus = Tidak Bonus = Ya Pelanggan baru. Apakah termasuk segitiga atau lingkaran? Teknik ini menggunakan perhitungan matematis untuk mendapatkan hasil garis miring dengan gradient tertentu. Setelah ditemukan hasil garis miring seperti pada gambar, cukup tambahkan aturan IF sederhana, IF data baru berada di bawah garis THEN segitiga (Bonus = tidak) ELSE lingkaran (bonus = ya). Sehingga data uji termasuk kepada segitiga. Artinya pelanggan tersebut tidak layak mendapatkan bonus. Karena materi ini baru mengenalkan konsep dasar. Jadi pelajari saja dulu dasar-dasar klasifikasinya. Jika penasaran dengan perhitungan matematisnya, silakan cari terlebih sendiri untuk menambah wawasan dan pengetahuan. 0 50 100 150 200 250 300 350 400 450 500 550 0 50 100 150 200 250 300 350 400 450 500 550 BLOK PANGGILAN Buat garis miring menggunakan teknik gradien sedemikian
  • 15. 4. Menggunakan Statistik Average Distance Bonus = Tidak Bonus = Ya Pelanggan baru. Apakah termasuk segitiga atau lingkaran? Teknik ini mengandalkan total jarak dari titik yang diuji dengan titik data yang sudah ada. Jumlah jarak tersingkat adalah hasil yang diambil. Dari gambar di samping terlihat bahwa total jarak tersingkat yang didapat oleh data uji adalah segitiga. Sehingga data uji tidak layak mendapatkan bonus. Mungkin ada yang bertanya, bagaimana kita dapat menghitung total jaraknya secara matematis jika data tersebut tanpa gambar/grafik? Jawab: Mudah sekali. Kalau bisa menghitung jarak pada gambar, seharusnya di tabel lebih mudah lagi. 0 50 100 150 200 250 300 350 400 450 500 550 0 50 100 150 200 250 300 350 400 450 500 550 BLOK PANGGILAN Hitung total jarak ke semua data yang ada. Piliih class/label yang memiliki jarak minimum.
  • 16. 0 50 100 150 200 250 300 350 400 450 500 550 0 50 100 150 200 250 300 350 400 450 500 550 BLOK PANGGILAN 5. Menggunakan Pengaruh Jumlah Data Tetangga Bonus = Tidak Bonus = Ya Pelanggan baru. Apakah termasuk segitiga atau lingkaran? Pengaruh dari data tetangga terdekat ditentukan oleh sebanyak jumlah k yang diinginkan. Misal dalam hal ini, k yang dipilih adalah 3, maka ambil data tetangga sebanyak 3 data. Dari ke-3 data tersebut, mana yang lebih banyak muncul. Apakah lingkaran atau segitiga. Jumlah terbanyaklah yang menentukan class/label. Dari gambar di samping, dapat diketahui bahwa data yang diuji berubah menjadi segitiga. Artinya dengan panggilan = 210 dan blok = 160, pelanggan tersebut tidak layak mendapatkan bonus.
  • 17. 6. Menggunakan Titik Pusat Kelas Bonus = Tidak Bonus = Ya Pelanggan baru. Apakah termasuk segitiga atau lingkaran? Teknik ini memerlukan titik pusat dari setiap class untuk diambil jarak ke data uji. Jarak yang paling minimum menjadi hasil keputusan. Titik pusat didapatkan dari hasil perhitungan rata-rata dari setiap class. Beberapa cara yang dapat dilakukan untuk menghasilkan nilai rata-rata seperti mean, median dan modus. Dari gambar di samping, dapat diketahui bahwa data uji diklasifikasikan kepada segitiga, karena jaraknya lebih dekat. Artinya pelanggan tersebut tidak layak mendapatkan bonus. 0 50 100 150 200 250 300 350 400 450 500 550 0 50 100 150 200 250 300 350 400 450 500 550 BLOK PANGGILAN Menentukan sebuah objek data sebagai titik pusat dari masing- masing class. kemudian tarik garis ke data baru. Jarak minimum menjadi keputusan klasifikasi.
  • 18. 7. Menggunakan Jarak Terdekat Dengan Data Tetangga Bonus = Tidak Bonus = Ya Pelanggan baru. Apakah termasuk segitiga atau lingkaran? Teknik ini mudah dilakukan. Ambil beberapa data dari setiap class, kemudian cari jarak minimum untuk dipilih sebagai keputusan data uji. Pada gambar di samping, k yang dipakai adalah k = 3, Dari ketiga data yang dipilih, ternyata segitiga memiliki jarak minimum dari data uji. Sehingga data uji menjadi segitiga. Artinya tidak mendapatkan bonus. 0 50 100 150 200 250 300 350 400 450 500 550 0 50 100 150 200 250 300 350 400 450 500 550 BLOK PANGGILAN Pilih beberapa data dari setiap class yang terdekat dengan data uji. Jarak minimum yang dipilih sebagai keputusan untuk data uji
  • 19. Tugas  • Cari contoh kasus yang terkait dengan klasifikasi. Lakukan analisis bagaimana proses menyelesaikan kasus tersebut menggunakan teknik yang sudah dijelaskan. • Jika dataset tidak memiliki label, apa yang harus dilakukan? Bagaimana proses labeling dilakukan agar dataset tetap asli (karena proses labeling biasanya bersifat subjektif)? • Apakah ada syarat tertentu suatu dataset boleh diolah dengan teknik klasifikasi seperti penjelasan sebelumnnya? Jika ada, jelaskan alasannya! • Bagaimana cara Anda bisa yakin dengan teknik yang Anda gunakan adalah benar? Bagaimana cara Anda melakukan pembuktian terhadap hal tersebut?