Dokumen tersebut membahas konsep dasar klasifikasi, yang merupakan proses mengelompokkan data baru ke dalam kelas yang telah ditentukan sebelumnya berdasarkan atribut-atributnya. Diberikan contoh kasus klasifikasi pelanggan untuk menentukan bonus berdasarkan panggilan dan blok. Beberapa teknik klasifikasi dijelaskan seperti menggunakan probabilitas, aturan IF-ELSE, garis keputusan, jarak rata-rata
2. Tentang Saya
• Irwansyah Saputra
• Dosen Ilmu Komputer
• Mahasiswa S3 Ilmu Komputer IPB University
• Bidang Kajian: Computational Intelligence &
Optimization (Data mining, machine
learning, artificial intelligence)
Halo semuanya, saya suka belajar tentang
segala hal dan suka berbagi pengetahuan. Saya
juga sering menjadi pembicara di berbagai
seminar.
Kontak yang bisa dihubungi:
WhatsApp: 0895323302241
Instagram: @irwansight_
Web: https://irw.one
3. Disclaimer
Materi ini digunakan sebagai bahan ajar Program Data Mining di
Multinity.id
Silakan gunakan, mohon untuk tidak mengubah template.
Jika Anda memiliki kesulitan dalam memahami materi pada slide
ini, silakan belajar di Multinity.id
4. Referensi
1. Jiawei Han and Micheline Kamber, Data Mining: Concepts and Techniques Third
Edition, Elsevier, 2012
2. Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine Learning
Tools and Techniques 3rd Edition, Elsevier, 2011
3. Markus Hofmann and Ralf Klinkenberg, RapidMiner: Data Mining Use Cases and
Business Analytics Applications, CRC Press Taylor & Francis Group, 2014
4. Daniel T. Larose, Discovering Knowledge in Data: an Introduction to Data Mining,
John Wiley & Sons, 2005
5. Ethem Alpaydin, Introduction to Machine Learning, 3rd ed., MIT Press, 2014
6. Florin Gorunescu, Data Mining: Concepts, Models and Techniques, Springer,
2011
7. Oded Maimon and Lior Rokach, Data Mining and Knowledge Discovery Handbook
Second Edition, Springer, 2010
8. Warren Liao and Evangelos Triantaphyllou (eds.), Recent Advances in Data Mining
of Enterprise Data: Algorithms and Applications, World Scientific, 2007
9. Suyanto, DATA MINING: Untuk klasifikasi dan klasterisasi data, Penerbit
Informatika, 2017
5. APA ITU KLASIFIKASI?
Secara umum, klasifikasi itu berarti mengumpulkan sesuatu ke dalam kelompok yang sejenis.
Pengelempokkan tersebut berdasarkan data yang sudah ada sebelumnya.
Syarat masuk jurusan science:
1. Nilai IPA > 70
2. Berpikir analitik
3. Senang menghitung
Syarat masuk jurusan ekonomi:
1. Nilai IPS > 70
2. Berpikir sosial
3. Senang berkomunikasi
Contoh kasus:
6. CONTOH SEDERHANA KLASIFIKASI
DIAZ ZAID
Diaz & Zaid adalah lulusan SMP yang
akan masuk ke sekolah ini. Tapi
mereka tidak tahu jurusan mana yang
harus diambil. Maka dilakukan tes oleh
sekolah ini untuk menyeleksi
keduanya.
ZAID
DIAZ
Hasil seleksi dari pihak sekolah
menyatakan bahwa Diaz sesuai
dengan syarat-syarat jurusan
Science.
Hasil seleksi dari pihak sekolah
menyatakan bahwa Zaid sesuai
dengan syarat-syarat jurusan
ekonomi
Sehingga, Diaz yang sebelumnya tidak
memiliki class, dimasukkan kedalam
klasifikasi jurusan Science yang
didalamnya terdapat siswa-siswa yang
sejenis.
Begitupun dengan Zaid yang
sebelumnya tidak memiliki class,
dimasukkan kedalam klasifikasi jurusan
Ekonomi yang didalamnya terdapat
siswa-siswa yang sejenis.
7. Dari kasus tersebut, dapat dianalisis ciri-ciri klasifikasi adalah
2. Menentukan class untuk data baru berdasarkan atribut/ketentuan
yang dimiliki oleh data latih. Misalnya, Nilai IPA > 70, berpikir sosial,
senang berkomunikasi dan lain sebagainya.
1. Mengelompokkan data baru kedalam class yang sudah ditentukan sebelumnya.
Class baru tidak akan muncul karena sudah dibatasi oleh class yang ada. Yaitu
Science dan Ekonomi.
3. Klasifikasi sangat bergantung pada data latih. Dalam kasus ini data latihnya adalah para
siswa yang sudah masuk ke dalam class Science dan Ekonomi. Semakin kuantitatif dan
random, maka data latih semakin baik.
8. Contoh Kasus dengan Dataset
• Berdasarkan riwayat transaksi tahun sebelumnya, ada 20 data yang dapat digunakan sebagai acuan
perusahaan untuk menentukan bonus kepada pelanggannya.
• Jadi, 20 data ini akan dijadikan data latih untuk mengklasifikasikan pelanggan ke 21 dan seterusnya,
layak atau tidak mendapatkan bonus.
• Data ke 21 dan seterusnya disebut dengan data uji (testing).
NOMOR PANGGILAN BLOK BONUS
1 30 50 TIDAK
2 40 140 TIDAK
3 50 220 TIDAK
4 60 300 TIDAK
5 100 80 TIDAK
6 120 150 TIDAK
7 130 220 TIDAK
8 150 110 TIDAK
9 160 150 TIDAK
10 200 30 TIDAK
11 90 500 YA
12 150 400 YA
13 250 300 YA
14 270 200 YA
15 300 120 YA
16 320 210 YA
17 350 330 YA
18 400 100 YA
19 450 50 YA
20 500 500 YA
21 210 160 ?
Atribut Umum Class/Label
o Kolom PANGGILAN dan BLOK digunakan sebagai acuan untuk menentukan bonus. Sehingga posisi
keduanya disebut dengan Atribut Umum.
o Kolom BONUS adalah tempat untuk mengisi layak atau tidaknya pelanggan mendapatkan bonus.
Sehingga disebut dengan atribut Class/Label.
o Kolom NOMOR tidak termasuk atribut karena tidak memiliki pengaruh apapun dalam menentukan
Bonus.
• Diaz memiliki perusahaan seluler. Dia memiliki 2 kriteria yaitu PANGGILAN yang sering dilakukan dan
BLOK untuk menentukan layak tidaknya pelanggan mendapatkan bonus.
9. Contoh Kasus dengan Dataset
NOMOR PANGGILAN BLOK BONUS
1 30 50 TIDAK
2 40 140 TIDAK
3 50 220 TIDAK
4 60 300 TIDAK
5 100 80 TIDAK
6 120 150 TIDAK
7 130 220 TIDAK
8 150 110 TIDAK
9 160 150 TIDAK
10 200 30 TIDAK
11 90 500 YA
12 150 400 YA
13 250 300 YA
14 270 200 YA
15 300 120 YA
16 320 210 YA
17 350 330 YA
18 400 100 YA
19 450 50 YA
20 500 500 YA
21 210 160 ?
Atribut Umum Class/Label
Pertanyaannya adalah….
Apakah pelanggan ke 21 akan mendapatkan bonus? Bagaimana cara
menentukannya? Dan teknik apa yang bisa digunakan untuk menentukannya?
Ada banyak teknik yang dapat digunakan untuk menyelesaikan permasalahan ini.
seperti,
1. Menggunakan probabilitas
2. Menggunakan aturan IF ELSE
3. Menggunakan Garis Keputusan
4. Menggunakan Statistik Average Distance
5. Menggunakan pengaruh jumlah data tetangga
6. Menggunakan titik pusat kelas
7. Menggunakan jarak terdekat dengan data tetangga
8. Teknik ke 8 hingga seterusnya lumayan sulit dipraktikkan. Jadi menyusul saja.
Jawabannya adalah….
10. Sebelum kita bahas penyelesaiannya,
Tahapan paling pertama yang harus dilakukan adalah membuat SEBARAN
DATA, visualisasikan dalam bentuk ruang dua dimensi,
Agar lebih mudah dimengerti
11. VISUALISASI SEBARAN DATA KEDALAM RUANG 2 DIMENSI
NOMOR PANGGILAN BLOK BONUS
1 30 50 TIDAK
2 40 140 TIDAK
3 50 220 TIDAK
4 60 300 TIDAK
5 100 80 TIDAK
6 120 150 TIDAK
7 130 220 TIDAK
8 150 110 TIDAK
9 160 150 TIDAK
10 200 30 TIDAK
11 90 500 YA
12 150 400 YA
13 250 300 YA
14 270 200 YA
15 300 120 YA
16 320 210 YA
17 350 330 YA
18 400 100 YA
19 450 50 YA
20 500 500 YA
21 210 160 ?
0
50
100
150
200
250
300
350
400
450
500
550
0 50 100 150 200 250 300 350 400 450 500 550
BLOK
PANGGILAN
Bonus = Tidak
Bonus = Ya
Pelanggan baru. Apakah termasuk
segitiga atau lingkaran?
12. 1. Menggunakan Probabilitas
Bonus = Tidak
Bonus = Ya
Pelanggan baru. Apakah termasuk
segitiga atau lingkaran?
Teknik ini menggunakan probabilitas/peluang. Jika nilai yang akan
dihitung bersifat nominal (angka, nomor, summary), maka ubah
terlebih dahulu menjadi kategorial. Nilai pada Atribut Panggilan
dibagi menjadi 3, yaitu Sedikit, Cukup dan Banyak.
Sedangkan untuk Atribut Blok dibagi menjadi Rendah, Sedang dan
Tinggi.
Pengubahan jenis data nominal menjadi kategorial dilakukan
untuk memudahkan dalam proses perhitungan.
Range/Jarak nilai antara Sedikit, Cukup dan Banyak pada atribut
Panggilan dibuat sesuai dengan aturan pakar atau ahli. Misal,
untuk nilai Sedikit adalah 0 – under 250 dan sebagainya.
Hal ini berlaku juga untuk atribut Blok.
Dengan menggunakan teknik statistic seperti Theorema Bayes,
didapatkan hasil klasifikasi untuk data uji yaitu data uji tidak
mendapatkan bonus. Karena berada pada area Bonus = Tidak.
0
50
100
150
200
250
300
350
400
450
500
550
0 50 100 150 200 250 300 350 400 450 500 550
BLOK
PANGGILAN
Rendah
Sedang
Tinggi
Sedikit Cukup Banyak
13. 2. Menggunakan Aturan IF ELSE
Bonus = Tidak
Bonus = Ya
Pelanggan baru. Apakah termasuk
segitiga atau lingkaran?
Teknik ini mudah dilakukan. Karena hanya dibutuhkan
pembatas untuk X dan Y. Pembatas ini berfungsi sebagai
garis pemisah antara satu aturan IF dengan aturan IF yang
lain.
Misalnya terdapat aturan: IF Panggilan < 225 AND Blok <
350 THEN Bonus = Tidak (segitiga) ELSE Bonus = Ya
(lingkaran).
Dengan aturan tersebut, data uji akan diklasifikasikan
sebagai pelanggan yang tidak mendapatkan bonus.
0
50
100
150
200
250
300
350
400
450
500
550
0 50 100 150 200 250 300 350 400 450 500 550
BLOK
PANGGILAN
Garis pemisah yang sejajar antara sumbu X dan sumbu Y.
14. 3. Menggunakan Garis Keputusan
Bonus = Tidak
Bonus = Ya
Pelanggan baru. Apakah termasuk
segitiga atau lingkaran?
Teknik ini menggunakan perhitungan matematis untuk
mendapatkan hasil garis miring dengan gradient tertentu.
Setelah ditemukan hasil garis miring seperti pada gambar, cukup
tambahkan aturan IF sederhana,
IF data baru berada di bawah garis THEN segitiga (Bonus = tidak)
ELSE lingkaran (bonus = ya). Sehingga data uji termasuk kepada
segitiga. Artinya pelanggan tersebut tidak layak mendapatkan
bonus.
Karena materi ini baru mengenalkan konsep dasar. Jadi pelajari
saja dulu dasar-dasar klasifikasinya.
Jika penasaran dengan perhitungan matematisnya, silakan cari
terlebih sendiri untuk menambah wawasan dan pengetahuan.
0
50
100
150
200
250
300
350
400
450
500
550
0 50 100 150 200 250 300 350 400 450 500 550
BLOK
PANGGILAN
Buat garis miring menggunakan teknik gradien sedemikian
15. 4. Menggunakan Statistik Average Distance
Bonus = Tidak
Bonus = Ya
Pelanggan baru. Apakah termasuk
segitiga atau lingkaran?
Teknik ini mengandalkan total jarak dari titik yang diuji
dengan titik data yang sudah ada.
Jumlah jarak tersingkat adalah hasil yang diambil.
Dari gambar di samping terlihat bahwa total jarak
tersingkat yang didapat oleh data uji adalah segitiga.
Sehingga data uji tidak layak mendapatkan bonus.
Mungkin ada yang bertanya, bagaimana kita dapat
menghitung total jaraknya secara matematis jika data
tersebut tanpa gambar/grafik?
Jawab: Mudah sekali. Kalau bisa menghitung jarak pada
gambar, seharusnya di tabel lebih mudah lagi.
0
50
100
150
200
250
300
350
400
450
500
550
0 50 100 150 200 250 300 350 400 450 500 550
BLOK
PANGGILAN
Hitung total jarak ke semua data yang ada. Piliih class/label
yang memiliki jarak minimum.
16. 0
50
100
150
200
250
300
350
400
450
500
550
0 50 100 150 200 250 300 350 400 450 500 550
BLOK
PANGGILAN
5. Menggunakan Pengaruh Jumlah Data Tetangga
Bonus = Tidak
Bonus = Ya
Pelanggan baru. Apakah termasuk
segitiga atau lingkaran?
Pengaruh dari data tetangga terdekat ditentukan oleh
sebanyak jumlah k yang diinginkan.
Misal dalam hal ini, k yang dipilih adalah 3, maka ambil data
tetangga sebanyak 3 data. Dari ke-3 data tersebut, mana
yang lebih banyak muncul. Apakah lingkaran atau segitiga.
Jumlah terbanyaklah yang menentukan class/label.
Dari gambar di samping, dapat diketahui bahwa data yang
diuji berubah menjadi segitiga. Artinya dengan panggilan =
210 dan blok = 160, pelanggan tersebut tidak layak
mendapatkan bonus.
17. 6. Menggunakan Titik Pusat Kelas
Bonus = Tidak
Bonus = Ya
Pelanggan baru. Apakah termasuk
segitiga atau lingkaran?
Teknik ini memerlukan titik pusat dari setiap class untuk
diambil jarak ke data uji. Jarak yang paling minimum
menjadi hasil keputusan.
Titik pusat didapatkan dari hasil perhitungan rata-rata dari
setiap class. Beberapa cara yang dapat dilakukan untuk
menghasilkan nilai rata-rata seperti mean, median dan
modus.
Dari gambar di samping, dapat diketahui bahwa data uji
diklasifikasikan kepada segitiga, karena jaraknya lebih dekat.
Artinya pelanggan tersebut tidak layak mendapatkan bonus.
0
50
100
150
200
250
300
350
400
450
500
550
0 50 100 150 200 250 300 350 400 450 500 550
BLOK
PANGGILAN
Menentukan sebuah objek data sebagai titik pusat dari masing-
masing class. kemudian tarik garis ke data baru.
Jarak minimum menjadi keputusan klasifikasi.
18. 7. Menggunakan Jarak Terdekat Dengan Data Tetangga
Bonus = Tidak
Bonus = Ya
Pelanggan baru. Apakah termasuk
segitiga atau lingkaran?
Teknik ini mudah dilakukan. Ambil beberapa data dari setiap
class, kemudian cari jarak minimum untuk dipilih sebagai
keputusan data uji.
Pada gambar di samping, k yang dipakai adalah k = 3,
Dari ketiga data yang dipilih, ternyata segitiga memiliki jarak
minimum dari data uji. Sehingga data uji menjadi segitiga.
Artinya tidak mendapatkan bonus.
0
50
100
150
200
250
300
350
400
450
500
550
0 50 100 150 200 250 300 350 400 450 500 550
BLOK
PANGGILAN
Pilih beberapa data dari setiap class yang terdekat dengan data uji.
Jarak minimum yang dipilih sebagai keputusan untuk data uji
19. Tugas
• Cari contoh kasus yang terkait dengan klasifikasi. Lakukan analisis bagaimana
proses menyelesaikan kasus tersebut menggunakan teknik yang sudah
dijelaskan.
• Jika dataset tidak memiliki label, apa yang harus dilakukan? Bagaimana proses
labeling dilakukan agar dataset tetap asli (karena proses labeling biasanya
bersifat subjektif)?
• Apakah ada syarat tertentu suatu dataset boleh diolah dengan teknik klasifikasi
seperti penjelasan sebelumnnya? Jika ada, jelaskan alasannya!
• Bagaimana cara Anda bisa yakin dengan teknik yang Anda gunakan adalah
benar? Bagaimana cara Anda melakukan pembuktian terhadap hal tersebut?