Makalah ini menganalisis data 16 orang yang melakukan diet selama 4 bulan untuk memprediksi pengaruh kadar trigliserida terhadap keberhasilan diet menggunakan model decision tree. Hasilnya menunjukkan bahwa pemilik kadar trigliserida akhir di atas 140 diprediksi gagal diet, sedangkan kadar awal di atas 108 diprediksi berhasil diet.
POWER POINT MODUL 1 PEBI4223 (PENDIDIKAN LINGKUNGAN HIDUP)
Tri Yani Akhirina dan Fitriana Destiawati
1. Penerapan Model Decision Tree pada Analisis Prediksi Keberhasilan
Diet berdasarkan Kadar Trigliserida (Lemak pada Darah)
1
Tri Yani Akhirina1, Fitriana Destiawati2
Universitas Indraprasta PGRI, alamat, azizahputriku@gmail.com
2
Universitas Indraprasta PGRI, honeyzone86@gmail.com
ABSTRAK
Dalam makalah ini menjelaskan tentang penerapan model decision tree pada analisis
prediksi keberhasilan diet berdasarkan kadar trigliserida atau yang dikenal dengan lemak
pada darah. Hasil dari model decision tree pemilik kadar trigliserida tahap akhir pada
bulan ke empat lebih dari 140 diprediksi tidak berhasil dalam melakukan diet dan Pemilik
kadar trigliserida awal lebih dari 108 diprediksi akan berhasil melakukan diet. Pemilik
kadar trigliserida pada tahap akhir kurang dari sama dengan 140 dan memiliki kadar
trigliserida awal kurang dari 108 diprediksi tidak berhasil melakukan diet. Sehingga dapat
disimpulkan bahwa kadar trigliserida mempengaruhi keberhasilan diet dan pada kadar
lebih dari 140 diprediksi tidak akan berhasil melakukan diet. Hasil ini mendekatii
pernyataan yang terdapat pada artikel kesehatan bahwa kadar normal adalah kurang dari
150.
Kata kunci: decision tree, diet, trigliserida, lemak darah
1. Pendahuluan
Pengolahan data memiliki banyak manfaat salah satu dalam membuat keputusan yang
lebih dikenal sistem pengambilan keputusan. Tentunya diperlukan analisa dari setiap
data yang berjumlah banyak sehingga pada akhirnya sampai pada titik kesimpulan untuk
mengambil keputusan berdasarkan data. Salah satu solusi untuk mengambil keputusan
adalah Data Mining. Menurut (Abdul K.,2010), Data mining merupakan serangkaian
proses untuk menggali suatu informasi terpendam dari suatu kumpulan data berupa
pengetahuan yang selama ini tidak diketahui secara manual. Terdapat teknologi data
mining yang telah telah dikembangkan diantaranya clustering, classification, association
rule, neural network, decision tree, dan lain-lain.
Decision tree merupakan salah satu teknik yang dapat digunakan untuk melakukan
klasifikasi terhadap sekumpulan objek atau record. Teknik ini terdiri dari kumpulan
decision node, dihubungkan oleh cabang, bergerak ke bawah dari root node sampai
berakhir di leaf node. Pengembangan decision tree dimulai dari root node, berdasarkan
konvensi ditempatkan di bagian atas diagram decision tree, semua atribut dievaluasi
pada decision node, dengan tiap outcome yang mungkin menghasilkan cabang. Tiap
abang dapat masuk baik ke decision node yang lain ataupun ke leaf node
(Wibisono,2007).
Persyaratan yang harus dipenuhi dalam penerapan algoritma decision tree (Wibisono,
2007)
1. Algoritma
decision tree
merepresentasikan supervised
learning sehingga
membutuhkan target preclassified.
2. Training data set harus kaya dan bervariasi.
3. Kelas atribut target harus diskrit.
Dalam decision tree terdapat ruang data sample (S) yang digunakan untuk training.
Dalam data sample tersebut terdapat (P+) jumlah data yang bersolusi negative (tidak
mendukung) dan yang bersolusi positive (mendukung). Data sample menentukan
Entropy. Entropy(S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat
mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample (S).
Persamaan Entropy adalah sebagai berikut:
……………………………………………(1)
Untuk menentukan node awal pada tree sehingga menghasilkan rule adalah atribut yang
memiliki entropy terkecil (Gambetta, 2003).
86
2. Banyak orang yang kerap kali tertarik melakukan diet untuk menurunkan berat badanya
karena berat badan yang melebihi batas normal. Berdasarkan ilmu kesehatan dan
beberapa artilkel kesehatan berat badan yang berlebihan adalah akibat dari nafsu makan
yang terlalu tinggi sehingga lemak dalam darah meningkat. Lemak dalam darah ini
disebut Trigliserida. Trigliserida adalah lemak. Semua lemak yang kita makan ialah
trigliserida. Mereka lalu ditranspor melalui aliran darah untuk dimanfaatkan sebagai
sumber energi tubuh.
Asam lemak yang membentuk trigliserida dimanfaatkan sebagai sumber energi yang
diperlukan oleh otot-otot tubuh untuk bekerja atau disimpan sebagai cadangan energi
dalam bentuk lemak. Mirip dengan yang terjadi dengan kelebihan kolesterol atau gula
darah, kadar trigliserida yang berlebihan dalam darah dapat melahirkan berbagai
problem kesehatan. Pengukuran kadar trigliserida mesti dikerjakan setelah puasa selama
12-14 jam. Di Amerika Serikat patokan nilai yang digunakan adalah berdasarkan
rekomendasi yang berasal dari National Cholesterol Education Program, sebagaimana
tersebut di bawah ini:
- Acceptable (dapat diterima) kurang dari 200
- Borderline high (perbatasan tinggi) 200-400
- Tinggi 400-1000
- Sangat tinggi lebih tinggi dari 1000
Diet Study ini merupakan salah satu kasus yang cukup menarik bagi penulis.
Berdasarkan data dari hasil beberapa orang yang sudah melakukan diet, penulis
mencoba menganalisa data tersebut untuk mendapatkan kesimpulan. Penulis
menggunakan salah satu teknik dari data mining yaitu menggunakan decision tree
dengan case tool Rapid Miner 5. Perangkat lunak ini sebagai Case Tool dalam sistem
pengambilan keputusan secara komputerisasi sehingga akan menghasilkan akurasi dan
grafik sesuai data yang diolah. Tujuan Penulisan ini adalah untuk menganalisa data dari
sejumlah orang yang sudah melakukan diet dan memprediksi apakah kadar trigliserida
mempengaruhi keberhasilan diet.
Metode yang digunakan penulis adalah pendekatan kualitatif yaitu dalam menentukan
variabel-variabel yang sesuai dengan kebutuhan sehingga mendapatkan atribut dan label
untuk diubah menjadi rule dalam teknik decision tree. Selanjutnya penulis menggunakan
pendekatan kuantitatif dengan melakukan percobaan terhadap sejumlah orang untuk
melakukan diet dalam waktu 4 bulan dan merekam setiap bulannya hasilnya secara
teratur sehingga penulis memperoleh sejumlah data yang dibutuhkan untuk memprediksi
apa yang mempengaruhi dari keberhasilan diet yang dilakukan banyak orang.
Selanjutnya penulis akan melakukan perbandingan dengan data kadar trigliserida dari
National Cholesterol Education Program (Gambar 1).
2. Pembahasan
Variabel yang digunakan penulis berdasarkan data kesehatan adalah usia (age), jenis
kelamin (gender), kadar trigliserida pada bulan pertama hingga bulan ke-empat (tg0, tg1,
tg2, tg3,tg4 dan berat badan pada bulan pertama hingga bulan keempat. Penelitian
dilakukan terhadap 16 orang yang memiliki range usia dari 45-63 tahun.
Berikut data yang terkumpul:
Tabel 1. Data Diet Study
Patid
Age
G
t0
t1
t2
t3
t4
w0
w1
w2
w3
w4
Result
1
45
0
180
148
106
113
100
198
196
193
188
192
Yes
2
56
0
139
94
119
75
92
237
233
232
228
225
Yes
3
50
0
152
185
86
149
118
233
231
229
228
226
Yes
4
46
1
112
145
136
149
82
179
181
177
174
172
Yes
5
64
0
156
104
157
79
97
219
217
215
213
214
Yes
6
49
1
167
138
88
107
171
169
166
165
162
161
No
7
63
0
138
132
146
143
132
222
219
215
215
210
Yes
87
4. Gambar 2. Data View
Import data excel menjadi data Respository dalam RapidMiner 5.0 menjadikan variable
sebagai atribut yang dibutuhkan untuk dijadika rule dalam pengambilan keputusan. Dari
berbagai atribut terdapat satu atribut yang dibuat sebagai target atribut atau label.
Sebagian besar data merupakan data yang numerik.
Pengolahan data pada RapidMiner 5.0 ini menggunakan model Decision Tree dengan
teknik validasi sehingga mencapai akurasi/ kecermatan yang memiliki presentase
maksimal. Pada gambar 3 dibawah ini digambarkan proses modeling decision tree
dengan menggunakan teknik validasi.
Gambar 3. Validasi Data
Pada prosesnya data yang akan diolah dihubungkan dengan node split validation yang
ada pada folder evaluation. Didalam node split validation inilah akan memvalidasikan
data yang dimodelkan kedalam decision tree. Pada gambar 4 ditampilkan proses
memvalidasikan model decision tree.
Gambar 4. Modeling Decision Tree dalam Node Validation
89
5. Sebelumnya sudah dijelaskan bahwa fungsi validation adalah memaksimalkan nilai
akurasi pengolahan data. Apakah bisa tanpa validation? Tentu saja bisa akan tetapi nilai
akurasinya akan berbeda.
Selanjutnya data di Run untuk melihat hasil model decision tree berupa grafis pohon.
Gambar 5. Grafik Decision Tree
Data yang sudah diolah dengan menggunakan RapidMiner5.0 menghasilkan grafis
pohon sehingga tampaklah dengan jelas algoritma pengambilan keputusan.
Berdasarkan teori pada studi pustaka sebelumnya dinyatakan bahwa data semple
yang memiliki entropy terkecillah yang menjadi node awal. Terlihat melalui
Software DSS RapidMiner 5.0 secara otomatis menyatakan bahwa t4 atau tg4
memiliki entropy terkecil. Mengapa bukan gender atau Age atau wtg Karena
entropy mereka lebih tinggi dibandingkan kadar trigilserida. Perhatikan
perhitungan entropy pada data gender dibawah ini.
Tabel 2. Data Gender
Gender
0
0
1
1
Result
Yes
No
Yes
No
Jumlah
7
3
2
4
Gender=0, q1=-7/10 log2 7/10-3/10 log2 3/10=-0.7*-0.51457317283-0.3*1.73696559417= 0.881291.
Gender=1, q2=-2/6 log2 2/6-4/6 log2 4/6 -2/6*-1.59946207042-4/6*0.577766999317= 0.918332.
Maka Entropy Gender adalah:
=10/16*0.881291+6/16*0.918332= 0.895181=0.9 - merupakan nilai entropy
yang tinggi.
Penulis tidak menjabarkan nilai entropy semua atribut karena instance pada
atribut memiliki nilai yang sangat kecil dan numeric sehingga dapat dipastikan
entropy yang dapat dijadikan node awal bukanlah gender. Dan sudah pasti sulit
jika secara manual dihitung entropynya oleh karena itu penulis menganalisa
menggunakan RapidMiner 5.0 untuk mempermudah analisa.
Berikut text view yang dihasilkan:
Gambar 6. Text View Decision Tree
Berdasarkan Text View makan Rule yang dihasilkan adalah sebagai berikut:
90
6. If t4 > 140 then result=no
Else If t4 <= 140 then
If t0 > 108 then result=yes
Else If t0 <= 108 then result=no;
Berikut akurasi dan precision yang digambarkan:
Gambar 7. Accuracy
Gambar 8. Precision
Tampak jelas bahwa akurasi/ kecermatan yang diperoleh dari model decision tree adalah
60% dengan precision 33% dimana positive class= no.
3. Kesimpulan
Maka kesimpulan yang dapat diperoleh dari hasil pemodelan decision tree adalah:
1. Pemilik kadar Trigliserida tahap akhir pada bulan ke empat (t4) lebih dari 140
diprediksi tidak berhasil dalam melakukan diet (menurunkan berat badan).
2. Pemilik kadar trigliserida pada tahap terakhir (t4) kurang dari atau sama dengan 140
dan memiliki kadar trigliserida awal lebih dari 108 diprediksi akan berhasil melakukan
diet.
3. Pemilik kadar trigliserida pada tahap akhir (t4) kurang dari sama dengan 140 dan
memiliki kadar trigliserida awal kurang dari 108 diprediksi tidak berhasil melakukan
diet.
Berdasarkan kesimpulan tersebut jelas digambarkan bahwa kadar trigliserida
mempengaruhi keberhasilan diet dan pada kadar lebih dari 140 diprediksi tidak akan
berhasil melakukan diet. Hasil ini mendekati pernyataan yang terdapat pada artikel
kesehatan bahwa kadar normal adalah kurang dari 150.
Daftar Pustaka
1. Basuki, A., Syarif, I., 2003. Decision Tree. Politeknik Elektronika Negeri Surabaya.
2. Gambetta, W., 2003, Pohon Keputusan (Decision Tree), Institut Teknologi
Bandung,Bandung.
3. Kadir, M.,A., 2010, Perbandingan Performance Algoritma Decision Tree CART dan
CHAID. Bandung.
4. Wibisono, Y., Y., 2007, Perbandingan Performansi Algoritma Decision Tree C5.0,
CART dan CHAD : Kasus Prediksi Status Resiko Kredit di Bank X, Seminar,
2007(Snati) 0-3. Unpar, Bandung.
5. Obat Trigliserida. Http://www.trigliserida.com/ [14.00 PM, 25 Nov 2012].
6. 2011.
Tips
Menurunkan
Kadar
Trigliserida.
Http://www.didiksugiarto.com/2009/05/tips-menurunkan-kadar-trigliserida.html [10.44
AM,26 November 2012].
91