Tri Yani Akhirina dan Fitriana Destiawati

Penerapan Model Decision Tree pada Analisis Prediksi Keberhasilan
Diet berdasarkan Kadar Trigliserida (Lemak pada Darah)
1

Tri Yani Akhirina1, Fitriana Destiawati2
Universitas Indraprasta PGRI, alamat, azizahputriku@gmail.com
2
Universitas Indraprasta PGRI, honeyzone86@gmail.com

ABSTRAK
Dalam makalah ini menjelaskan tentang penerapan model decision tree pada analisis
prediksi keberhasilan diet berdasarkan kadar trigliserida atau yang dikenal dengan lemak
pada darah. Hasil dari model decision tree pemilik kadar trigliserida tahap akhir pada
bulan ke empat lebih dari 140 diprediksi tidak berhasil dalam melakukan diet dan Pemilik
kadar trigliserida awal lebih dari 108 diprediksi akan berhasil melakukan diet. Pemilik
kadar trigliserida pada tahap akhir kurang dari sama dengan 140 dan memiliki kadar
trigliserida awal kurang dari 108 diprediksi tidak berhasil melakukan diet. Sehingga dapat
disimpulkan bahwa kadar trigliserida mempengaruhi keberhasilan diet dan pada kadar
lebih dari 140 diprediksi tidak akan berhasil melakukan diet. Hasil ini mendekatii
pernyataan yang terdapat pada artikel kesehatan bahwa kadar normal adalah kurang dari
150.
Kata kunci: decision tree, diet, trigliserida, lemak darah
1. Pendahuluan
Pengolahan data memiliki banyak manfaat salah satu dalam membuat keputusan yang
lebih dikenal sistem pengambilan keputusan. Tentunya diperlukan analisa dari setiap
data yang berjumlah banyak sehingga pada akhirnya sampai pada titik kesimpulan untuk
mengambil keputusan berdasarkan data. Salah satu solusi untuk mengambil keputusan
adalah Data Mining. Menurut (Abdul K.,2010), Data mining merupakan serangkaian
proses untuk menggali suatu informasi terpendam dari suatu kumpulan data berupa
pengetahuan yang selama ini tidak diketahui secara manual. Terdapat teknologi data
mining yang telah telah dikembangkan diantaranya clustering, classification, association
rule, neural network, decision tree, dan lain-lain.
Decision tree merupakan salah satu teknik yang dapat digunakan untuk melakukan
klasifikasi terhadap sekumpulan objek atau record. Teknik ini terdiri dari kumpulan
decision node, dihubungkan oleh cabang, bergerak ke bawah dari root node sampai
berakhir di leaf node. Pengembangan decision tree dimulai dari root node, berdasarkan
konvensi ditempatkan di bagian atas diagram decision tree, semua atribut dievaluasi
pada decision node, dengan tiap outcome yang mungkin menghasilkan cabang. Tiap
abang dapat masuk baik ke decision node yang lain ataupun ke leaf node
(Wibisono,2007).
Persyaratan yang harus dipenuhi dalam penerapan algoritma decision tree (Wibisono,
2007)
1. Algoritma
decision tree
merepresentasikan supervised
learning sehingga
membutuhkan target preclassified.
2. Training data set harus kaya dan bervariasi.
3. Kelas atribut target harus diskrit.
Dalam decision tree terdapat ruang data sample (S) yang digunakan untuk training.
Dalam data sample tersebut terdapat (P+) jumlah data yang bersolusi negative (tidak
mendukung) dan yang bersolusi positive (mendukung). Data sample menentukan
Entropy. Entropy(S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat
mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample (S).
Persamaan Entropy adalah sebagai berikut:
……………………………………………(1)
Untuk menentukan node awal pada tree sehingga menghasilkan rule adalah atribut yang
memiliki entropy terkecil (Gambetta, 2003).

86

Banyak orang yang kerap kali tertarik melakukan diet untuk menurunkan berat badanya
karena berat badan yang melebihi batas normal. Berdasarkan ilmu kesehatan dan
beberapa artilkel kesehatan berat badan yang berlebihan adalah akibat dari nafsu makan
yang terlalu tinggi sehingga lemak dalam darah meningkat. Lemak dalam darah ini
disebut Trigliserida. Trigliserida adalah lemak. Semua lemak yang kita makan ialah
trigliserida. Mereka lalu ditranspor melalui aliran darah untuk dimanfaatkan sebagai
sumber energi tubuh.
Asam lemak yang membentuk trigliserida dimanfaatkan sebagai sumber energi yang
diperlukan oleh otot-otot tubuh untuk bekerja atau disimpan sebagai cadangan energi
dalam bentuk lemak. Mirip dengan yang terjadi dengan kelebihan kolesterol atau gula
darah, kadar trigliserida yang berlebihan dalam darah dapat melahirkan berbagai
problem kesehatan. Pengukuran kadar trigliserida mesti dikerjakan setelah puasa selama
12-14 jam. Di Amerika Serikat patokan nilai yang digunakan adalah berdasarkan
rekomendasi yang berasal dari National Cholesterol Education Program, sebagaimana
tersebut di bawah ini:
- Acceptable (dapat diterima) kurang dari 200
- Borderline high (perbatasan tinggi) 200-400
- Tinggi 400-1000
- Sangat tinggi lebih tinggi dari 1000
Diet Study ini merupakan salah satu kasus yang cukup menarik bagi penulis.
Berdasarkan data dari hasil beberapa orang yang sudah melakukan diet, penulis
mencoba menganalisa data tersebut untuk mendapatkan kesimpulan. Penulis
menggunakan salah satu teknik dari data mining yaitu menggunakan decision tree
dengan case tool Rapid Miner 5. Perangkat lunak ini sebagai Case Tool dalam sistem
pengambilan keputusan secara komputerisasi sehingga akan menghasilkan akurasi dan
grafik sesuai data yang diolah. Tujuan Penulisan ini adalah untuk menganalisa data dari
sejumlah orang yang sudah melakukan diet dan memprediksi apakah kadar trigliserida
mempengaruhi keberhasilan diet.
Metode yang digunakan penulis adalah pendekatan kualitatif yaitu dalam menentukan
variabel-variabel yang sesuai dengan kebutuhan sehingga mendapatkan atribut dan label
untuk diubah menjadi rule dalam teknik decision tree. Selanjutnya penulis menggunakan
pendekatan kuantitatif dengan melakukan percobaan terhadap sejumlah orang untuk
melakukan diet dalam waktu 4 bulan dan merekam setiap bulannya hasilnya secara
teratur sehingga penulis memperoleh sejumlah data yang dibutuhkan untuk memprediksi
apa yang mempengaruhi dari keberhasilan diet yang dilakukan banyak orang.
Selanjutnya penulis akan melakukan perbandingan dengan data kadar trigliserida dari
National Cholesterol Education Program (Gambar 1).
2. Pembahasan
Variabel yang digunakan penulis berdasarkan data kesehatan adalah usia (age), jenis
kelamin (gender), kadar trigliserida pada bulan pertama hingga bulan ke-empat (tg0, tg1,
tg2, tg3,tg4 dan berat badan pada bulan pertama hingga bulan keempat. Penelitian
dilakukan terhadap 16 orang yang memiliki range usia dari 45-63 tahun.
Berikut data yang terkumpul:
Tabel 1. Data Diet Study
Patid

Age

G

t0

t1

t2

t3

t4

w0

w1

w2

w3

w4

Result

1

45

0

180

148

106

113

100

198

196

193

188

192

Yes

2

56

0

139

94

119

75

92

237

233

232

228

225

Yes

3

50

0

152

185

86

149

118

233

231

229

228

226

Yes

4

46

1

112

145

136

149

82

179

181

177

174

172

Yes

5

64

0

156

104

157

79

97

219

217

215

213

214

Yes

6

49

1

167

138

88

107

171

169

166

165

162

161

No

7

63

0

138

132

146

143

132

222

219

215

215

210

Yes

87

8

63

1

160

128

150

118

123

167

167

166

162

161

Yes

9

52

0

107

120

129

195

174

199

200

196

196

193

No

10

45

0

156

103

126

135

92

233

229

229

229

226

Yes

11

61

1

94

144

114

114

121

179

181

176

173

173

No

12

49

1

107

93

156

148

150

158

153

155

155

154

No

13

61

1

145

107

129

86

159

157

151

150

145

143

No

14

59

0

186

142

128

122

101

216

213

210

210

206

Yes

15

52

0

112

107

103

89

148

257

255

254

252

249

No

16

60

1

104

103

117

79

130

151

146

144

144

140

No

Data yang terkumpul bersumber dari 16 orang yang sudah dipilih untuk melakukan diet
dengan memeriksa perubahan kadar trigliserida dan berat badan secar signifikan dari
waktu ke waktu selama 4 bulan. Definisi dari variable diatas:
a. Patid: id dalam database
h. t4: kadar trigliserida bulan keempat
b. Age: usia
i. w0: berat badan awal
c. G: jenis kelamin
j. w1: berat badan pada kadar tg1
d. t0: kadar awal trigliserida
k. w2: berat badan pada kadar tg2
e. t1: kadar trigliserida bulan pertama
l. w3: berat badan pada kadar tg3
f. t2: kadar trigliserida bulan kedua
m. w4: berat badan pada kadar tg4
g. t3: kadar trigliserida bulan ketiga
Berikut data yang penulis peroleh dari artikel kesehatan:

Gambar 1. Data kadar trigliserida
Berdasarkan data tersebut dapat dilihat bahwa batas normal kadar trigliserida manusia
harus kurang dari 150. Maka melalui data ini penulis mencoba membuktikan apakah
benar kadar trigliserida mempengaruhi berat badan seseorang.
Sumber data penulis merupakan berekstensi excel agar dapat diolah dengan RapidMiner
5.0 maka data harus dimport untuk dikonversikan. Berikut hasil data yang sudah
dikonversi:

88

Gambar 2. Data View
Import data excel menjadi data Respository dalam RapidMiner 5.0 menjadikan variable
sebagai atribut yang dibutuhkan untuk dijadika rule dalam pengambilan keputusan. Dari
berbagai atribut terdapat satu atribut yang dibuat sebagai target atribut atau label.
Sebagian besar data merupakan data yang numerik.
Pengolahan data pada RapidMiner 5.0 ini menggunakan model Decision Tree dengan
teknik validasi sehingga mencapai akurasi/ kecermatan yang memiliki presentase
maksimal. Pada gambar 3 dibawah ini digambarkan proses modeling decision tree
dengan menggunakan teknik validasi.

Gambar 3. Validasi Data
Pada prosesnya data yang akan diolah dihubungkan dengan node split validation yang
ada pada folder evaluation. Didalam node split validation inilah akan memvalidasikan
data yang dimodelkan kedalam decision tree. Pada gambar 4 ditampilkan proses
memvalidasikan model decision tree.

Gambar 4. Modeling Decision Tree dalam Node Validation

89

Sebelumnya sudah dijelaskan bahwa fungsi validation adalah memaksimalkan nilai
akurasi pengolahan data. Apakah bisa tanpa validation? Tentu saja bisa akan tetapi nilai
akurasinya akan berbeda.
Selanjutnya data di Run untuk melihat hasil model decision tree berupa grafis pohon.

Gambar 5. Grafik Decision Tree
Data yang sudah diolah dengan menggunakan RapidMiner5.0 menghasilkan grafis
pohon sehingga tampaklah dengan jelas algoritma pengambilan keputusan.

Berdasarkan teori pada studi pustaka sebelumnya dinyatakan bahwa data semple
yang memiliki entropy terkecillah yang menjadi node awal. Terlihat melalui
Software DSS RapidMiner 5.0 secara otomatis menyatakan bahwa t4 atau tg4
memiliki entropy terkecil. Mengapa bukan gender atau Age atau wtg Karena
entropy mereka lebih tinggi dibandingkan kadar trigilserida. Perhatikan
perhitungan entropy pada data gender dibawah ini.
Tabel 2. Data Gender
Gender
0
0
1
1

Result
Yes
No
Yes
No

Jumlah
7
3
2
4

Gender=0, q1=-7/10 log2 7/10-3/10 log2 3/10=-0.7*-0.51457317283-0.3*1.73696559417= 0.881291.
Gender=1, q2=-2/6 log2 2/6-4/6 log2 4/6 -2/6*-1.59946207042-4/6*0.577766999317= 0.918332.
Maka Entropy Gender adalah:
=10/16*0.881291+6/16*0.918332= 0.895181=0.9 - merupakan nilai entropy
yang tinggi.
Penulis tidak menjabarkan nilai entropy semua atribut karena instance pada
atribut memiliki nilai yang sangat kecil dan numeric sehingga dapat dipastikan
entropy yang dapat dijadikan node awal bukanlah gender. Dan sudah pasti sulit
jika secara manual dihitung entropynya oleh karena itu penulis menganalisa
menggunakan RapidMiner 5.0 untuk mempermudah analisa.
Berikut text view yang dihasilkan:

Gambar 6. Text View Decision Tree
Berdasarkan Text View makan Rule yang dihasilkan adalah sebagai berikut:

90

If t4 > 140 then result=no
Else If t4 <= 140 then
If t0 > 108 then result=yes
Else If t0 <= 108 then result=no;
Berikut akurasi dan precision yang digambarkan:

Gambar 7. Accuracy

Gambar 8. Precision
Tampak jelas bahwa akurasi/ kecermatan yang diperoleh dari model decision tree adalah
60% dengan precision 33% dimana positive class= no.
3. Kesimpulan
Maka kesimpulan yang dapat diperoleh dari hasil pemodelan decision tree adalah:
1. Pemilik kadar Trigliserida tahap akhir pada bulan ke empat (t4) lebih dari 140
diprediksi tidak berhasil dalam melakukan diet (menurunkan berat badan).
2. Pemilik kadar trigliserida pada tahap terakhir (t4) kurang dari atau sama dengan 140
dan memiliki kadar trigliserida awal lebih dari 108 diprediksi akan berhasil melakukan
diet.
3. Pemilik kadar trigliserida pada tahap akhir (t4) kurang dari sama dengan 140 dan
memiliki kadar trigliserida awal kurang dari 108 diprediksi tidak berhasil melakukan
diet.
Berdasarkan kesimpulan tersebut jelas digambarkan bahwa kadar trigliserida
mempengaruhi keberhasilan diet dan pada kadar lebih dari 140 diprediksi tidak akan
berhasil melakukan diet. Hasil ini mendekati pernyataan yang terdapat pada artikel
kesehatan bahwa kadar normal adalah kurang dari 150.
Daftar Pustaka
1. Basuki, A., Syarif, I., 2003. Decision Tree. Politeknik Elektronika Negeri Surabaya.
2. Gambetta, W., 2003, Pohon Keputusan (Decision Tree), Institut Teknologi
Bandung,Bandung.
3. Kadir, M.,A., 2010, Perbandingan Performance Algoritma Decision Tree CART dan
CHAID. Bandung.
4. Wibisono, Y., Y., 2007, Perbandingan Performansi Algoritma Decision Tree C5.0,
CART dan CHAD : Kasus Prediksi Status Resiko Kredit di Bank X, Seminar,
2007(Snati) 0-3. Unpar, Bandung.
5. Obat Trigliserida. Http://www.trigliserida.com/ [14.00 PM, 25 Nov 2012].
6. 2011.
Tips
Menurunkan
Kadar
Trigliserida.
Http://www.didiksugiarto.com/2009/05/tips-menurunkan-kadar-trigliserida.html [10.44
AM,26 November 2012].

91

Tri Yani Akhirina dan Fitriana Destiawati

Recommandé

Recommandé

Contenu connexe

Similaire à Tri Yani Akhirina dan Fitriana Destiawati

Similaire à Tri Yani Akhirina dan Fitriana Destiawati (20)

Plus de Dhika Tr

Plus de Dhika Tr (7)

Dernier

Dernier (20)

Tri Yani Akhirina dan Fitriana Destiawati