SlideShare une entreprise Scribd logo
1  sur  2
Télécharger pour lire hors ligne
Datamining 2007 antwoordmodel werkcollege-opgaven, week 2
N.B. De modelantwoorden zijn weergegeven in telegramstijl. Van de studenten wordt
verwacht dat zij normale Nederlandse zinnen gebruiken.
1. Wat is het verschil tussen associatie-regels en classificatie-regels?
Associatieregels kunnen elk attribuut voorspellen, classificatieregels alleen de class.
Daarnaast worden associatieregels niet samen als een set gebruikt, aangezien ver-
schillende associatieregels verschillende onderliggende regelmatigheden beschrijven.
(1 punt)
2. Geef twee methoden voor het behandelen van missende attribuutwaar-
den in decision trees.
• behandel ”missing value” als een zelfstandige attribuutwaarde
• kies de populairste tak voor een instantie met missende waarde
• verdeel de instantie met missende waarde over de verschillende takken, waarbij
elk deel een gewicht heeft gelijk aan de relatieve populariteit van die tak.
(goed>=2: 1 punt; 0<goed<2: 1/2 punt)
3. Vind je decision tables een goed methode om kennis in op te slaan voor
datamining? Motiveer je antwoord.
Eigen mening, bijv: snel onoverzichtelijk, overbodige attributen, is het kennis of
data? (1 punt)
4. Bij instance learning bestaat het model van de data uit de (onveran-
derde) data zelf. Waarin zit de intelligentie van deze methode?
Een nieuwe instantie moet worden vergeleken met de opgeslagen instanties en er
wordt bepaald op welke oude instantie de nieuwe het meest lijkt. Deze vergelijking
is de intelligentie van instance learning. (1 punt)
5. Geef een voorbeeld van een uitzonderingsregel (met onderdelen Default,
except, if, then en else), en een if-then-else-regel die precies dezelfde
informatie uitdrukt. (1/2 punt per regel)
Voorbeeld:
Default: limonade
except if alcohol > 1%
then bier
except if alcohol > 11%
then wijn
except if alcohol > 16%
then sterke drank
1
if alcohol > 16%
then sterke drank
else if alcohol > 11%
then wijn
else if alcohol > 1%
then bier
else limonade
6. In het boek (tweede editie, sectie 3.7) staat een voorbeeld van een re-
gressieboom en een modelboom voor hetzelfde probleem (figuur 3.7 b
en c). Leg uit waarom de modelboom nauwkeuriger is.
De regressieboom levert een gemiddelde waarde op aan het eind van elke tak, terwijl
de modelboom een lineaire expressie als einde heeft, en de uiteindelijke waardes
dus nog verder kunnen specificeren. De modelboom combineert de voordelen van
regressievergelijkingen en -bomen. (1 punt)
7. De plaatjes in het boek bij instance learning (editie 2, figuren 3.8c en
3.9a) lijken erg op elkaar. Betekent dit dat instance learning en clus-
tering eigenlijk hetzelfde doen? Motiveer je antwoord.
Bij instance learning zijn classes bekend tijdens het leren, terwijl bij clustering
classes onbekend zijn. Bij nieuwe instanties lijken beide technieken echter veel
op elkaar: mbv een afstandsmaat wordt bepaald tot welke (groep) instanties de
nieuwe instantie behoort. De k-nearest neighbor techniek wordt gebruikt bij zowel
instance learning als bij clustering. (1 punt)
8. Leg uit hoe het verband tussen magnesiumtekort en migraine werd ont-
dekt.
Swanson haalde kernwoorden met een significante frequentie uit artikelen over mi-
graine en herhaalde voor elk kernwoord het proces van documenten zoeken en
kernwoorden identificeren. Zo kwam hij via ”spreading depression” bij magne-
siumtekort. (1 punt)
9. Bij informatie-extratie wordt automatisch kennis uit teksten gehaald.
Bedenk aan de hand van het voorbeeld in het artikel twee moeilijkheden
die bij deze taak zouden kunnen optreden
• referenties: hoe weet je dat ”him” naar ”a man” verwijst
• ambiguiteit: is ”another American” een derde gegijzelde, of verwijst het naar
een andere tekst om aan te geven dat het alweer een Amerikaan is die gegijzeld
wordt (en zijn er dus maar 2 gegijzelden).
• slaat ”in Iraq” op de verwanten, de man of beiden?
• wanneer zijn de 48 uur ingegaan?
(goed>=2: 1 punt; 0<goed<2: 1/2 punt)
10. Wat is de voornaamste boodschap van het artikel? Bent u het hier mee
eens? Waarom?
Text mining heeft voordelen voor veel vakgebieden, hoewel goed nagedacht moet
worden over de implementatie. (1/2 punt) Eigen mening (1/2 punt).
2

Contenu connexe

Plus de okeee

Dm part03 neural-networks-homework
Dm part03 neural-networks-homeworkDm part03 neural-networks-homework
Dm part03 neural-networks-homeworkokeee
 
10[1].1.1.115.9508
10[1].1.1.115.950810[1].1.1.115.9508
10[1].1.1.115.9508okeee
 
Prob18
Prob18Prob18
Prob18okeee
 
Overfit10
Overfit10Overfit10
Overfit10okeee
 
Decision tree.10.11
Decision tree.10.11Decision tree.10.11
Decision tree.10.11okeee
 
Dm week01 linreg.handout
Dm week01 linreg.handoutDm week01 linreg.handout
Dm week01 linreg.handoutokeee
 
Dm week02 decision-trees-handout
Dm week02 decision-trees-handoutDm week02 decision-trees-handout
Dm week02 decision-trees-handoutokeee
 
Dm week01 prob-refresher.handout
Dm week01 prob-refresher.handoutDm week01 prob-refresher.handout
Dm week01 prob-refresher.handoutokeee
 
Dm week01 intro.handout
Dm week01 intro.handoutDm week01 intro.handout
Dm week01 intro.handoutokeee
 
Dm week01 homework(1)
Dm week01 homework(1)Dm week01 homework(1)
Dm week01 homework(1)okeee
 
Chapter7 huizing
Chapter7 huizingChapter7 huizing
Chapter7 huizingokeee
 
Chapter8 choo
Chapter8 chooChapter8 choo
Chapter8 choookeee
 
Chapter6 huizing
Chapter6 huizingChapter6 huizing
Chapter6 huizingokeee
 
Kbms text-image
Kbms text-imageKbms text-image
Kbms text-imageokeee
 
Kbms audio
Kbms audioKbms audio
Kbms audiookeee
 
Kbms jan catin cont(1)
Kbms jan catin cont(1)Kbms jan catin cont(1)
Kbms jan catin cont(1)okeee
 
Kbms video-app
Kbms video-appKbms video-app
Kbms video-appokeee
 
Sw owl rules-proposal
Sw owl rules-proposalSw owl rules-proposal
Sw owl rules-proposalokeee
 
Sw practicumopdracht 4
Sw practicumopdracht 4Sw practicumopdracht 4
Sw practicumopdracht 4okeee
 
Sw cursusoverzicht
Sw cursusoverzichtSw cursusoverzicht
Sw cursusoverzichtokeee
 

Plus de okeee (20)

Dm part03 neural-networks-homework
Dm part03 neural-networks-homeworkDm part03 neural-networks-homework
Dm part03 neural-networks-homework
 
10[1].1.1.115.9508
10[1].1.1.115.950810[1].1.1.115.9508
10[1].1.1.115.9508
 
Prob18
Prob18Prob18
Prob18
 
Overfit10
Overfit10Overfit10
Overfit10
 
Decision tree.10.11
Decision tree.10.11Decision tree.10.11
Decision tree.10.11
 
Dm week01 linreg.handout
Dm week01 linreg.handoutDm week01 linreg.handout
Dm week01 linreg.handout
 
Dm week02 decision-trees-handout
Dm week02 decision-trees-handoutDm week02 decision-trees-handout
Dm week02 decision-trees-handout
 
Dm week01 prob-refresher.handout
Dm week01 prob-refresher.handoutDm week01 prob-refresher.handout
Dm week01 prob-refresher.handout
 
Dm week01 intro.handout
Dm week01 intro.handoutDm week01 intro.handout
Dm week01 intro.handout
 
Dm week01 homework(1)
Dm week01 homework(1)Dm week01 homework(1)
Dm week01 homework(1)
 
Chapter7 huizing
Chapter7 huizingChapter7 huizing
Chapter7 huizing
 
Chapter8 choo
Chapter8 chooChapter8 choo
Chapter8 choo
 
Chapter6 huizing
Chapter6 huizingChapter6 huizing
Chapter6 huizing
 
Kbms text-image
Kbms text-imageKbms text-image
Kbms text-image
 
Kbms audio
Kbms audioKbms audio
Kbms audio
 
Kbms jan catin cont(1)
Kbms jan catin cont(1)Kbms jan catin cont(1)
Kbms jan catin cont(1)
 
Kbms video-app
Kbms video-appKbms video-app
Kbms video-app
 
Sw owl rules-proposal
Sw owl rules-proposalSw owl rules-proposal
Sw owl rules-proposal
 
Sw practicumopdracht 4
Sw practicumopdracht 4Sw practicumopdracht 4
Sw practicumopdracht 4
 
Sw cursusoverzicht
Sw cursusoverzichtSw cursusoverzicht
Sw cursusoverzicht
 

Dm uitwerkingen wc2

  • 1. Datamining 2007 antwoordmodel werkcollege-opgaven, week 2 N.B. De modelantwoorden zijn weergegeven in telegramstijl. Van de studenten wordt verwacht dat zij normale Nederlandse zinnen gebruiken. 1. Wat is het verschil tussen associatie-regels en classificatie-regels? Associatieregels kunnen elk attribuut voorspellen, classificatieregels alleen de class. Daarnaast worden associatieregels niet samen als een set gebruikt, aangezien ver- schillende associatieregels verschillende onderliggende regelmatigheden beschrijven. (1 punt) 2. Geef twee methoden voor het behandelen van missende attribuutwaar- den in decision trees. • behandel ”missing value” als een zelfstandige attribuutwaarde • kies de populairste tak voor een instantie met missende waarde • verdeel de instantie met missende waarde over de verschillende takken, waarbij elk deel een gewicht heeft gelijk aan de relatieve populariteit van die tak. (goed>=2: 1 punt; 0<goed<2: 1/2 punt) 3. Vind je decision tables een goed methode om kennis in op te slaan voor datamining? Motiveer je antwoord. Eigen mening, bijv: snel onoverzichtelijk, overbodige attributen, is het kennis of data? (1 punt) 4. Bij instance learning bestaat het model van de data uit de (onveran- derde) data zelf. Waarin zit de intelligentie van deze methode? Een nieuwe instantie moet worden vergeleken met de opgeslagen instanties en er wordt bepaald op welke oude instantie de nieuwe het meest lijkt. Deze vergelijking is de intelligentie van instance learning. (1 punt) 5. Geef een voorbeeld van een uitzonderingsregel (met onderdelen Default, except, if, then en else), en een if-then-else-regel die precies dezelfde informatie uitdrukt. (1/2 punt per regel) Voorbeeld: Default: limonade except if alcohol > 1% then bier except if alcohol > 11% then wijn except if alcohol > 16% then sterke drank 1
  • 2. if alcohol > 16% then sterke drank else if alcohol > 11% then wijn else if alcohol > 1% then bier else limonade 6. In het boek (tweede editie, sectie 3.7) staat een voorbeeld van een re- gressieboom en een modelboom voor hetzelfde probleem (figuur 3.7 b en c). Leg uit waarom de modelboom nauwkeuriger is. De regressieboom levert een gemiddelde waarde op aan het eind van elke tak, terwijl de modelboom een lineaire expressie als einde heeft, en de uiteindelijke waardes dus nog verder kunnen specificeren. De modelboom combineert de voordelen van regressievergelijkingen en -bomen. (1 punt) 7. De plaatjes in het boek bij instance learning (editie 2, figuren 3.8c en 3.9a) lijken erg op elkaar. Betekent dit dat instance learning en clus- tering eigenlijk hetzelfde doen? Motiveer je antwoord. Bij instance learning zijn classes bekend tijdens het leren, terwijl bij clustering classes onbekend zijn. Bij nieuwe instanties lijken beide technieken echter veel op elkaar: mbv een afstandsmaat wordt bepaald tot welke (groep) instanties de nieuwe instantie behoort. De k-nearest neighbor techniek wordt gebruikt bij zowel instance learning als bij clustering. (1 punt) 8. Leg uit hoe het verband tussen magnesiumtekort en migraine werd ont- dekt. Swanson haalde kernwoorden met een significante frequentie uit artikelen over mi- graine en herhaalde voor elk kernwoord het proces van documenten zoeken en kernwoorden identificeren. Zo kwam hij via ”spreading depression” bij magne- siumtekort. (1 punt) 9. Bij informatie-extratie wordt automatisch kennis uit teksten gehaald. Bedenk aan de hand van het voorbeeld in het artikel twee moeilijkheden die bij deze taak zouden kunnen optreden • referenties: hoe weet je dat ”him” naar ”a man” verwijst • ambiguiteit: is ”another American” een derde gegijzelde, of verwijst het naar een andere tekst om aan te geven dat het alweer een Amerikaan is die gegijzeld wordt (en zijn er dus maar 2 gegijzelden). • slaat ”in Iraq” op de verwanten, de man of beiden? • wanneer zijn de 48 uur ingegaan? (goed>=2: 1 punt; 0<goed<2: 1/2 punt) 10. Wat is de voornaamste boodschap van het artikel? Bent u het hier mee eens? Waarom? Text mining heeft voordelen voor veel vakgebieden, hoewel goed nagedacht moet worden over de implementatie. (1/2 punt) Eigen mening (1/2 punt). 2