6 h blockeel - machine learning en geo-toepassingen
1. Machine learning en
geo-toepassingen
Hendrik Blockeel
Dept. Computerwetenschappen, Katholieke Universiteit Leuven
& LIACS, Universiteit Leiden
2. Machine Learning
• Machine learning, data mining, data-analyse:
• zoeken naar patronen (regelmatigheden)
in data
• op basis van die patronen een model
bouwen dat de data beschrijft
• op basis van dit model betere
beslissingen nemen
3. Typische settings
• Gesuperviseerd leren:
• gegeven een aantal (xi,yi) koppels, getrokken uit een
populatie van koppels (x,y),
• zoek een functie f zo dat f(x)=y
• Ongesuperviseerd leren:
• gegeven een aantal elementen xi, getrokken uit een
populatie
• vind structuur in de populatie
• Nog veel andere varianten van leertaken...
4. Gesuperviseerd leren
x y
(1,5,3,2) 5
(2,3,1,4) 3
(1,4,2,3) 5 y = ax1+bx2+cx3+dx4
(1,3,2,2) 6
(3,1,1,2) 4
5. Leren uit netwerk-data
• Inputs zijn nu niet een verzameling losse punten
(xi,yi), maar een netwerk van dergelijke punten
• er zijn verbanden, relaties, connecties tussen de
punten
• links in een graaf of netwerk, foreign keys in
een relationele database, ...
• data-analyse moet nu ook met dit netwerk rekening
houden
• dus niet f(x)=y, maar f(x in context)=y
7. Machine learning in
geomatica-context
• In geomatica-context: vaak relationele (of:
netwerk-) data
• Aangepaste machine learning-technieken
nodig
8. Files voorspellen
• “Long-term traffic forecasting”, Frasconi et al.
• Analyse historical data + sensor data
GPS, mobile phones,
Loop detector data
wireless sensors, ...
Method: Markov logic networks
Afbeeldingen: P. Frasconi, SML 2010
(statistical relational learning, logic + probabilities)
9. Bosbranden
voorspellen
• Portugal: voorspellen van kans op bosbrand
op basis van historische data & beschrijving
van actuele toestand (Santos Costa et al.)
Rule 2:
> 64 sheep,
Improductive neighbor,
that burned last year
(V. Santos Costa, SML 2010)
10. Clustering van fauna/
flora in Europa
• Van Leeuwen,Vreeken, Siebes: “Identifying
the components”, ECML/PKDD 2009
Figuren uit Goethals &
Vreeken, SML 2010
11. Conclusies
• Tamelijk veel onderzoek (recent meer)
naar analyse van geografische data
• Gestegen interesse, vanwege
beschikbaarheid van meer geavanceerde
machine learning technieken
• relational data mining, network mining,
inductive logic programming, statistical
relational learning, ...