Search engines for the humanities that go beyond Google
Krijgen we ooit de beschikking over slimme zoektechnologie?
1. Krijgen we ooit de beschikking over slimme zoektechnologie? Suzan Verberne Information Foraging Lab, Radboud University Nijmegen Congres Kennis in Praktijk, 17 juni 2010 – WTC Rotterdam
6. De relevantie-formule van Google gebruikt: Het aantal voorkomens van de woorden uit de zoekvraag in de webpagina. Positie van de zoekwoorden in de webpagina (titel, URL): “Noord/Zuidlijn – HOME” Woorden die minder vaak in de index voorkomen wegen zwaarder dan woorden die heel vaak voorkomen: ‘de’ vs. ‘noord-zuidlijn’ Populariteit van de webpagina (aantal links, aantal kliks): wikipedia.org, amsterdam.nl, nrc.nl Hoe werkt Google?
8. Meer specifieke informatie: Hoe gaat de noord-zuidlijn lopen? Wanneer is begonnen met de aanleg ervan? Verbanden, analyses en sentimenten: Wie was betrokken bij de besluitvorming rond de noord-zuidlijn? Welke partijen waren voor en welke waren tegen? Wat waren de argumenten voor en tegen? Hoe hebben de media gereageerd? Beperkingen van Google
12. Zoeken met een volledige vraag: “wanneer is de aanleg van de noord-zuidlijn begonnen?” Zoekvraag is specifiek, antwoord is exact. Type antwoord dat de gebruiker verwacht, is expliciet in de vraag aangegeven: wanneer jaartal/datum waar plaats Het systeem gebruikt taalkundige intelligentie om het antwoord te vinden. Question Answering
13. Question Answering Index Ranking-formule zoekvraag Antwoordtype Lijst van mogelijke antwoorden Antwoorden extraheren Documenten oktober 1999 9 oktober 2002 april 2003
14. Voorbeeld: Joost (Nederlands) http://www.let.rug.nl/~tiedeman/joost/ “In welk jaar won Feyenoord de Europacup?” “Wat is de hoofdstad van Spanje?” “Hoe hoog is de Euromast?” Question Answering
18. Voorbeeld: Lexxe (Engels) http://www.lexxe.com/ “how tall is the euromast?” “who is the mayor of rotterdam?” “when was the north south line in amsterdam constructed?” Question Answering
22. Onderzoekend, interactief Toepassingen voor specifieke domeinen: biomedisch, patenten Kost de gebruiker veel tijd en moeite Maar: de precisie van het resultaat kan heel exact bepaald worden. Text Mining
23. Drie onderdelen: Zoeken: in een grote database worden documenten gevonden die over het gezochte onderwerp gaan. Analyseren: (delen van) de gevonden documenten worden door het systeem gecategoriseerd en geanalyseerd op relevante informatie. Presentatie: gestructureerde teksten worden aan de gebruiker gepresenteerd. Specifieke informatie die gevraagd is wordt apart getoond. Text Mining
30. Krijgen we ooit de beschikking over slimme zoektechnologie? Ja, door wetenschappers wordt voor veel soorten zoekproblemen technologie ontwikkeld. Die wetenschappers zijn afhankelijk van externe financiering en gebruikers die aangeven wat ze willen en wat ze nodig hebben om deze technologie echt commercieel bruikbaar te maken. Conclusies