SlideShare une entreprise Scribd logo
1  sur  5
Télécharger pour lire hors ligne
Ongestructureerde Big
Data analyseren
2
Van stapels patiëntendossiers naar bruikbare nieuwe inzichten
Gegevensbronnen kunnen allerlei vormen hebben: van gestructureerde rijen getallen tot ongestructureerde teksten zoals aantekeningen. Juist die
laatste categorie kan zeer bruikbare informatie opleveren. Mits de gegevens snel en makkelijk te analyseren zijn. Daarvoor is een handige
technologie ontwikkeld: een speciale vorm van tekstanalyse waarmee snel en automatisch interessante concepten uit grote hoeveelheden
ongestructureerde gegevensbronnen gefilterd kunnen worden.
Aantekeningen
In medische omgevingen zijn veel bruikbare gestructureerde gegevensbronnen aanwezig, zoals het verloop van testresultaten door de tijd en
gecodeerde gegevensvelden. Maar de meest waardevolle informatie staat vaak in de aantekeningen van een specialist: gegevens over een
gesprek met de patiënt, indrukken, de onderbouwing van een diagnose, de opdracht voor een test, de conclusies die getrokken zijn uit
verschillende testresultaten, et cetera.
Hoewel deze aantekeningen in toenemende mate gedigitaliseerd worden, worden ze nog nauwelijks geanalyseerd. En dat is zonde. De manier
waarop deze enorme hoeveelheden ongestructureerde gegevens als informatiebron gebruikt kunnen worden, is door tekstanalyse-technieken in
te zetten.
De kracht van tekstanalyse
Als we alleen maar willen weten uit hoeveel woorden een document bestaat of hoe vaak een woord opduikt, is tekstanalyse niet echt nodig. Dit
kan bepaald worden met een eenvoudig, geheel wiskundig algoritme. Maar hoe zit het als we complexere vragen willen beantwoorden, zoals:
1. Hoe vaak komen bepaalde symptomen en medicijnen tegelijkertijd voor in patiëntendossiers?
2. Drukt een tekst een positief of een negatief gevoel uit en op welke concepten is dit gevoel gericht?
3. Hoeveel teksten hadden maandelijks betrekking op het onderwerp hersenchirurgie?
Voor dit soort vragen kan tekstanalyse gebruikt worden. Tekstanalyse is in dit geval niets anders dan het afleiden van gestructureerde gegevens
uit een ongestructureerde tekst. Als een tekst bijvoorbeeld geanalyseerd wordt op de vraag of deze positief is of niet, is het resultaat een
gestructureerde gegevenswaarde: de waarde “ja” of “nee”.
Het voordeel van het afleiden van gestructureerde gegevens door middel van tekstanalyse is dat deze nieuw aangemaakte gestructureerde
gegevens gemakkelijk gecombineerd kunnen worden met andere gestructureerde gegevensbronnen en met bekende algoritmes verwerkt kunnen
worden.
3
Meer dan een thesaurus
De meeste tekstanalyse-instrumenten vragen echter voorbereidend werk: vooraf moeten een index, thesaurus en ontologie ontwikkeld worden
voordat het echte analytische werk kan beginnen. Daarnaast moet het doel van de analyse duidelijk zijn.
Patiëntendossiers kunnen bijvoorbeeld geanalyseerd worden om nieuwe inzichten te krijgen in de effecten van een bepaald medicijn op patiënten
met diabetes. Maar wanneer er gezocht moet worden naar historische patronen in de bijwerkingen na chirurgie, is een andere thesaurus nodig,
zelfs als dezelfde patiënten geanalyseerd worden. Het opzetten van de benodigde thesaurus voor een dergelijke tekstanalyse beperkt dus de
analytische vrijheid en daardoor de mogelijke resultaten.
Snelheid geboden
Daarnaast kost een dergelijke 'traditionele' tekstanalyse vaak veel tijd. Tijd die er niet altijd is. Stel dat een patiënt naar de spoedeisende hulp
wordt gebracht. Als doktoren snel moeten handelen, hebben ze meestal geen tijd om het volledige patiëntendossier te lezen. Wat ze nodig
hebben, is een samenvatting van alle belangrijke aspecten van de patiënt: Heeft hij diabetes? Heeft hij gewoonlijk een hoge bloeddruk? Welke
medicijnen gebruikt hij? Is hij hier eerder geweest? Het opzetten van een thesaurus voor de analyse van de beschikbare documenten gaat in zo'n
geval te veel tijd kosten.
Grote hoeveelheden teksten snel exploreren
Er is dus behoefte aan een technologie waarmee de teksten snel geanalyseerd kunnen worden zonder dat het voorbereidende werk van een index
en thesaurus nodig is en waarvan de analyse ongeleid kan plaatsvinden. Hiervoor is een speciale vorm van tekstanalyse beschikbaar:
tekstexploratie.
Concepten ontdekken
InterSystems heeft een technologie ontwikkelend (iKnow) die teksten opbreekt in zinnen en deze zinnen vervolgens in concepten en relaties. Bij
het ontleden van een zin wordt eerst gekeken naar de relaties binnen een zin. Zo kan de relatie tussen concepten in een zin gelegd worden met
werkwoorden, maar ook andere zinsconstructies kunnen relaties aangeven.
Door het identificeren van de relaties in een zin is de kans groter dat de gewenste concepten ontdekt worden. In de zin
"De patiënt gebruikte een bloeddrukverlagende middel" beschouwt iKnow de verleden tijd van het werkwoord
"gebruiken" als een relatie die de concepten “patiënt” en “bloeddrukverlagend middel” scheidt. In iKnow wordt dit een
concept-relatie-concept (CRC)-volgorde genoemd. Hierbij gooit iKnow automatisch alle onbelangrijke vulwoorden uit
zinnen weg, zoals "de" en "een".
4
Relaties leggen
Ook andere zinsconstructies kunnen een relatie aangeven. In het zinsdeel "Behandelingen zoals fysiotherapie..." bestaat er een relatie tussen
“behandelingen” en “fysiotherapie”. Een ander voorbeeld is "De pijn in de onderbuik". Hierin vertegenwoordigt het woord "in" een relatie tussen
de concepten "pijn" en "onderbuik". iKnow is zo ontwikkeld dat het verschillende taalconstructies waarmee relaties worden aangeduid, herkent.
Context en frequenties
Dit proces, waarbij iKnow entiteiten identificeert, ontleedt zinnen in grafen waarin concepten door middel van relaties aan elkaar gekoppeld zijn.
De grafen, contextmetadata en frequenties die iKnow op deze manier verzamelt, kunnen gebruikt worden voor uitgebreide analyses binnen een
tekst en tussen verschillende tekstblokken.
Grote hoeveelheden teksten kunnen hierdoor zonder thesaurus of ontologie automatisch geanalyseerd worden op de belangrijkste concepten.
Door gebruik te maken van deze speciale vorm van tekstanalyse is het bijvoorbeeld mogelijk snel de belangrijkste elementen uit een stapel
patiëntendossiers te halen of samenvattingen te maken van grote hoeveelheden tekst.
Hoe kan de iKnow-technologie gebruikt worden?
De iKnow-technologie is geïntegreerd in InterSystems Caché®, de meest gebruikte database voor medische applicaties. De resultaten van de
iKnow-analyses kunnen ook gebruikt worden in InterSystems DeepSee®: Business Intelligence software waarmee bedrijven informatie in “real-
time” kunnen halen uit hun gestructureerde en ongestructureerde gegevens. De iKnow-technologie werkt momenteel al voor het Nederlands,
Engels, Frans, Duits, Portugees en Spaans. Japans en Russisch zijn in ontwikkeling.
Meer weten over tekstanalyse en Big Data? Download dan onze gratis whitepaper Tekstanalyse en Big Data – Exploratie van onontgonnen
gegevensbronnen:
Dit artikel is geschreven door de redactie van InterSystems.
5
Fotocredit 1: NRC
Fotocredit 2: Wikipedia
Wil je meer informatie? Klik hier om naar ons blog te gaan.

Contenu connexe

Similaire à Blog 12: Ongestructureerde big data analyseren

Master Thesis Data Governance Maturity Model - Jan Merkus MSc
Master Thesis Data Governance Maturity Model - Jan Merkus MScMaster Thesis Data Governance Maturity Model - Jan Merkus MSc
Master Thesis Data Governance Maturity Model - Jan Merkus MScJan Merkus
 
Workshop Literatuur Zoeken Ortopedische Technologie
Workshop Literatuur Zoeken Ortopedische TechnologieWorkshop Literatuur Zoeken Ortopedische Technologie
Workshop Literatuur Zoeken Ortopedische TechnologieJeroen van Beijnen
 
Golden road sr revalidatie amc 30 mei 2011
Golden road sr revalidatie amc 30 mei 2011Golden road sr revalidatie amc 30 mei 2011
Golden road sr revalidatie amc 30 mei 2011jgdaams
 
VanVierssenInauguraladdressDelftUniversityofTechnology (inDutch)
VanVierssenInauguraladdressDelftUniversityofTechnology (inDutch)VanVierssenInauguraladdressDelftUniversityofTechnology (inDutch)
VanVierssenInauguraladdressDelftUniversityofTechnology (inDutch)Wim van Vierssen
 
Escape presentatie 450 sab
Escape presentatie 450 sabEscape presentatie 450 sab
Escape presentatie 450 sabSABSB
 
Nieuwe concepten in de wereld van zoektechnologie
Nieuwe concepten in de wereld van zoektechnologieNieuwe concepten in de wereld van zoektechnologie
Nieuwe concepten in de wereld van zoektechnologieErik Oltmans
 
Semantic web in Health Care
Semantic web in Health CareSemantic web in Health Care
Semantic web in Health Carescholten
 
Introductie Zoekfilters [NL]
Introductie Zoekfilters [NL]Introductie Zoekfilters [NL]
Introductie Zoekfilters [NL]Laika Spoetnik
 
Masterscriptie Taalontwikkeling Bij Kinderen En Volwassenen (Opleiding) R...
Masterscriptie   Taalontwikkeling Bij Kinderen En Volwassenen (Opleiding)   R...Masterscriptie   Taalontwikkeling Bij Kinderen En Volwassenen (Opleiding)   R...
Masterscriptie Taalontwikkeling Bij Kinderen En Volwassenen (Opleiding) R...roymingelers
 
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?voginip
 
semantischzoeken-2013.ppt
semantischzoeken-2013.pptsemantischzoeken-2013.ppt
semantischzoeken-2013.pptvoginip
 
Data-science, een kwestie van goed samenwerken
Data-science, een kwestie van goed samenwerkenData-science, een kwestie van goed samenwerken
Data-science, een kwestie van goed samenwerkenJulia Lebedeva
 
Data-science, een kwestie van goed samenwerken
Data-science, een kwestie van goed samenwerkenData-science, een kwestie van goed samenwerken
Data-science, een kwestie van goed samenwerkenMirabeau
 
AwesomRUs: CHI report 1
AwesomRUs: CHI report 1AwesomRUs: CHI report 1
AwesomRUs: CHI report 1guest3ff464b
 
Systematisch zoeken in literatuurbronnen
Systematisch zoeken in literatuurbronnenSystematisch zoeken in literatuurbronnen
Systematisch zoeken in literatuurbronnenBianca Kramer
 

Similaire à Blog 12: Ongestructureerde big data analyseren (20)

Master Thesis Data Governance Maturity Model - Jan Merkus MSc
Master Thesis Data Governance Maturity Model - Jan Merkus MScMaster Thesis Data Governance Maturity Model - Jan Merkus MSc
Master Thesis Data Governance Maturity Model - Jan Merkus MSc
 
Ibmw 2011 zoeksystemen bibliotheek internet
Ibmw 2011 zoeksystemen bibliotheek internetIbmw 2011 zoeksystemen bibliotheek internet
Ibmw 2011 zoeksystemen bibliotheek internet
 
Pub Medfolder Ccz[1]
Pub Medfolder Ccz[1]Pub Medfolder Ccz[1]
Pub Medfolder Ccz[1]
 
Workshop Literatuur Zoeken Ortopedische Technologie
Workshop Literatuur Zoeken Ortopedische TechnologieWorkshop Literatuur Zoeken Ortopedische Technologie
Workshop Literatuur Zoeken Ortopedische Technologie
 
Golden road sr revalidatie amc 30 mei 2011
Golden road sr revalidatie amc 30 mei 2011Golden road sr revalidatie amc 30 mei 2011
Golden road sr revalidatie amc 30 mei 2011
 
Frankenstein op een behangrol
Frankenstein op een behangrolFrankenstein op een behangrol
Frankenstein op een behangrol
 
VanVierssenInauguraladdressDelftUniversityofTechnology (inDutch)
VanVierssenInauguraladdressDelftUniversityofTechnology (inDutch)VanVierssenInauguraladdressDelftUniversityofTechnology (inDutch)
VanVierssenInauguraladdressDelftUniversityofTechnology (inDutch)
 
MKB Masterclass Searching
MKB Masterclass SearchingMKB Masterclass Searching
MKB Masterclass Searching
 
Escape presentatie 450 sab
Escape presentatie 450 sabEscape presentatie 450 sab
Escape presentatie 450 sab
 
Cochrane Library
Cochrane Library Cochrane Library
Cochrane Library
 
Nieuwe concepten in de wereld van zoektechnologie
Nieuwe concepten in de wereld van zoektechnologieNieuwe concepten in de wereld van zoektechnologie
Nieuwe concepten in de wereld van zoektechnologie
 
Semantic web in Health Care
Semantic web in Health CareSemantic web in Health Care
Semantic web in Health Care
 
Introductie Zoekfilters [NL]
Introductie Zoekfilters [NL]Introductie Zoekfilters [NL]
Introductie Zoekfilters [NL]
 
Masterscriptie Taalontwikkeling Bij Kinderen En Volwassenen (Opleiding) R...
Masterscriptie   Taalontwikkeling Bij Kinderen En Volwassenen (Opleiding)   R...Masterscriptie   Taalontwikkeling Bij Kinderen En Volwassenen (Opleiding)   R...
Masterscriptie Taalontwikkeling Bij Kinderen En Volwassenen (Opleiding) R...
 
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
Gaat Artificial Intelligence helpen het zoeken verder te automatiseren?
 
semantischzoeken-2013.ppt
semantischzoeken-2013.pptsemantischzoeken-2013.ppt
semantischzoeken-2013.ppt
 
Data-science, een kwestie van goed samenwerken
Data-science, een kwestie van goed samenwerkenData-science, een kwestie van goed samenwerken
Data-science, een kwestie van goed samenwerken
 
Data-science, een kwestie van goed samenwerken
Data-science, een kwestie van goed samenwerkenData-science, een kwestie van goed samenwerken
Data-science, een kwestie van goed samenwerken
 
AwesomRUs: CHI report 1
AwesomRUs: CHI report 1AwesomRUs: CHI report 1
AwesomRUs: CHI report 1
 
Systematisch zoeken in literatuurbronnen
Systematisch zoeken in literatuurbronnenSystematisch zoeken in literatuurbronnen
Systematisch zoeken in literatuurbronnen
 

Plus de InterSystems Benelux

Samen vernieuwende applicaties ontwikkelen
Samen vernieuwende applicaties ontwikkelenSamen vernieuwende applicaties ontwikkelen
Samen vernieuwende applicaties ontwikkelenInterSystems Benelux
 
Patiënteninformatie: hoe ontwikkel je een geïntegreerd zorginformatieplatform?
Patiënteninformatie: hoe ontwikkel je een geïntegreerd zorginformatieplatform?Patiënteninformatie: hoe ontwikkel je een geïntegreerd zorginformatieplatform?
Patiënteninformatie: hoe ontwikkel je een geïntegreerd zorginformatieplatform?InterSystems Benelux
 
Innovatieve technologie en IT in de zorg tijdens InterSystems Summit 2015
Innovatieve technologie en IT in de zorg tijdens InterSystems Summit 2015Innovatieve technologie en IT in de zorg tijdens InterSystems Summit 2015
Innovatieve technologie en IT in de zorg tijdens InterSystems Summit 2015InterSystems Benelux
 
Big data breakthroughs in healthcare: from re-active to pro-active care
Big data breakthroughs in healthcare: from re-active to pro-active careBig data breakthroughs in healthcare: from re-active to pro-active care
Big data breakthroughs in healthcare: from re-active to pro-active careInterSystems Benelux
 
De belangrijkste Database Management Systemen voor het opslaan van (ongestruc...
De belangrijkste Database Management Systemen voor het opslaan van (ongestruc...De belangrijkste Database Management Systemen voor het opslaan van (ongestruc...
De belangrijkste Database Management Systemen voor het opslaan van (ongestruc...InterSystems Benelux
 
Generating Actionable Insight from Social Media
Generating Actionable Insight from Social MediaGenerating Actionable Insight from Social Media
Generating Actionable Insight from Social MediaInterSystems Benelux
 
InterSystems presentatie: Making Sense of Unstructured Data
InterSystems presentatie: Making Sense of Unstructured DataInterSystems presentatie: Making Sense of Unstructured Data
InterSystems presentatie: Making Sense of Unstructured DataInterSystems Benelux
 
InterSystems presentatie: Making sense of non-structured data in the medical ...
InterSystems presentatie: Making sense of non-structured data in the medical ...InterSystems presentatie: Making sense of non-structured data in the medical ...
InterSystems presentatie: Making sense of non-structured data in the medical ...InterSystems Benelux
 
InterSystems Presentatie: Breakthrough BI: analyzing all the data
InterSystems Presentatie: Breakthrough BI: analyzing all the dataInterSystems Presentatie: Breakthrough BI: analyzing all the data
InterSystems Presentatie: Breakthrough BI: analyzing all the dataInterSystems Benelux
 
InterSystems presentatie: Active analytics for big data
InterSystems presentatie: Active analytics for big dataInterSystems presentatie: Active analytics for big data
InterSystems presentatie: Active analytics for big dataInterSystems Benelux
 

Plus de InterSystems Benelux (11)

Samen vernieuwende applicaties ontwikkelen
Samen vernieuwende applicaties ontwikkelenSamen vernieuwende applicaties ontwikkelen
Samen vernieuwende applicaties ontwikkelen
 
Patiënteninformatie: hoe ontwikkel je een geïntegreerd zorginformatieplatform?
Patiënteninformatie: hoe ontwikkel je een geïntegreerd zorginformatieplatform?Patiënteninformatie: hoe ontwikkel je een geïntegreerd zorginformatieplatform?
Patiënteninformatie: hoe ontwikkel je een geïntegreerd zorginformatieplatform?
 
Innovatieve technologie en IT in de zorg tijdens InterSystems Summit 2015
Innovatieve technologie en IT in de zorg tijdens InterSystems Summit 2015Innovatieve technologie en IT in de zorg tijdens InterSystems Summit 2015
Innovatieve technologie en IT in de zorg tijdens InterSystems Summit 2015
 
Big data breakthroughs in healthcare: from re-active to pro-active care
Big data breakthroughs in healthcare: from re-active to pro-active careBig data breakthroughs in healthcare: from re-active to pro-active care
Big data breakthroughs in healthcare: from re-active to pro-active care
 
Vakbeurs Zorg en ICT: Komt u ook?
Vakbeurs Zorg en ICT: Komt u ook?Vakbeurs Zorg en ICT: Komt u ook?
Vakbeurs Zorg en ICT: Komt u ook?
 
De belangrijkste Database Management Systemen voor het opslaan van (ongestruc...
De belangrijkste Database Management Systemen voor het opslaan van (ongestruc...De belangrijkste Database Management Systemen voor het opslaan van (ongestruc...
De belangrijkste Database Management Systemen voor het opslaan van (ongestruc...
 
Generating Actionable Insight from Social Media
Generating Actionable Insight from Social MediaGenerating Actionable Insight from Social Media
Generating Actionable Insight from Social Media
 
InterSystems presentatie: Making Sense of Unstructured Data
InterSystems presentatie: Making Sense of Unstructured DataInterSystems presentatie: Making Sense of Unstructured Data
InterSystems presentatie: Making Sense of Unstructured Data
 
InterSystems presentatie: Making sense of non-structured data in the medical ...
InterSystems presentatie: Making sense of non-structured data in the medical ...InterSystems presentatie: Making sense of non-structured data in the medical ...
InterSystems presentatie: Making sense of non-structured data in the medical ...
 
InterSystems Presentatie: Breakthrough BI: analyzing all the data
InterSystems Presentatie: Breakthrough BI: analyzing all the dataInterSystems Presentatie: Breakthrough BI: analyzing all the data
InterSystems Presentatie: Breakthrough BI: analyzing all the data
 
InterSystems presentatie: Active analytics for big data
InterSystems presentatie: Active analytics for big dataInterSystems presentatie: Active analytics for big data
InterSystems presentatie: Active analytics for big data
 

Blog 12: Ongestructureerde big data analyseren

  • 2. 2 Van stapels patiëntendossiers naar bruikbare nieuwe inzichten Gegevensbronnen kunnen allerlei vormen hebben: van gestructureerde rijen getallen tot ongestructureerde teksten zoals aantekeningen. Juist die laatste categorie kan zeer bruikbare informatie opleveren. Mits de gegevens snel en makkelijk te analyseren zijn. Daarvoor is een handige technologie ontwikkeld: een speciale vorm van tekstanalyse waarmee snel en automatisch interessante concepten uit grote hoeveelheden ongestructureerde gegevensbronnen gefilterd kunnen worden. Aantekeningen In medische omgevingen zijn veel bruikbare gestructureerde gegevensbronnen aanwezig, zoals het verloop van testresultaten door de tijd en gecodeerde gegevensvelden. Maar de meest waardevolle informatie staat vaak in de aantekeningen van een specialist: gegevens over een gesprek met de patiënt, indrukken, de onderbouwing van een diagnose, de opdracht voor een test, de conclusies die getrokken zijn uit verschillende testresultaten, et cetera. Hoewel deze aantekeningen in toenemende mate gedigitaliseerd worden, worden ze nog nauwelijks geanalyseerd. En dat is zonde. De manier waarop deze enorme hoeveelheden ongestructureerde gegevens als informatiebron gebruikt kunnen worden, is door tekstanalyse-technieken in te zetten. De kracht van tekstanalyse Als we alleen maar willen weten uit hoeveel woorden een document bestaat of hoe vaak een woord opduikt, is tekstanalyse niet echt nodig. Dit kan bepaald worden met een eenvoudig, geheel wiskundig algoritme. Maar hoe zit het als we complexere vragen willen beantwoorden, zoals: 1. Hoe vaak komen bepaalde symptomen en medicijnen tegelijkertijd voor in patiëntendossiers? 2. Drukt een tekst een positief of een negatief gevoel uit en op welke concepten is dit gevoel gericht? 3. Hoeveel teksten hadden maandelijks betrekking op het onderwerp hersenchirurgie? Voor dit soort vragen kan tekstanalyse gebruikt worden. Tekstanalyse is in dit geval niets anders dan het afleiden van gestructureerde gegevens uit een ongestructureerde tekst. Als een tekst bijvoorbeeld geanalyseerd wordt op de vraag of deze positief is of niet, is het resultaat een gestructureerde gegevenswaarde: de waarde “ja” of “nee”. Het voordeel van het afleiden van gestructureerde gegevens door middel van tekstanalyse is dat deze nieuw aangemaakte gestructureerde gegevens gemakkelijk gecombineerd kunnen worden met andere gestructureerde gegevensbronnen en met bekende algoritmes verwerkt kunnen worden.
  • 3. 3 Meer dan een thesaurus De meeste tekstanalyse-instrumenten vragen echter voorbereidend werk: vooraf moeten een index, thesaurus en ontologie ontwikkeld worden voordat het echte analytische werk kan beginnen. Daarnaast moet het doel van de analyse duidelijk zijn. Patiëntendossiers kunnen bijvoorbeeld geanalyseerd worden om nieuwe inzichten te krijgen in de effecten van een bepaald medicijn op patiënten met diabetes. Maar wanneer er gezocht moet worden naar historische patronen in de bijwerkingen na chirurgie, is een andere thesaurus nodig, zelfs als dezelfde patiënten geanalyseerd worden. Het opzetten van de benodigde thesaurus voor een dergelijke tekstanalyse beperkt dus de analytische vrijheid en daardoor de mogelijke resultaten. Snelheid geboden Daarnaast kost een dergelijke 'traditionele' tekstanalyse vaak veel tijd. Tijd die er niet altijd is. Stel dat een patiënt naar de spoedeisende hulp wordt gebracht. Als doktoren snel moeten handelen, hebben ze meestal geen tijd om het volledige patiëntendossier te lezen. Wat ze nodig hebben, is een samenvatting van alle belangrijke aspecten van de patiënt: Heeft hij diabetes? Heeft hij gewoonlijk een hoge bloeddruk? Welke medicijnen gebruikt hij? Is hij hier eerder geweest? Het opzetten van een thesaurus voor de analyse van de beschikbare documenten gaat in zo'n geval te veel tijd kosten. Grote hoeveelheden teksten snel exploreren Er is dus behoefte aan een technologie waarmee de teksten snel geanalyseerd kunnen worden zonder dat het voorbereidende werk van een index en thesaurus nodig is en waarvan de analyse ongeleid kan plaatsvinden. Hiervoor is een speciale vorm van tekstanalyse beschikbaar: tekstexploratie. Concepten ontdekken InterSystems heeft een technologie ontwikkelend (iKnow) die teksten opbreekt in zinnen en deze zinnen vervolgens in concepten en relaties. Bij het ontleden van een zin wordt eerst gekeken naar de relaties binnen een zin. Zo kan de relatie tussen concepten in een zin gelegd worden met werkwoorden, maar ook andere zinsconstructies kunnen relaties aangeven. Door het identificeren van de relaties in een zin is de kans groter dat de gewenste concepten ontdekt worden. In de zin "De patiënt gebruikte een bloeddrukverlagende middel" beschouwt iKnow de verleden tijd van het werkwoord "gebruiken" als een relatie die de concepten “patiënt” en “bloeddrukverlagend middel” scheidt. In iKnow wordt dit een concept-relatie-concept (CRC)-volgorde genoemd. Hierbij gooit iKnow automatisch alle onbelangrijke vulwoorden uit zinnen weg, zoals "de" en "een".
  • 4. 4 Relaties leggen Ook andere zinsconstructies kunnen een relatie aangeven. In het zinsdeel "Behandelingen zoals fysiotherapie..." bestaat er een relatie tussen “behandelingen” en “fysiotherapie”. Een ander voorbeeld is "De pijn in de onderbuik". Hierin vertegenwoordigt het woord "in" een relatie tussen de concepten "pijn" en "onderbuik". iKnow is zo ontwikkeld dat het verschillende taalconstructies waarmee relaties worden aangeduid, herkent. Context en frequenties Dit proces, waarbij iKnow entiteiten identificeert, ontleedt zinnen in grafen waarin concepten door middel van relaties aan elkaar gekoppeld zijn. De grafen, contextmetadata en frequenties die iKnow op deze manier verzamelt, kunnen gebruikt worden voor uitgebreide analyses binnen een tekst en tussen verschillende tekstblokken. Grote hoeveelheden teksten kunnen hierdoor zonder thesaurus of ontologie automatisch geanalyseerd worden op de belangrijkste concepten. Door gebruik te maken van deze speciale vorm van tekstanalyse is het bijvoorbeeld mogelijk snel de belangrijkste elementen uit een stapel patiëntendossiers te halen of samenvattingen te maken van grote hoeveelheden tekst. Hoe kan de iKnow-technologie gebruikt worden? De iKnow-technologie is geïntegreerd in InterSystems Caché®, de meest gebruikte database voor medische applicaties. De resultaten van de iKnow-analyses kunnen ook gebruikt worden in InterSystems DeepSee®: Business Intelligence software waarmee bedrijven informatie in “real- time” kunnen halen uit hun gestructureerde en ongestructureerde gegevens. De iKnow-technologie werkt momenteel al voor het Nederlands, Engels, Frans, Duits, Portugees en Spaans. Japans en Russisch zijn in ontwikkeling. Meer weten over tekstanalyse en Big Data? Download dan onze gratis whitepaper Tekstanalyse en Big Data – Exploratie van onontgonnen gegevensbronnen: Dit artikel is geschreven door de redactie van InterSystems.
  • 5. 5 Fotocredit 1: NRC Fotocredit 2: Wikipedia Wil je meer informatie? Klik hier om naar ons blog te gaan.