Presentation about Continuous Data Quality Assurance at Heliview Dutch Data Forum om 27-11-2019 Den Bosch.
----------------------------------------------------------------------------------------
Adviezen, besluitvorming en voorspellingen komen in toenemende mate uit data gedreven, complexe en nauw verbonden IT-systemen. We moeten dus in hoge mate kunnen vertrouwen op data vanuit deze systemen en de Quality Assurance ervan op orde hebben. Kunnen we proactief ingrijpen wanneer de datakwaliteit te laag dreigt te worden? Zijn we instaat om achteraf te herleiden hoe een resultaat tot stand kwam? En is het resultaat reproduceerbaar?
IT- en datasystemen zijn intensiever gekoppeld dan ooit, de technische complexiteit en onderlinge afhankelijkheid is daarmee dan ook sterk toegenomen. Systemen zijn steeds vaker een “System-of-systems” in plaats van een enkel gesloten system; ze bestaan uit een combinatie van samenwerkende componenten. De output van het ene systeem beïnvloed daarmee het resultaat van het ontvangende systeem. Monitort en bewaakt het ontvangende systeem dan ook de kwaliteit van de data die het ontvangt, om vroegtijdig aanpassingen te kunnen maken? Tegelijkertijd moeten we kunnen vertrouwen op de resultaten die deze systemen produceren en moet inzichtelijk zijn hoe deze resultaten tot stand zijn gekomen.
Intensieve koppeling van systemen biedt fanatische mogelijkheden maar brengt mogelijk een fragiel kaartenhuis met zich mee. Een optredende fout kan een snel groeiende sneeuwbal worden met grote gevolgen. Het is dan ook cruciaal permanent te blijven monitoren of het systeem en haar deelsystemen voldoen aan de benodigde kwaliteit om zo nodig preventief in te kunnen grijpen. Bijvoorbeeld: data van sensoren komt continue binnen en kan van wisselende en ‘verlopende’ kwaliteit zijn, hoe hou je dat in de gaten? En is het nog steeds bruikbaar voor de analyse die uitgevoerd moet worden? Door toepassing van cloud - en virtualisatie technologieën worden IT-systemen dynamisch; het systeem dat de data verwerking uitvoerde bestaat wellicht morgen niet meer. Hoe zorg je dan voor herleidbaarheid en reproduceerbaarheid van resultaten als er vragen of klachten over komen?
In zijn presentatie belicht Erik de geautomatiseerde monitoring van de kwaliteit van “system-of-systems”. Hij gaat daarbij in op moderne IT-technieken om systemen en databronnen op hun kwaliteit te monitoren en systemen ‘quality-aware’ in te richten.
1. KAN IK OOIT OP MIJN DATA
VERTROUWEN?
27 nov 2019 | Heliview Dutch Data Forum | Erik Langius MSc | erik.langius@tno.nl
2. EVEN VOORSTELLEN…
Erik Langius MSc
ICT unit TNO – Researchafdeling Monitoring and Control Services
Integrator en projectleider: focus op multidisciplinaire integratie van kennis en
systemen.
Informatica & Technische Bedrijfskunde met IT specialisatie
System of System Engineering
LinkedIn: https://nl.linkedin.com/in/eriklangius
3. TNO ONDERZOEKSLIJNEN OP DATA GEBIED
5
Sharing Trust
Data
Value
Data interoperability
Controlled access
to available data
Sensemaking of Sensitive data
Reliable analysis of data
Digital validation
of information
4. HET BELANG VAN DATA QUALITY ASSURANCE (DQA)
Adviezen, besluitvorming en voorspellingen komen in toenemende mate uit datagedreven, complexe
en nauw verbonden IT-systemen
Data Quality Assurance gaat over zowel data kwaliteit als de kwaliteit van de dataverwerkende
systemen (analyses, modellen, etc)
Verificatie en Validatie
Past data en model bij het doel?
Is het systeem uitlegbaar? Zijn resultaten reproduceerbaar
en herleidbaar?
27 nov 2019 | Erik Langius | Kan ik ooit op mijn data vertrouwen?
5. KWALITEIT IN DE CONTEXT VAN DEZE PRESENTATIE
27 nov 2019 | Erik Langius | Kan ik ooit op mijn data vertrouwen?
Impactbijfalen
+
-
Analyse complexiteit
+
-
Complexe analyse
en data + hoge
impact bij falen:
rechtvaardigt
intensieve DQA
Eenvoudig data en
analyse:
minimale DQA
inrichten
De definitie van kwaliteit is
context afhankelijk en heeft een
sterke link met het doel van de
toepassing, is het fit-for-
purpose?
Bron: aangepast uit “The Aqua Book:
guidance on producing quality analysis
for government (2015)
6. NAUW VERBONDEN SYSTEMEN DOOR DATA
AFHANKELIJKHEDEN
Algemene trend: systeem complexiteit neemt toe, evenals de mate waarin we
moeten vertrouwen op deze data gedreven systemen.
Systemen krijgen eigenschappen die ontstaan door interactie (emergentie).
De inrichting van DQA moet volgen op de toegenomen complexiteit en emergente
eigenschappen kunnen monitoren.
Voorbeeld: bekend systeem in een nieuwe context
27 nov 2019 | Erik Langius | Kan ik ooit op mijn data vertrouwen?
7. INTERACTIES EN COMPLEXITEIT
27 nov 2019 | Erik Langius | Kan ik ooit op mijn data vertrouwen?
Bron: aangepast uit “Meltdown: Why
our systems fail and what we can do
about it” (2018: C Clearfield, A Tilcsik)
Matevanverbondenheid
+
-
Systeem complexiteit
+
-
Als er iets misgaat gaat
er snel meer mis.
Lage kans op falen
Data gedreven systemen raken
verbonden met hun omgeving
door gebruik van data
8. WAT KUNNEN WE DOEN?
Om complexiteit onder controle te houden moeten we monitoren op signalen die het systeem afgeeft
en continue de “fit” met de “purpose” controleren.
1) Is de data nog steeds geschikt voor ontworpen analyse/model ?
Continue monitoring op data eigenschappen en vereisten van de analyse
Fit-for-purpose van binnenkomende data
2) Is de analyse/model nog steeds passend bij de data?
Analyse is waarschijnlijk ontworpen op bestaande dataset
Is de analyse is het nog steeds fit-for-purpose met nieuwe data?
27 nov 2019 | Erik Langius | Kan ik ooit op mijn data vertrouwen?
9. Analyse lange
datareeksen en
verdeling van data
geeft snel overzicht
om eerste acties te
bepalen
350 SENSOREN, WELKE FUNCTIONEREN GOED?
27 nov 2019 | Erik Langius | Kan ik ooit op mijn data vertrouwen?
10. Analyse &
Model vereisten
EEN BETROUWBAAR DATASYSTEM VEREIST CONTINUE AANDACHT
27 nov 2019 | Erik Langius | Kan ik ooit op mijn data vertrouwen?
Complexe data verwerkingData door de tijd
Data Quality
Assurance
Indicators:
Trends:
!
Data geschikt
voor analyse?
Analyse geschikt
voor actuele data?
11. TAKEAWAYS…KAN IK OOIT OP MIJN DATA VERTROUWEN?
Fit-for-purpose DQA: inrichting proportioneel naar de potentiele impact van falen
Echter, “Fit-for-purpose” is geen statisch gegeven, DQA moet dan ook een continue en evaluerend
karakter hebben.
Is de binnenkomende data nog steeds geschikt voor de analyse?
Is de analyse nog steeds passend bij de binnenkomende data?
Resultaten zijn herleidbaar en traceerbaar: DQA inrichten voor de gehele levenscyclus van
ontwerp, resultaat en voor vragen na oplevering.
Versie beheer op code, data, configuratie en resultaten
Monitor data, analyse en realiteit geautomatiseerd om veranderende context en signalen te
detecteren om tijdig bij te kunnen sturen.
27 nov 2019 | Erik Langius | Kan ik ooit op mijn data vertrouwen?
12. GEVRAAGD!
TNO zoekt partners voor een gezamenlijk onderzoeksprogramma rondom monitoring van data kwaliteit
in continue (streaming) data
Doel: IT-tool ontwikkeling voor “Fit-for-purpose monitoring of timeserie data streams”
Interesse? contact: erik.langius@tno.nl
27 nov 2019 | Erik Langius | Kan ik ooit op mijn data vertrouwen?
13. WAAR WERKT TNO AAN?
https://www.tno.nl/nl/tno-insights/artikelen/hoe-controleer-je-de-betrouwbaarheid-van-data/
https://www.tno.nl/nl/samenwerken/expertise/early-research-programma/early-research-program-
making-sense-of-big-data/
https://www.tno.nl/nl/aandachtsgebieden/informatie-communicatie-technologie/roadmaps/data-
sharing/advanced-data-analytics/
https://www.tno.nl/nl/over-tno/nieuws/2019/3/tno-verbindt-nederland-met-europese-standaard-voor-
datadeling/
27 nov 2019 | Erik Langius | Kan ik ooit op mijn data vertrouwen?
14. BEDANKT VOOR UW AANDACHT
Voor meer inspiratie:
TNO.NL/TNO-INSIGHTS