2. Main task of The Danish Business Authority
2Danish Business Authority
Business service and registration of companies
Business development and digital growth
Business regulation and supervision planning
and rural business
EU and international affairs
3. Virk: The joint public one-stop shop to the
Danish business world
3Danish Business Authority
27.000.000
visits at Virk on an
annual basis
96%
of companies in
Denmark know
Virk
4.000.000
filings on Virk
annually
92%
Instant case
handling
4. ML Lab
9 person strong
Physics, astro-physics, economics, computer science, fine art, social
science, 7 Phd’s (+1 on the way)
2/7 gender balance, kids and no-kids
Erhvervsstyrelsen 4
5. What can we do with ML and Graph?
Help and guide users to make fewer mistakes
Improve and scale our control and supervision
Provide recommendations and personalize our solutions
Improve our policy development with
ML created insight
5Danish Business Authority
6. Management
Owner
?
Example of control:
Strengthened company control regarding VAT
6
Owner
Management
Revision
Adverse Opinion
Not complying to bookkeeping act
VAT not filed on time
Adverse Opinion
Not complying to bookkeeping act
VAT not filed on time
Salery tax not paid
Adverse Opinion
Holding company
OwnerOwner
Real owner
Danish Business Authority
9. What’s the deal with Graph and ML?
ML is based on data properties, but isn’t suited to handle
relations between objects in data
Graph provides context to ML and even supports algorithms
based on data structure
9Danish Business Authority
Currently 126 mio. nodes
160 mio. relations
10. ML insights persisted to graph
10Danish Business Authority
Blue: Company
Yellow: Person
Purple: Annual report
Red: ML insights
11. Machine learning
controls all identity
papers for foreign
business actors
ML controls that
fictional assets are
not inserted
‘Weaponize’
unstructured data
concerning
negligence
Control new
businesses for
concerns of fraud
Identity
Assets
Audits
1.st line
Handling complexity
- 4 intelligent controls in 2019
Erhvervsstyrelsen 11
20. Erhvervsstyrelsen 20
Automatic control of new data
Exploits what we already know
Uses machine insights
Machine learning
Registry data + metadata + observations
22. Data Metadata ML Automate
01 02 03 04
Information about
persons,
companies, annual
reports, VAT etc.
Data from data. Observations,
machine driven
insights.
Data driven
business.
Registries Metadata ML Business
Intelligent control
Erhvervsstyrelsen 22
23. ERST ML data platform
Erhvervsstyrelsen 23
Machine learning models
use and enrich our
Knowledge graph
triggered by events in near
real time
Knowledge graph maintains
360° network analysis of
customers and business life
cycles
ML data platform
Cloud infrastructure
Event driven architecture
ML data governance
Data event store
Automated intelligent controls applied to
business systems in support of decision making.
24. What is complicated?
ML data governance
Machine learning in production
Reacting in near real-time
Business transformation
Explainability
Automation
24Danish Business Authority
28. Graph as a knowledge catalyst
28Danish Business Authority
Data sources
Meta model
Agent
ML enrichment
Knowledge graph
Automation
Semantic AI
EVENT DATA
29. The semantic journey
29Danish Business Authority
Data sources
Meta model
Agent
ML enrichment
Knowledge graph
Automation
Semantic AI
31. The principles
Graph adoption to contextualize business lifecycles
Meta data strategy to produce data from data
ML enriched automation so we may adopt machine generated insight
Monitor and trace usage so we can explain
Evaluate and improve continuously
Erhvervsstyrelsen 31
he main tasks of The Danish Business Autority:
Registration og Compagnies
Business regulation and supervision
Planning and rural businesse
Business development and digital growth
EU and international affairs
We have a variety of different stakeholders; from small businesses to the large international companies. Different professional actors, the municipalities and the political system
’m very proud of these four figures.
They show that Virk have truly become the public one-stop shop for businesses in Denmark.
The companies know and visit Virk, and they file in their information on Virk.
92 % of cases are resolved instantly without manual processing needed.
Hjælpe og vejlede:
Maskinen kan f.eks. i årsrapporter læse anvendt regnskabspraksis, som er fritekst, og give brugeren en ”advis” hvis der ikke er overensstemmelse mellem på den ene side tallene i regnskabet (de mangler eller er forkerte) og på den anden side, den selvanførte regnskabspraksis.
Forbedre og skalere kontrol og tilsyn:
Vi vil kunne reagere allerede når en brugere forsøger at indsende noget forkert (reaktion i realtid).
Vi kan udbrede vores kontrol fra ”få i en stikprøve” til ”mange/alle”.
Vi kan basere vores kontrol på store datamængder som et menneske ikke ville have kunne overskuet
Give anbefalinger:
Vi vil kunne hjælpe brugerne på f.eks. Virk.dk med hvilke løsninger de burde være opmærksom på. Brugeroplevelsen vil også kunne gøres mere målrettet og afhængig af om du f.eks. er en lille virksomhed, eller om du er økonomimedarbejder i et stort selskab. Maskinen finder mønstre og hjælpe dig hurtigere frem til relevante indberetningsløsninger på virk eller hjælp på ”startvækst”.
Vi vil (hvis man måtte ønske det) også kunne give anbefalinger til virksomhederne af typen: ”Her er de ti brancher hvor man tjente flest penge pr. medarbejder eller pr kapitalandel sidste år” ”Her er det sted i landet hvor bilforhandlere/cafeer/farvehandlere etc. tjente flest penge sidste år.
Forbedring af vores policy udvikling med ML-skabt indsigt:
Machine learning hjælper med at skabe nye data på ryggen af gamle data. Det kan ske i store mængder.
Maskinen kan f.eks. give struktureret viden om den økonomiske situation i en given region ved at se på alle årsrapporter.
Maskinen kan også udlede viden af store tekstmængder, så vi ved hvor mange virksomheder der bliver berørt af en ændring krav til opgørelsen af kapitalandele i datterselskaber.
Tidligere krævede række sådanne aktiviteter ofte langsommelige og dyre konsulentrapporter.
Hvis vi gennemfører AER og kombinerer det med ML vil vi endvidere kunne få tal for den økonomiske udvikling i noget nær realtid
Det vi spørger maskinen om er:
Hvad kan vi antage om en virksomhed eller personkredses intentioner, baseret på hvordan de hidtil har opført sig? Eller sagt med andre ord: hvilke spor i eksisterede data om en eller flere personer, giver den stærkest indikation på, at de vil begå moms eller afgiftssvindel i fremtiden.
Her ses en typisk virksomhedskontruktion. En personkreds ejer og leder et holdingselskab og en eller flere virksomheder.
Ved hjælp af ML kan vi opnå viden om virksomheden og personkredsens tidligere adfærd. Her kan vi f.eks. ”læse” ud af regnskabet v.hj.a. ML, at revisor udtaler at virksomhederne overtræder Moms-, bogføring- og Skattelovgivningen.
Vi vil også kunne se om personer f.eks. er tidligere har overtrådt reglerne
Det store spørgsmål er nu:Hvad kan vi forvente når de overtager en anden virksomhed? Opgaven for ERST bliver at træne maskinen til a se denne slags situationer og ved hjælp af mønstre at kunne se om der er behov for at sætte virksomheden på ventehylde og aflægge dem et besøg eller kræve yderligere dokumentation inden registreringen kan godkendes, eller om Skat skal underrettes om at denne nye virksomhed er genstand for undring.
Hjælpe og vejlede:
Maskinen kan f.eks. i årsrapporter læse anvendt regnskabspraksis, som er fritekst, og give brugeren en ”advis” hvis der ikke er overensstemmelse mellem på den ene side tallene i regnskabet (de mangler eller er forkerte) og på den anden side, den selvanførte regnskabspraksis.
Forbedre og skalere kontrol og tilsyn:
Vi vil kunne reagere allerede når en brugere forsøger at indsende noget forkert (reaktion i realtid).
Vi kan udbrede vores kontrol fra ”få i en stikprøve” til ”mange/alle”.
Vi kan basere vores kontrol på store datamængder som et menneske ikke ville have kunne overskuet
Give anbefalinger:
Vi vil kunne hjælpe brugerne på f.eks. Virk.dk med hvilke løsninger de burde være opmærksom på. Brugeroplevelsen vil også kunne gøres mere målrettet og afhængig af om du f.eks. er en lille virksomhed, eller om du er økonomimedarbejder i et stort selskab. Maskinen finder mønstre og hjælpe dig hurtigere frem til relevante indberetningsløsninger på virk eller hjælp på ”startvækst”.
Vi vil (hvis man måtte ønske det) også kunne give anbefalinger til virksomhederne af typen: ”Her er de ti brancher hvor man tjente flest penge pr. medarbejder eller pr kapitalandel sidste år” ”Her er det sted i landet hvor bilforhandlere/cafeer/farvehandlere etc. tjente flest penge sidste år.
Forbedring af vores policy udvikling med ML-skabt indsigt:
Machine learning hjælper med at skabe nye data på ryggen af gamle data. Det kan ske i store mængder.
Maskinen kan f.eks. give struktureret viden om den økonomiske situation i en given region ved at se på alle årsrapporter.
Maskinen kan også udlede viden af store tekstmængder, så vi ved hvor mange virksomheder der bliver berørt af en ændring krav til opgørelsen af kapitalandele i datterselskaber.
Tidligere krævede række sådanne aktiviteter ofte langsommelige og dyre konsulentrapporter.
Hvis vi gennemfører AER og kombinerer det med ML vil vi endvidere kunne få tal for den økonomiske udvikling i noget nær realtid
Identitet
At informationen fra identitetspapiret stemmer overens med de indtastede oplysninger om personen på registreringen (MRZ(Machine-Readable-Code))
At identitetspapiret er gyldigt på registreringstidspunktet
Spin-off I: identitetspapirer bidrager med præcis metadata om kønsfordelingen i ledelser og bestyrelser
Spin-off II: vi kan fremfinde personer registreret med flere enhedsnumre
Aktiver, kontrol af vurderingsberetninger
I 2018 blev der indberettet 3.554 vurderingsberetninger for selskaber.
En tidligere gennemgang af PwC har vist, at 63,5 % af alle vurderingsberetninger indberettet i 2017 er fejlbehæftet.
Modellen vil være med til at sikre, at de værdier, som indskydes i selskaber, er reelle. Da modellen vil slå ned i meget specifikke dele af en vurderingsberetning, vil det gøre sagsbehandlingen kortere og nemmere.
Årsrapport, revisorerne hjælper
Årsrapporter indeholder revisors kommentarer om overtrædelser af love og regler
A-lån, Bogføringsloven, Moms og afgifter, Aktivitet ved kapitaltab mangler, A-skat/AM-bidrag
1.st line
Kontrol af virksomhedsregistrering på basis af analyse af aktørnetværk, tidligere virksomheders livsforløb, SKAT data. Model i beta, ej produktion 2019.
Erhvervsstyrelsens it-arkitektur er bygget op omkring genbrug af services og fælleskomponenter.
Styrelsens hjemmel(§L149) til at anvende andre myndigheders data til kontrol af virksomheder stiller særlige krav til forståelse af data, da der arbejdes med begreber udenfor eget ressort.
ERST ML dataplatform er bygget op omkring sporbarhed, forklarlighed og i respekt for det data etiske ansvar som styrelsen har. Fordi en høj etisk standard dikterer sporbarhed, giver dette en positiv sideeffekt ift. evaluering af modellernes præcision og måling af forretningsværdi.
Styrelsen arbejder med ud fra et 360 graders forståelse af danske virksomheder som kombinerer den specialiserede indsigt fra maskinlæring, med et kontekstforståelse fra grafteknologi for hvilke mønstre som er udslagsgivende for virksomheders livsforløb.
Teknologisk har dette betydet udvidelse af styrelsens infrastruktur med cloud-løsning, containerteknologi til indkapsling af specialiseret teknologi, grafteknologi datastruktur, hændelsesdrevet arkitektur så vi kan reagere i nær-realtid, samt udvidet data governance for sporbarhed og forklarbarhed.
Streaming af data og GDPRVi ved ikke hvem der stifter selskab før de logger på. Omvendt ønsker vi heller ikke score alle danskere. Derfor er centralt at vi kan samle alle data og anvende dem i det øjeblik som borgeren henvender sig. Vi skal med andre ord ”streame” meget store datamængder på kort tid, da vi kun ønsker at se på de personer og virksomheder der ønsker at oprette og ændre virksomheder uden at vi ”gemmer” dem vi mistænker for at være svindlere i et register. Derved kommer vi uden om en masse GDPR problemstillinger.
Machine learning som disciplinDet er en svær ML øvelse, som kræver specialister og grundig forberedelse. Fx er det særlig svært at holde revisionssporet mellem beslutninger taget af maskinen og datagrundlaget. Fordi det skal kunne forklares hvordan vi er kommet fra datakilden til at maskinen er nået frem til dens anbefaling.
At reagere i real-timeTeknisk er det en svær øvelse at kunne reagere i real time. Dette kræver ny teknologi og vi har måtte flytte dele af vores infrastruktur i skyen for at kunne scalere.
Forretninganvendelse af mønstergenkendelseDet stiller store krav til forretningshåndtering, og vi skal have fuldstændig styr på at modeller ikke ”stikker” af fra os. Forretningen skal derfor løbende holde øje med modellerne.
Størrelsen af ”netmaskerne”Endeligt er det centralt at huske at ML anvender statistik til at underbygge forretningen. Ved at skrue på modellernes ”confidence” kan vi så at sige ændre netstørrelserne, så vi fx primært går efter de store fisk, og der hvor modellerne er mest sikre.
Data og datas livsforløb:
Det er vigtigt, at de beslutninger som Machine learning tager kan genskabes og forklares, samt at beslutningerne er ensartede. Vi vil gradvist få flere og flere data som skabes af machine learning modeller og som indgår i andre modeller som input.
Når mange faktorer påvirker data bliver det meget vigtigt og megasvært at forstå og forklare modellernes beslutninger.
Med andre ord vi skal udøve god forvaltningsskik, så vi kan forklare ”hvorfor blev virksomhed X” udtaget til nærmere kontrol.