Tijdens de Dag van de Datakwaliteit zal Holger Wandt ingaan op het beheersen en beheren van internationale klantgegevens. Tijdens deze presentatie komen de verschillende aspecten van de voortschrijdende internationalisatie van het bedrijfsleven aan de orde:
• pluriformiteit van namen en adressen
• non-Latin tekensets
• business benefits
• case: Euro 2004 – ticketing voor de Europese voetbalkampioenschappen in Portugal
12. Natuurlijke taalverwerking: Wat is
wat in een naam?
Woordenboek
o Segmentatie (definitie van datagroepen)
o Attributen van datagroepen
o Attributen van specifieke items binnen een groep
o Verbanden tussen items (afkorting, meervoud)
Mathematische and linguistische methodieken
o Contextanalyse, patroonherkenning, semantische en
syntactische associaties, frequentieberekeningen,
stringvergelijk, fonetische variatie en overeenkomst,
etc.
13.
14. Hoe interpreteren mensen?
Natuurlijke taalverwerking
Servicebureau Jnasen/ Jansen Elektroservice
Art Gallery Wandt & Wandt / Art Wandt Handel in
Kunstart.
Huisintveld, M.A. / Huis in ’t Veld, MA
André Matthijssen / Andrée Matheysse
17. EUROSTAT
Bevolking EU25 op 1-1/05: 459,5 miljoen
(Vergelijk bevolking USA op 1-1/05: 294,4 miljoen)
Taalkundige diversiteit: 20 officiële talen in de EU + de
niet-officiële talen en de non-EU-talen: Gaelic, Rhaeto-
Romaans, Turks, Noors, IJslands…..
ICT-industrie zet ongeveer 200 miljard EUR om (met
initiatieven zoals CDI, CRM, compliance, data
governance, anti-terrorism, e-business allen sterk
afhankelijk van data en informatie)
19. Naamconventies
1) Charles M. Grissom 2) B. Jan Smit
3)St.John Quartermain 4)Elsa Olavsdottir
5)Cornelis (Cees) de Vries
6)Vanabeele, Dirk
7)Señor Juan-Ignasi Fonseca Martinez Andrade
8)Th. Jansen 9)Theodora Smith
10) George Michael Parker Ceng, BSc, MBIM
11)Mme. Lisa Clément 12)Mr John Smith
13)Mr. John de Vries
20. Naamconventies
Sorteren:
Van Buren, John vs Buren, John,
Van
Kapitaliseren:
Anne Machiavelli vs Anne MacAllister
Schrijfwijze voorvoegsel:
Matthieu Le Grand vs Matt LeBlanc
23. Vergelijking van gegevens in
verschillende character sets
Verwerking van non-Latin tekensets en non-
ANSI-diakrieten Voorbeelden:
o Internationale bedrijven die een veelvoud
van CRM-databases in verschillende
tekensets onderhouden en deze
gegevens willen “minen” voor een uniek
klantbeeld
o Financiële organisaties moeten hun
“native” tekenset kunnen vergelijken met
een grote hoeveelheid suspect lists
24. Het Unicode-mysterie
Unicode is een vehikel: opslag, uitwisseling en
representatie van data uit alle character sets ter
wereld.
Het vaststellen van de mate van overeenkomst van
gegevens uit verschillende character sets vereist het
zogenaamde “Lingua Franca-principe” en kennis van
land en cultuur waar de betreffende character sets
worden gebruikt.
Transliteratie van non-Latin naar Latin script maakt dit
mogelijk groot voordeel: transliteratie is eenduidig!
26. Adresvariëteit
RegTP Mme. Eva
Riebel
Heusallee 2-10 38b, rue de Benfeld
Haus IV 67100 Strasbourg
53113 Bonn
Pilar Gonzales Frederick Hartford
Passeo de Gracia 22, 1° B Chipping
Norton
08012 Barcelona Fawler
Litle Acre
27.
28.
29. Er zijn veel valkuilen in de
verwerking van internationale
gegevens. Maar zijn er ook
oplossingen?
30. Directive 97/67/EG van het
Europees parlement mbt postale
liberalisering
Common rules for the development of the internal
post market
Increase the quality of the postal services
32. Internationale werkgroep address
databases van de CEN
Generieke definities van alle Europese
adreselementen
Publicatie “EN 14142 Components of postal
addresses”
Samenwerking met de UPU: wereldwijde standaard
33. Toepassingsvoorbeeld
Euro 2004
Web-based ticketverkoop
Landspecifieke invoerschermen
Internationale database
Identificatie van meervoudige aanvragen (zwarte markt)
Vermijden van de uitsluiting van correcte aanvragen met een
gelijksoortig patroon
Gegarandeerde black list- check: Meer dan 5.000 geregistreerde
stadionverboden in Europa
Verzending van de tickets (fysieke representatie op een
aangetekend poststuk)
34. FIELD EXAMPLE
Nome Pedro
Mari-Carmen
Sobrenome Martinez
Gomez de Pereira
Rua Calle de Gracia
Rua Madalena
Calle Lirioo
Numero de porta 2
3-5
Informação suplementar II DR
A
Código Postal 234-3201
Localidade Mem Martins
Designação postal Lisboa
Porto
País Portugal
35. FIELD Saif-tag
Senhor / Senhora FormOfAddress
Nome GivenName
Sobrenome CompoundSurname
Rua Thoroughfare
Numero de porta StreetNumberOrPlot
Informação suplementar ExtensionDesignation
Código Postal Postcode
Localidade DependentLocality
Designação postal Locality
País Country
36. Physical representation template
LINE 1
[FormOfAddress] [GivenName] CompoundSurname
LINE 2
Thoroughfare [StreetNumberOrPlot]
[ExtensionDesignation]
LINE 3
[Postcode] Locality
LINE 4
[Postcode DependentLocality]
LINE 5
Country
37. Demo: Ik woon in Portugal…
1.500.000 aanvragen en 400.000
verkochte tickets
38. Portugal v. Greece
Form number: 500409331
H. Larre
Ingjerkollvn. 47
1410 Kolbotn, Norway
Date of birth: 28-05-63
Portugal v. Greece
Form number: 500409544
Score: 93, positieve match
H.L. Hege Larre
Ingjerkollveien. 47
1410 Kolbotn, Norway
Date of birth: 28-05-63
39. Germany v. Netherlands
Form number: 131731858
H.P.M. Matheijsen
Baronielaan 46
5131 BX Alphen (NB)
Date of birth: 30-11-88
Germany v. Netherlands
Form number: 131856464
Score: 78, negatieve match H.A. Matheijsen
Baronielaan 46
5131 BX Alphen (NB)
Date of birth: 06-06-61
40. Italy v. England
Form number: 129020109
M.L. Wither
Pall Mall Road 120
SW1 5YE London
Date of birth: 17-08-72
Credit card: 49294604415255
Italy v. England
Form number: 5003562876
Score: 66, positieve match, M. Wither
tgv additionele criteria Middle Way 36
OX2 7LG Oxford
Date of birth: 17-08-72
Credit card: 49294604415255
41. Andere aspecten
Meertalige landen (CH, BE)
Diakrieten: ß is niet hetzelfde als B
Andere (non-Latin) character sets
Notatiewijze valuta: €1B = 1.000.000.000.000
in Europa en 1.000.000.000 in de VS
Datumnotatie: 051201 01.12.05 05/12/01
01-12-05
Privacyaspecten (bijv. dubbele opt-in voor
e-commerce)
42. Conclusies
Elk succesvol internationaal businessinitiatief is gebaseerd op
hoge datakwaliteit. Dit houdt o.a. in:
Kennis van de cultuur en de markten in een specifiek land
Landspecifieke kennis van namen en naamconventies
Landspecifieke kennis van adreselementen en
adresstructuren
Kennis van nationale en internationale standaardisatie-
inspanningen en -resultaten
KENNIS maakt het verschil bij het succes van elk internationaal
businessinitiatief !