TNO heeft in samenwerking met Blue Mango, ClickValue, Maximum en Netprofiler onderzoek gedaan naar de betrouwbaarheid van webstatistieken. Belangrijke vragen hierbij waren in welke mate verschillen reëel en acceptabel zijn, hoe de betrouwbaarheid van webstatistieken voor een specifieke implementatie van statistieken te bepalen is.
Deze resultaten van het onderzoek zijn op woensdag 25 maart gepresenteerd tijdens een meeting van Web Analytics Association Nederland.
1. Verschillen in Web Analytics
Feiten, fabels en verwachtingen
maart 2009 – Almerima Jamakovic, Bart Gijsen, Martijn Staal
2. Doel van het project
Inhoud
• aanleiding:
WA verschillen wat is waar?
WA data analyse
• validatie van gangbare opinies
m.b.t. WA verschillen
Inhoud
• welke afwijkingen zijn acceptabel’?
WA test in gesloten omgeving
• toelichting testomgeving
• geverifieerde oorzaken van afwijkingen
• geconstateerde oorzaken
Conclusie
2
3. Doel van het project
• Klant en/of bureau merken grote verschillen in statistiekmetingen
bij bijvoorbeeld:
Welke gegevens
• Migratie naar ander WA pakket
zijn waar?
• Toepassing STIR naast WA Wanneer zijn de data
• Afrekenen van bannercampagne (DART) betrouwbaar?
• Verkoop website
• Doelen WA project:
• Inzichtelijk maken van verschillen en
manier waarop WA metingen uitvoeren
• Geef houvast in discussie over verschillen: wat zijn ‘reële
afwijkingen’
3
4. Overzicht van de deelnemers & betrokken partijen
• Projectteam:
• Deelnemers data benchmark & gesloten test:
+ Nederlandse kabelmaatschappij
• Betrokken mediapartijen:
• Indirect betrokken:
4
5. Aanpak: data analyse en test in gesloten omgeving
• Tijdens de WA data analyse worden statistiekendata van
externe websites vergeleken en geanalyseerd op verschillen
• Websites met meerdere webstatistiekpakketten leveren data
• TNO analyseert
• Doel: inzicht in ‘acceptabel’ niveau van verschillen
• Tijdens de test in gesloten omgeving worden oorzaken van
verschillen verder onderzocht
• Gesloten website wordt gebruikt waarbij het verkeer met tool
Selenium te reguleren is
• Sessies en variabelen zoals IP-adressen, browser types e.d.
zijn door TNO in te stellen
• Doel: oorzaken van verschillen verder uitdiepen
5
6. Doel van het project
Inhoud
• aanleiding:
WA verschillen wat is waar?
WA data analyse
• validatie van gangbare opinies
m.b.t. WA verschillen
Inhoud
• welke afwijkingen zijn acceptabel’?
WA test in gesloten omgeving
• toelichting testomgeving
• geverifieerde oorzaken van afwijkingen
• geconstateerde oorzaken
Conclusie
6
7. WA Data Analyse
•Doel: inzicht in welke verschillen acceptabel zijn
• Analyse webstatistieken data van meerdere websites
• Vergelijking Google, Sitestat, Webtrends, STIR en DART data
Website Google Analytics Sitestat Webtrends HBX Speed Trap STIR DART
√ √
Kabeloperator
√ √ √
TNO.nl
√ √ √
Univé.nl
√ √ √ √
Ilsemedia-x
√ √
Agis
√ √
Typhone
• Vergeleken WA metrics zijn: visits, visitors en page views
• op dag, week en maandniveau
7
8. Vragen & hypotheses voor
WA data analyse
• WA pakketten op dezelfde website genereren afwijkende waarden?
• Afwijkingen tussen WA pakketten zijn website specifiek?
Welke procentuele afwijking is reëel?
• Meerwaarde WA output zit in relatieve waarden en trends; niet in absolute
waarden?
• Wat is de relatie tussen WA, STIR en DART?
8
9. Hoofdvraag: welke procentuele afwijking is reëel?
Zijn WA metingen normaal verdeeld?
Zijn WA metingen Normaal verdeeld?
Ja, WA output waarden zijn Normaal verdeeld!
QQ plot tno.nl data
2
Parameters van Normale verdeling hangen af
1,5 1,2
van:
• website (content, structuur, technologie, …)
1 0,8
• WA metric (visitors vs. page views)
0,5
0,4
Visitors (AdvancedMD)
Observatie: er is een vrij duidelijke bovengrens
Visits
0
Page view s (AdvancedMD)
op de genormaliseerde maat voor spreiding
0,0
-1,5 -1 -0,5 0 0,5 1 1,5 Page views
-0,5
-0,70 -0,35 0,00 0,35 0,70
van WA verschillen ( = variatiecoëfficiënt )
Visitors
-0,4
-1
-0,8
-1,5
-2 -1,2
So what ???
1. Het feit dat verschillen Normaal verdeeld zijn impliceert dat verschillen veroorzaakt
worden door een veelheid, van elk op zich niet-dominante oorzaken
2. Dit geeft de basis voor concrete vuistregels m.b.t. ‘acceptabele afwijkingen’
• zie volgende slide
9
10. Dus … welke procentuele afwijking is reëel?
WA checklist voor implementatie en betrouwbaarheid
• Constaterende dat
a. verschillen in WA Normaal verdeeld zijn en
• voor alle aangeleverde data en die uit literatuur [Shootout] geldt dit
b. dat de “variatiecoëfficiënt” < 0.1 (= maat voor verschillen WA data)
• voor bijna alle aangeleverde data en die uit literatuur [Shootout] geldt dit
• Dan gelden de volgende vuistregels als ‘acceptabele afwijking’:
Aantal WA Max-Min afwijking meestal Max-Min afwijking zelden
pakketten (1 op 2) niet groter dan … (1 op 10) groter dan …
2 9,5% 23,2%
Anders is
3 15,8% 29,0% sprake van een
verkeerde
4 19,7% 32,4% implementatie!
5 22,5% 34,7%
6 24,7% 36,6%
• en … het aantal bezoekers, bezoeken, page view heeft hierop geen invloed
10
• en … deze procentuele afwijkingen schalen lineair in de variatiecoëfficiënt
11. Praktijk toets: configuratiefouten identificeren
zelden > 23,2%
Afwijking pageviews tussen Sitestat en GA
25,0%
20,0%
meestal < 9,5%
15,0%
10,0%
5,0%
Procentuele afwijking
(Sitestat - GA)%, PV per dag
0,0%
1-8-2008 1-9-2008 2-10-2008 2-11-2008 3-12-2008
-5,0%
(Sitestat - GA)%, PV per week
-10,0%
-15,0%
(Sitestat - GA)%, PV per 4-
-20,0% weken
GA tags waren
-25,0%
niet op alle pages
-30,0%
geplaatst
-35,0%
incident waardoor
-40,0%
-45,0%
één tag niet runt
Er is een maximum afwijking aan te geven voor ‘acceptabele afwijking’ WA data
Afwijkingen groter dan deze waarden duiden op configuratieverschillen /
technische problemen / … In dat geval is interpretatie-verschil van WA data
11
misleidend en dient onderzocht te worden
12. Relatie WA output en STIR, DART
• OPMERKING: doel van STIR en DART is niet hetzelfde als
van Web Analytics
• daarom zijn b.v. meetmethodiek en metrics anders
• Studie Nedstat / Intomart:
• “weersta de verleiding om te vergelijken”
12
13. Relatie WA output en STIR
Voorbeeld: aantal ‘visits’ (genormaliseerd)
Trendvergelijking WA and STIR
100,0%
Genormaliseerde visitsaantallen
90,0%
80,0%
Google Analytics
70,0% Sitestat
STIR
60,0%
50,0%
40,0%
jul-09 jul-09 aug-09 sep-09 okt-09 nov-09
Absolute aantallen WA en STIR onvergelijkbaar (vanwege statistische opschaling)
Trend komt iets meer overeen, maar niet zo goed als tussen WA pakketten
13
14. Relatie WA output en DART
Voorbeeld: aantal page views versus som van delivered
impressions (genormaliseerd)
Trendvergelijking WA en DART
Genormaliseerde PV / impressions
100,0%
90,0%
80,0%
aantallen
Google Analytics
70,0% Sitestat
DART
60,0%
50,0%
40,0%
jul-09 aug-09 sep-09 okt-09 nov-09 dec-09
Absolute aantallen WA en DART minder vergelijkbaar dan WA pakketten onderling
Trend komt iets meer overeen, maar niet zo goed als tussen WA pakketten
14
15. WA verschillen: conclusies uit de data analyse
WA pakketten op dezelfde website genereren afwijkende
waarden
aantal soms tientallen % uit elkaar
verschillen niet identiek voor visitors, visits, page views, …
over meetperiodes heen zijn de onderlinge verschillen vrij constant
Afwijkingen tussen WA pakketten zijn website specifiek
• Een maximum voor ‘acceptabele afwijking’ van WA data is
aangegeven
Meerwaarde WA output zit in relatieve waarden en trends; niet in
absolute waarden
• WA en STIR / DART niet vergelijkbaar
• trends tonen wat meer overeenkomst
15
16. Doel van het project
Inhoud
• aanleiding:
WA verschillen wat is waar?
WA data analyse
• validatie van gangbare opinies
m.b.t. WA verschillen
Inhoud
• welke afwijkingen zijn acceptabel’?
WA test in gesloten omgeving
• toelichting testomgeving
• geverifieerde oorzaken van afwijkingen
• geconstateerde oorzaken
Conclusie
16
18. Opzet gesloten testomgeving: de website
• Voor ieder pakket is JavaScript geïnstalleerd op de pages van de
WPM website:
• Google Analytics, Sitestat, Webtrends
• alle pakketten gebruiken 1st party cookies en worden simultaan
gebruikt
• we weten het browsinggedrag op de website => exacte aantallen zijn
bekend
• Gedurende een deel van de testperiode werd robot-traffic naar
de website gestuurd
18
19. Opzet gesloten testomgeving: Verkeer en test cases
• Handmatige expert review
• doel: zoeken naar ‘te verwachten afwijkingen’
• Geautomatiseerde browsing sessies met Selenium
• doel: zoeken naar niet-reproduceerbare verschillen
• tests worden herhaald met andere browser / server settings
• cookies weggooien zodra browser sluit
• tag-placement boven / onder, volgorde
• browsing met IExplore / Firefox
• Vergeleken worden de traffic numbers:
• visits, visitors en page views
19
20. Onderzochte verklaringen van afwijkingen
Factoren van invloed
op meting web metrics
Browser Webserver / -site WA pakket
Settings: Double counted page views: Tag placement:
• Ondersteuning script-talen • Redirects • top / bottom
• Pop-up, spyware blocking
• alle pages getagd
Data collectie
Configuratie: • tags inline geplaatst
Double / not counting page views: • server logging settings
o.b.v. runnen
• refresh, back-pijl, page anchors • robot.txt Filtering ‘bot’ traffic, pages
• wegklikken vóór complete download
with errors
tags
Eigen / 3rd party website
Type browser (IE, Firefox, etc.)
• niet iedere browser werkt hetzelfde Proxy server caching (b.v. ISP of
• bv IE cookies beperkt tot 20/ domein Internet koppeling)
Gepersonaliseerde URLs kunnen
dezelfde page view betreffen
Data correlatie
Pages / experiences (e.g.
Settings: Flash, streaming)
• (3rd party) Cookies verwijderen Sessie definitie:
t.b.v.
• time-outs (b.v. log-in op website) Sessie time-out waarden en
visits / visitors
• geldigheidsduur cookie datumoverschrijding
Legenda:
Rood = niet onderzocht in gesloten omgeving
Groen = onderzocht in gesloten omgeving
20
Grijs = niet van toepassing
21. Opzet gesloten testomgeving: voorbeeld testje
Tijd Browse actie Logfile WA pakketten
23:05:00 in browser url van homepage ingetypt
23:05:05 rapportage gebruiksbeschikbaarheid aangeklikt
23:05:10 back-pijl; homepage wordt geladen Niet meegeteld WT
23:05:12 rapportage gebruiksbeschikbaarheid aangeklikt
23:05:13 back-pijl voordat pagina geladen wordt deel in logfile; Geen enkele pakket telt
(browser gaat van homepage terug naar startpagina) geen complete download deze als page view
23:05:15 sluit browser af
23:15:00 in browser url van homepage ingetypt
23:15:05 rapportage gebruiksbeschikbaarheid aangeklikt
23:15:30 back-pijl; homepage wordt geladen Niet meegeteld WT
23:15:35 rapportage gebruiksbeschikbaarheid url ingetypt met van beide browse acties Geen enkele pakket
typefout in query-string komt deel in logfile; telt deze
23:15:40 refresh geen complete download als page view
23:50:00 rapportage gebruiksbeschikbaarheid url ingetypt (correct) Gezien als nieuwe visit
0:05:00 refresh in logfile op 5 mrt Wordt niet meegeteld op
0:05:05 sluit browser af 4 mrt
Constateringen uit deze test:
• onvolledig geladen pages en foutieve URLs worden niet meegeteld door WA
pakketten (URLs met response code ≠ ‘OK’ kùnnen geteld worden, mits getagd)
• sessie time-out na 30 minuten => 2 visits
• GA geeft op deze dag een visit te veel aan …
• deze keer werkt datum overgang goed … 21
22. Overzicht van een testweek
Page views Bijzonderheden
GA Sitestat Webtrends Logfile
28-2-2009 25 25 20 25 WT rapporteert één pageview per sessie minder (back-pijl), wèl als hit geteld
1-3-2009 30 30 28 30 WT rapporteert één pageview per sessie minder en heeft één visit (rond 0:00 uur)
te veel die op 1 mrt i.p.v. 2 mrt wordt meegeteld
2-3-2009 50 50 15 55
3-3-2009 16 16 13 16 WT rapporteert één pageview per sessie minder (back-pijl), wèl als hit geteld
4-3-2009 71 71 58 74 Alle pakketten rapporteren de niet complete download en incorrecte URL niet;
WT rapporteert één PV per sessie minder en mist nog twee PV in laatste sessie
192 192 134 200
Totaal
Visits GA Sitestat Webtrends Logfile
28-2-2009 5 5 5 5
1-3-2009 6 6 7 6 WT rapporteert één visit rond 0:00 uur te veel die op 1 mrt i.p.v. 2 mrt wordt meegeteld
2-3-2009 10 10 4 11 (zie visitors)
3-3-2009 2 2 2 2
4-3-2009 12 11 11 11 GA meldt een visit te veel
35 34 29 35
Totaal
Visitors GA Sitestat Webtrends Logfile
28-2-2009 5 5 5 5
1-3-2009 6 6 7 6 WT rapporteert één visitor te veel die op 1 mrt i.p.v. 2 mrt wordt meegeteld
2-3-2009 10 10 3 11 GA, Sitestat en Webtrends missen allen één 'losse' visit tussen 11-12 uur;
(waarschijnlijk een Selenium sessie met IExplore die niet geheel werkte).
Daarnaast mist WT vanaf tussen 2 en 3 uur de resterende visits (server te druk?)
3-3-2009 2 2 2 2
4-3-2009 10 10 10 10
23 23 17 24
Totaal
Uitmiddelingeffecten over de werkweek periode:
• datumovergang middelt uit
22
• GA en Logfile visits zijn gelijk, terwijl ze op 2 van de 5 dagen verschillen
23. Constateringen uit gesloten testomgeving
• Visits
sessie time-out waarde alle pakketten is 30 minuten
verwijderen van cookies tot nieuwe bezoeker voor alle WA pakketten
• Datum overgang
× niet alle server klokken blijken gesynchroniseerd …
een visit die ‘door 0:00 uur loopt’ wordt in beide dagen meegeteld
• Back button, refresh, redirects
× WT telt back-button en refresh als enige pakket niet mee; redirects wel
automatische redirects wordt gezien als één page view door ieder WA pakket
• Snel klikken / foutieve URLs
geen van de pakketten telt deze mee
• Filtering van bot-traffic is niet helder geworden
× van WA en logfile gegevens is goed te achterhalen wat er gebeurt is, behalve
in de periode dat bot-traffic was aangezet
• Browser typen
één IExplore 6.0 visit is geheel aan alle tags ‘ontsnapt’
× Data analyse: soms runt WA script niet op (minder vaak gebruikte) browser
Legenda:
√ = veroorzaakt geen verschillen in gesloten omgeving
× = veroorzaakt wel verschillen in gesloten omgeving 23
24. Conclusie gesloten testomgeving
Je moet je best doen om verschillen te ‘creëren’,
d.w.z. in de basis werken alle pakketten hetzelfde.
Verschillen zitten in de (vele) details!
24
25. Doel van het project
Inhoud
• aanleiding:
WA verschillen wat is waar?
WA data analyse
• validatie van gangbare opinies
m.b.t. WA verschillen
Inhoud
• welke afwijkingen zijn acceptabel’?
WA test in gesloten omgeving
• toelichting testomgeving
• geverifieerde oorzaken van afwijkingen
• geconstateerde oorzaken
Conclusie
25
26. Eindconclusie WA verschillen
• Verschillen in WA statistieken zijn een ‘fact of life’
• iedereen ziet het; niet iedereen maakt zich er even druk om
• verschillen zijn niet éénduidig, niet algemeen geldend
• WA verschillen zijn continue in de tijd (afgezien van configuratiewijziging/incidenten)
verschillen hebben veel minder invloed op de trends
•
• Er is een range aangegeven voor ‘reële’ procentuele WA data verschillen
• afwijkingen groter dan deze duiden op configuratieverschillen / incidenten
• Data uit WA en STIR / DART zijn niet vergelijkbaar
• absolute waarden WA en STIR / DART zijn niet te vergelijken
• trends tonen iets meer overeenkomst, maar zelfs deze komt niet helemaal overeen
• Verklaring van oorzaken …
• WA pakketten zijn in de basis hetzelfde, die in principe dezelfde getallen geven
• de verschillen zitten in (vele) details !
26
27. Afronding project & vervolg
• Presentatie op WAA congres
• woensdag 25 maart 2009, http://waanetherlands.wordpress.com/
• Publicatie op Marketing Facts
• Persbericht TNO.nl en websites deelnemers
• Contact over resultaten met Eric Enge (StoneTemple, auteur
Shootout) en Eric Peterson (Analytics Demystified)
27