SlideShare une entreprise Scribd logo
1  sur  18
Télécharger pour lire hors ligne
Verkkoharavoinnin
hyödyntäminen
tiedonhankinnassa
Anna Potila-Kyläkoski
17.11.2022
Tiedonkeruun modernisointi -webinaari
1
16.1.2023 Tilastokeskus
Tarpeet verkkoharavoinnille
2
Tilastokeskus
16.1.2023
Uusia tietotarpeita, joiden täyttämiseen pohditaan aineistojen hankintaa,
syntyy koko ajan
• Tilastolain mukaan tilastojen laadintaan tarvittavat tiedot tulisi kerätä
mahdollisimman tehokkaasti ja tiedonantajien rasite minimoiden
• Valmiita rekistereitä tai rajapintoja ei saada/löydetä, tai tietojen
kerääminen suorilla tiedonkeruilla olisi liian kallista tai työlästä toteuttaa
• Suora tiedonkeruu (etenkin käynnit liikkeissä tai tietojen poimiminen
manuaalisesti verkosta) kallista, työvoimaintensiivistä, hidasta.
Lomakekeruu tai massa-aineistojen tuottaminen rasittaa tiedonantajia
(yritykset)
Verkkoharavointi?
3
Tilastokeskus
16.1.2023
Verkkoharavointi on automatisoitu tiedonkeruun menetelmä, joka
kerää tiedot määrämuotoisena verkkosivujen lähdekoodista
–Vaihtoehtona verkkoharavoinnille ovat ainakin
– Perinteinen suorakeruu (kysely)
– Manuaalinen tiedon poiminta
– Yhdessä tiedon tuottajan (esim. yrityksen tai sivuston ylläpitäjän)
kanssa määritetyt rajapintahaut (API)
– Tiedostomuotoiset toimitukset
Verkkoharavat tuotantokäytössä tai
kokeilussa Tilastokeskuksessa
–Vuokramökit (tuotanto)
www.stat.fi/keruu/vumo/
–Rautakaupat (tuotanto)
www.stat.fi/keruu/raka/
–Vaatteet
–Huonekalut
–Autot
–Uusia suunnitteilla
4
Tilastokeskus
16.1.2023
Verkkoharavoinnin mahdollisuudet
5
Tilastokeskus
16.1.2023
–Koko internetin laajuinen ”tietovaranto” käytettävissä
–Tiedot saatavissa ajantasaisesti ja nopeasti
– Kymmeniätuhansia tietoja muutamassa sekunnissa
–Haravien laatu ja soveltuvuus tilastoihin voi vaihdella suurestikin
– Mahdollisuuksia on paljon, ja tarkentuvat tapauskohtaisesti tutkimalla
– Erilaisissa hintakeruissa huomattavia säästömahdollisuuksia
–Sopii hyvin massa-aineistojen keruuseen
–Oikein toteutettuna ei kuormita tiedontuottajan teknisiä tai
henkilöresursseja
Haasteet
6
Tilastokeskus
16.1.2023
–Lainsäädännön tuomat ja eettiset reunaehdot
–Testidataa saadaan, mutta tuotantokäytössä tunnistauduttava
> blokkaus > pyyntö avata > joskus jopa sopimusneuvottelut
–Kaikkia olennaisia tietoja ei saada haravoinnin kautta,
tarvitaan useampi tietolähde
–Kolmansien osapuolien haravoimien tietojen mahdollisuudet
vs. eettiset ja juridiset linjaukset
–Hankalasti hahmotettavat viritelmät nettisivujen takana, mistä
nettisivulla oleva tieto tulee, kuka omistaa aineiston
–Sivusto (alusta) voidaan lakkauttaa, mistä korvaava tieto
nopeasti?
–Ei varmuutta että tiedot (esim. hinnat) päivitetään
ajantasaisesti sivustolle
Teknologian nykytila ja uudet
vaatimukset
7
Tilastokeskus
16.1.2023
– Sivustoilla uudentyyppisiä taulurakenteita, javascriptiä, visuaalisen puolen ja
käytettävyyden muutokset haastavat
– Sivustojen uudistuminen, vanhan rinnalle kehitetään uusia sivuja jotka vaikeuttavat
haravointia (sivustojen rakenteen selvittäminen vaikeaa)
– Teknologian tarjoamat mahdollisuudet vs. linjaus ja rajat (emme hakkeroi, toimi
pimeissä verkoissa jne.)
– Muutokset edellyttävät useimmiten haravien päivittämistä tai jopa
uudelleenrakentamista
– Teknologinen kehitys sivustoilla (pysytäänkö muutosten mukana)
– Cloudflaren kaltaiset sivustojen suojausmenetelmät estävät haravoinnin
– Haravat vaativat jatkuvaa ylläpitoa
– Sivustojen rakenne voi muuttua ennakoimattomasti
– Tuotteet/kohde mitä halutaan haravoida vaihtuu
Lainsäädäntö
8
Tilastokeskus
16.1.2023
Tilastojen laadintaa ohjaa tilastolaki (280/2004).
Tilastolakiin tai muuhun lainsäädäntöön ei sisälly varsinaisia
verkkoharavointia koskevia säännöksiä.
Verkkoharavointia tilastotuotannossa koskevia vakiintuneita tulkintoja tai
oikeuskäytäntöä ei ole. Käytännöt ovat kansainväliselläkin tasolla vasta
muotoutumassa.
Verkkoharavointia tällä hetkellä tarkasteltava
• yleislainsäädännön perusteella
• tilastojen laadintaa koskevan lainsäädännön perusteella
Verkkoharavoinnin lainmukaisuutta arvioitaessa huomioitava
• tekijänoikeudet
• tietosuoja
• käyttöehdot
Linjaus selkeyttämään käyttöä
9
Tilastokeskus
16.1.2023
Haravien oltava (Tilastokeskuksen) linjausten mukaisia ja hyvää netikettiä
noudattavia ”eettisiä”
– Vaikka moni seikka puoltaa internetistä haravoitujen tietojen
hyödyntämistä, ei tietojen käyttäminen tilastoinnissa ole ongelmatonta.
• Tiedon laatua koskevat puutteet
• Eettiset ongelmat
• Juridiset ongelmat
– Samoja haasteita pohditaan eurooppalaisessa tilastoyhteistyössä.
– Ensimmäinen verkosta haravoitujen tietojen käyttöä koskeva linjaus (ESS
Web scraping policy template) julkaistiin heinäkuussa 2019, ja se on
yhtenäinen Tilastokeskuksen käytäntöjen kanssa.
Eettisen kestävyyden varmistaminen
10
Tilastokeskus
16.1.2023
Lainmukaisuus
• Lainsäädäntö ja tietosuoja huomioidaan ja noudatetaan täysimääräisesti.
Mahdollisia muutoksia seurataan.
Läpinäkyvyys
• Verkkoharavoinneista ilmoitetaan julkisesti Tilastokeskuksen kotisivuilla.
• Haravoinnin tarkoitus, haravoinnin kohteena olevat tietotyypit
• Yhteystiedot, joihin verkkosivuston ylläpitäjä voi ottaa yhteyttä lisätietojen
pyytämiseksi tai haravoinnin rajoittamiseksi.
• Jos tiedonantovelvollisuuteen perustuvaa tiedon keräämistä, tietoja kerättäessä
huomioidaan tilastolain mukainen tiedottamisvelvollisuus. Henkilötietojen
käsittelyä koskevaa informointivelvollisuutta noudatetaan.
Vähimmän haitan periaate
• Verkkoharavointi siten, että haravoinnista aiheutuu verkkosivuston toiminnalle ja
sen omistajille mahdollisimman vähän haittaa ja kustannuksia.
Eettisen kestävyyden varmistaminen
11
Tilastokeskus
16.1.2023
Oikeus kieltää
• Verkkosivuston ylläpitäjille annetaan oikeus kieltää haravointi (opt-out)
ottamalla yhteyttä Tilastokeskukseen.
• Kieltopyyntöjä kunnioitetaan, ja ne ilmoitetaan yhteiseen listaan (ns. black
list).
Tilastointiperiaatteiden noudattaminen
• Tilastojen laatimiseen ja toimintaan sovellettavia menettelytapoja, periaatteita
ja ammattietiikkaa noudatetaan myös verkkoharavoinnissa.
Käyttöehtojen tarkistaminen
• Verkkoharavointi kohdistetaan toistaiseksi ainoastaan sellaisille
verkkosivustoille, joiden käyttöehdot on tarkistettu.
• Haravoinnin katsotaan olevan sallittua, jos sitä ei ole nimenomaisesti kielletty
tai kielto on selkeästi rajattu koskemaan pelkästään kaupallista toimintaa.
Käytännön toimintaperiaatteet
12
Tilastokeskus
16.1.2023
Tietojen tarpeellisuus
• Verkkoharavointi kohdistetaan vain sellaisiin tietoihin, jotka ovat
perustellusti tarpeellisia tilastojen laatimisen kannalta.
• Tietojen on tuotava lisäarvoa tilastotuotantoon.
Käyttötarkoitus
Verkkoharavoinnin avulla kerättyjä aineistoja voidaan luovuttaa
ainoastaan Tilastolain 13 §:n mukaisiin tarkoituksiin.
Identiteetin paljastaminen (user agent string)
Haravoitavalle verkkosivustolle ilmoitetaan
• Tilastokeskuksen identiteetti
• yhteyspiste yhteydenottoa varten
• linkki verkkoharavointia koskevaan ilmoitukseen Tilastokeskuksen
kotisivuille.
Käytännön toimintaperiaatteet
13
Tilastokeskus
16.1.2023
Kuormittamisen minimointi
• Verkkosivustoja ei kuormiteta liiallisilla ja tiheillä kyselyillä
• Haravointi ajoitetaan sivuston hiljaisimpiin aikoihin (esim. yöaikaan)
• Ylimääräisiä kyselyitä ei tehdä, vaan haravat toteutetaan siten, että ne
hakevat ainoastaan tarpeellisia tietoja.
Etukäteiskuuleminen poikkeustapauksissa
Verkkosivuston ylläpitäjää kuullaan etukäteen tapauksissa, joissa
verkkoharavointi olisi poikkeuksellisen laajamittaista tai kuormittavaa.
Tilannekohtainen harkinta
• Verkkoharavoinnin tilannekohtainen tarkoituksenmukaisuus selvitetään
ennen haravoinnin aloittamista.
• Tiedot voidaan hakea myös APIn kautta, jos sellainen on tarjottu.
Käytännön toimintaperiaatteet
14
Tilastokeskus
16.1.2023
Robots.txt
• Jos verkkosivustolla on verkkoharavoinnin kieltävä robots.txt tiedosto,
sitä kunnioitetaan. Robots.txt-tiedostosta poikkeamiseen voidaan
tarvittaessa kysyä lupaa verkkosivuston ylläpitäjältä (kirjallisesti).
• Haravointia ei tule aloittaa ennen myöntävän vastauksen saamista.
Kolmannen osapuolen haravoiman aineiston hankinta
• Noudatettava samoja periaatteita kuin edellä esitelty
• Ei saa olla kopioitu esim. tekijänoikeuksien suojaamasta
tietokannasta
• Ei saa sisältää luvattomasti haravoituja tietoja
• Oltava eettisesti kestävällä tavalla hankittua
• Ei saa sisältää henkilötietoja
Voiko haravoinnin varaan perustaa
tuotantoa?
15
Tilastokeskus
16.1.2023
–Toimintaympäristön seuranta ja muutoksiin reagoiminen
olennaista
–Kommunikaatio tuotantokäyttöön tulevan tiedon tuottajan
kanssa korostuu
Haravan rakentaminen
16
Tilastokeskus
16.1.2023
–Tekniikoita
(Beutifulsoup, Requests, Scrapy, Selenium, Requests back
end –tekniikalla)
–Tutustumismateriaalia Scrapyyn:
https://docs.scrapy.org/en/latest/
https://docs.scrapy.org/en/latest/intro/tutorial.html
Haravointialusta
17
Tilastokeskus
16.1.2023
Tiedonkeruualusta jolle tuodaan kerääjiä (=haravat)
Sisältää yhteisiä komponentteja
–ajastus
–datan siirto
–konfiguraatiotiedosto
–selaimen ajurit ja asennus
–haravien monitorointi
–virheilmoitukset
–lokitus
+keskitetty käyttöoikeuksien hallinta
18
Tilastokeskus
16.1.2023

Contenu connexe

Similaire à 17.11.2022 Tiedonkeruun modernisointi, Tilastokeskus

Sote-tiedon toissijaisen käytön kokonaisarkkitehtuuri
Sote-tiedon toissijaisen käytön kokonaisarkkitehtuuriSote-tiedon toissijaisen käytön kokonaisarkkitehtuuri
Sote-tiedon toissijaisen käytön kokonaisarkkitehtuuriSitra / Hyvinvointi
 
Tietietofoorumi 27.9.2018 - Tiestön olosuhdetiedon hyödyntäminen
Tietietofoorumi 27.9.2018 - Tiestön olosuhdetiedon hyödyntäminenTietietofoorumi 27.9.2018 - Tiestön olosuhdetiedon hyödyntäminen
Tietietofoorumi 27.9.2018 - Tiestön olosuhdetiedon hyödyntäminenSuomen metsäkeskus
 
Eurooppalaiset verkkosäännöt yleistä
Eurooppalaiset verkkosäännöt   yleistäEurooppalaiset verkkosäännöt   yleistä
Eurooppalaiset verkkosäännöt yleistäFingrid Oyj
 
Sote-tiedonhallinnan työkalujen hyödyntäminen Sote-tietojärjestelmien olennai...
Sote-tiedonhallinnan työkalujen hyödyntäminen Sote-tietojärjestelmien olennai...Sote-tiedonhallinnan työkalujen hyödyntäminen Sote-tietojärjestelmien olennai...
Sote-tiedonhallinnan työkalujen hyödyntäminen Sote-tietojärjestelmien olennai...THL
 
Thl oper6-140506004225-phpapp01
Thl oper6-140506004225-phpapp01Thl oper6-140506004225-phpapp01
Thl oper6-140506004225-phpapp01kaarima
 
5 FRIBS tilastotuotanto kehittyy 8_2019_reetta moilanen
5 FRIBS tilastotuotanto kehittyy 8_2019_reetta moilanen5 FRIBS tilastotuotanto kehittyy 8_2019_reetta moilanen
5 FRIBS tilastotuotanto kehittyy 8_2019_reetta moilanenTilastokeskus
 
Terveydenhoitoalan tietojärjestelmien kehittämisen haasteet
Terveydenhoitoalan tietojärjestelmien kehittämisen haasteetTerveydenhoitoalan tietojärjestelmien kehittämisen haasteet
Terveydenhoitoalan tietojärjestelmien kehittämisen haasteetJyrki Kasvi
 
20+ vuotta Tilastokeskuksen valmisaineistoja tutkijoille
20+ vuotta Tilastokeskuksen valmisaineistoja tutkijoille20+ vuotta Tilastokeskuksen valmisaineistoja tutkijoille
20+ vuotta Tilastokeskuksen valmisaineistoja tutkijoilleTilastokeskus
 
Datatalouden ja tekoälyn regulaatio – missä mennään?
Datatalouden ja tekoälyn regulaatio – missä mennään?Datatalouden ja tekoälyn regulaatio – missä mennään?
Datatalouden ja tekoälyn regulaatio – missä mennään?Mindtrek
 
Mission impossible
Mission impossible Mission impossible
Mission impossible Jyrki Kasvi
 
Mainostoimisto Kanava.to – Webortaasi2013
Mainostoimisto Kanava.to – Webortaasi2013Mainostoimisto Kanava.to – Webortaasi2013
Mainostoimisto Kanava.to – Webortaasi2013Mainostoimisto Kanava.to
 
Mikä ihmeen palveluväylä ja omahoito - mitä hyötyä, kenelle ja milloin? - Sit...
Mikä ihmeen palveluväylä ja omahoito - mitä hyötyä, kenelle ja milloin? - Sit...Mikä ihmeen palveluväylä ja omahoito - mitä hyötyä, kenelle ja milloin? - Sit...
Mikä ihmeen palveluväylä ja omahoito - mitä hyötyä, kenelle ja milloin? - Sit...Sitra / Hyvinvointi
 
Digitalisaation merkitys kantaverkkoyhtiölle - Kari Suominen, Fingridin ICT-j...
Digitalisaation merkitys kantaverkkoyhtiölle - Kari Suominen, Fingridin ICT-j...Digitalisaation merkitys kantaverkkoyhtiölle - Kari Suominen, Fingridin ICT-j...
Digitalisaation merkitys kantaverkkoyhtiölle - Kari Suominen, Fingridin ICT-j...Fingrid Oyj
 
Gosei hankintavalmistelu-18.9.2013.key
Gosei hankintavalmistelu-18.9.2013.keyGosei hankintavalmistelu-18.9.2013.key
Gosei hankintavalmistelu-18.9.2013.keyGosei Oy
 

Similaire à 17.11.2022 Tiedonkeruun modernisointi, Tilastokeskus (20)

STM digimuutoksen ajankohtaiset
STM digimuutoksen ajankohtaiset STM digimuutoksen ajankohtaiset
STM digimuutoksen ajankohtaiset
 
Sote-tiedon toissijaisen käytön kokonaisarkkitehtuuri
Sote-tiedon toissijaisen käytön kokonaisarkkitehtuuriSote-tiedon toissijaisen käytön kokonaisarkkitehtuuri
Sote-tiedon toissijaisen käytön kokonaisarkkitehtuuri
 
Tietietofoorumi 27.9.2018 - Tiestön olosuhdetiedon hyödyntäminen
Tietietofoorumi 27.9.2018 - Tiestön olosuhdetiedon hyödyntäminenTietietofoorumi 27.9.2018 - Tiestön olosuhdetiedon hyödyntäminen
Tietietofoorumi 27.9.2018 - Tiestön olosuhdetiedon hyödyntäminen
 
Eurooppalaiset verkkosäännöt yleistä
Eurooppalaiset verkkosäännöt   yleistäEurooppalaiset verkkosäännöt   yleistä
Eurooppalaiset verkkosäännöt yleistä
 
Sote-tiedonhallinnan työkalujen hyödyntäminen Sote-tietojärjestelmien olennai...
Sote-tiedonhallinnan työkalujen hyödyntäminen Sote-tietojärjestelmien olennai...Sote-tiedonhallinnan työkalujen hyödyntäminen Sote-tietojärjestelmien olennai...
Sote-tiedonhallinnan työkalujen hyödyntäminen Sote-tietojärjestelmien olennai...
 
Thl oper6-140506004225-phpapp01
Thl oper6-140506004225-phpapp01Thl oper6-140506004225-phpapp01
Thl oper6-140506004225-phpapp01
 
5 FRIBS tilastotuotanto kehittyy 8_2019_reetta moilanen
5 FRIBS tilastotuotanto kehittyy 8_2019_reetta moilanen5 FRIBS tilastotuotanto kehittyy 8_2019_reetta moilanen
5 FRIBS tilastotuotanto kehittyy 8_2019_reetta moilanen
 
Terveydenhoitoalan tietojärjestelmien kehittämisen haasteet
Terveydenhoitoalan tietojärjestelmien kehittämisen haasteetTerveydenhoitoalan tietojärjestelmien kehittämisen haasteet
Terveydenhoitoalan tietojärjestelmien kehittämisen haasteet
 
Tereydenhoitoalan tietojärjestelmien kehittämisen haasteet
Tereydenhoitoalan tietojärjestelmien kehittämisen haasteetTereydenhoitoalan tietojärjestelmien kehittämisen haasteet
Tereydenhoitoalan tietojärjestelmien kehittämisen haasteet
 
20+ vuotta Tilastokeskuksen valmisaineistoja tutkijoille
20+ vuotta Tilastokeskuksen valmisaineistoja tutkijoille20+ vuotta Tilastokeskuksen valmisaineistoja tutkijoille
20+ vuotta Tilastokeskuksen valmisaineistoja tutkijoille
 
Datatalouden ja tekoälyn regulaatio – missä mennään?
Datatalouden ja tekoälyn regulaatio – missä mennään?Datatalouden ja tekoälyn regulaatio – missä mennään?
Datatalouden ja tekoälyn regulaatio – missä mennään?
 
3 lahesmaa toisioesitys_2018_10_29
3 lahesmaa toisioesitys_2018_10_293 lahesmaa toisioesitys_2018_10_29
3 lahesmaa toisioesitys_2018_10_29
 
Mission impossible
Mission impossible Mission impossible
Mission impossible
 
Mission impossible
Mission impossibleMission impossible
Mission impossible
 
Mainostoimisto Kanava.to – Webortaasi2013
Mainostoimisto Kanava.to – Webortaasi2013Mainostoimisto Kanava.to – Webortaasi2013
Mainostoimisto Kanava.to – Webortaasi2013
 
Hallituksen selvitys sosiaali- ja terveydenhuollon tietojärjestelmien ja raho...
Hallituksen selvitys sosiaali- ja terveydenhuollon tietojärjestelmien ja raho...Hallituksen selvitys sosiaali- ja terveydenhuollon tietojärjestelmien ja raho...
Hallituksen selvitys sosiaali- ja terveydenhuollon tietojärjestelmien ja raho...
 
Mikä ihmeen palveluväylä ja omahoito - mitä hyötyä, kenelle ja milloin? - Sit...
Mikä ihmeen palveluväylä ja omahoito - mitä hyötyä, kenelle ja milloin? - Sit...Mikä ihmeen palveluväylä ja omahoito - mitä hyötyä, kenelle ja milloin? - Sit...
Mikä ihmeen palveluväylä ja omahoito - mitä hyötyä, kenelle ja milloin? - Sit...
 
Valinnanvapauden tietojärjestelmäarkkitehtuuri
Valinnanvapauden tietojärjestelmäarkkitehtuuriValinnanvapauden tietojärjestelmäarkkitehtuuri
Valinnanvapauden tietojärjestelmäarkkitehtuuri
 
Digitalisaation merkitys kantaverkkoyhtiölle - Kari Suominen, Fingridin ICT-j...
Digitalisaation merkitys kantaverkkoyhtiölle - Kari Suominen, Fingridin ICT-j...Digitalisaation merkitys kantaverkkoyhtiölle - Kari Suominen, Fingridin ICT-j...
Digitalisaation merkitys kantaverkkoyhtiölle - Kari Suominen, Fingridin ICT-j...
 
Gosei hankintavalmistelu-18.9.2013.key
Gosei hankintavalmistelu-18.9.2013.keyGosei hankintavalmistelu-18.9.2013.key
Gosei hankintavalmistelu-18.9.2013.key
 

Plus de Tilastokeskus

Kasvoiko Suomen bruttokansantuote 2023? Yliaktuaari Samu Hakala, Tilastokeskus
Kasvoiko Suomen bruttokansantuote 2023? Yliaktuaari Samu Hakala, TilastokeskusKasvoiko Suomen bruttokansantuote 2023? Yliaktuaari Samu Hakala, Tilastokeskus
Kasvoiko Suomen bruttokansantuote 2023? Yliaktuaari Samu Hakala, TilastokeskusTilastokeskus
 
Miten rakentaminen, teollisuus ja palvelut kehittyivät? Yliaktuaari Eljas Tuo...
Miten rakentaminen, teollisuus ja palvelut kehittyivät? Yliaktuaari Eljas Tuo...Miten rakentaminen, teollisuus ja palvelut kehittyivät? Yliaktuaari Eljas Tuo...
Miten rakentaminen, teollisuus ja palvelut kehittyivät? Yliaktuaari Eljas Tuo...Tilastokeskus
 
Mitä tapahtui ulkomaankaupassa? Yliaktuaari Reetta Karinluoma, Tilastokeskus
Mitä tapahtui ulkomaankaupassa? Yliaktuaari Reetta Karinluoma, TilastokeskusMitä tapahtui ulkomaankaupassa? Yliaktuaari Reetta Karinluoma, Tilastokeskus
Mitä tapahtui ulkomaankaupassa? Yliaktuaari Reetta Karinluoma, TilastokeskusTilastokeskus
 
Millaisia muutoksia tapahtui yksityisessä kulutuksessa ja investoinneissa, yl...
Millaisia muutoksia tapahtui yksityisessä kulutuksessa ja investoinneissa, yl...Millaisia muutoksia tapahtui yksityisessä kulutuksessa ja investoinneissa, yl...
Millaisia muutoksia tapahtui yksityisessä kulutuksessa ja investoinneissa, yl...Tilastokeskus
 
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, TilastokeskusTilastokeskus
 
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, TilastokeskusTilastokeskus
 
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, TilastokeskusTilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, TilastokeskusTilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, TilastokeskusTilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, TilastokeskusTilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, TilastokeskusTilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, TilastokeskusTilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, TilastokeskusTilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, TilastokeskusTilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, TilastokeskusTilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, TilastokeskusTilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, TilastokeskusTilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, TilastokeskusTilastokeskus
 
TOL2025 - mikä muuttuu? Miten uudistus toteutettiin? Miten muutostarpeet Suom...
TOL2025 - mikä muuttuu? Miten uudistus toteutettiin? Miten muutostarpeet Suom...TOL2025 - mikä muuttuu? Miten uudistus toteutettiin? Miten muutostarpeet Suom...
TOL2025 - mikä muuttuu? Miten uudistus toteutettiin? Miten muutostarpeet Suom...Tilastokeskus
 
Lääkärien vuokratyö, Heli Udd, Tilastokeskus
Lääkärien vuokratyö, Heli Udd, TilastokeskusLääkärien vuokratyö, Heli Udd, Tilastokeskus
Lääkärien vuokratyö, Heli Udd, TilastokeskusTilastokeskus
 

Plus de Tilastokeskus (20)

Kasvoiko Suomen bruttokansantuote 2023? Yliaktuaari Samu Hakala, Tilastokeskus
Kasvoiko Suomen bruttokansantuote 2023? Yliaktuaari Samu Hakala, TilastokeskusKasvoiko Suomen bruttokansantuote 2023? Yliaktuaari Samu Hakala, Tilastokeskus
Kasvoiko Suomen bruttokansantuote 2023? Yliaktuaari Samu Hakala, Tilastokeskus
 
Miten rakentaminen, teollisuus ja palvelut kehittyivät? Yliaktuaari Eljas Tuo...
Miten rakentaminen, teollisuus ja palvelut kehittyivät? Yliaktuaari Eljas Tuo...Miten rakentaminen, teollisuus ja palvelut kehittyivät? Yliaktuaari Eljas Tuo...
Miten rakentaminen, teollisuus ja palvelut kehittyivät? Yliaktuaari Eljas Tuo...
 
Mitä tapahtui ulkomaankaupassa? Yliaktuaari Reetta Karinluoma, Tilastokeskus
Mitä tapahtui ulkomaankaupassa? Yliaktuaari Reetta Karinluoma, TilastokeskusMitä tapahtui ulkomaankaupassa? Yliaktuaari Reetta Karinluoma, Tilastokeskus
Mitä tapahtui ulkomaankaupassa? Yliaktuaari Reetta Karinluoma, Tilastokeskus
 
Millaisia muutoksia tapahtui yksityisessä kulutuksessa ja investoinneissa, yl...
Millaisia muutoksia tapahtui yksityisessä kulutuksessa ja investoinneissa, yl...Millaisia muutoksia tapahtui yksityisessä kulutuksessa ja investoinneissa, yl...
Millaisia muutoksia tapahtui yksityisessä kulutuksessa ja investoinneissa, yl...
 
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
 
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
 
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
13.2.2024 Datajournalismin pikakurssi, Tilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
 
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus14.12.2023 Kiertotalous Suomessa, Tilastokeskus
14.12.2023 Kiertotalous Suomessa, Tilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
 
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
21.11.2023 Talouden kokonaiskestävyyden mittaaminen, Tilastokeskus
 
TOL2025 - mikä muuttuu? Miten uudistus toteutettiin? Miten muutostarpeet Suom...
TOL2025 - mikä muuttuu? Miten uudistus toteutettiin? Miten muutostarpeet Suom...TOL2025 - mikä muuttuu? Miten uudistus toteutettiin? Miten muutostarpeet Suom...
TOL2025 - mikä muuttuu? Miten uudistus toteutettiin? Miten muutostarpeet Suom...
 
Lääkärien vuokratyö, Heli Udd, Tilastokeskus
Lääkärien vuokratyö, Heli Udd, TilastokeskusLääkärien vuokratyö, Heli Udd, Tilastokeskus
Lääkärien vuokratyö, Heli Udd, Tilastokeskus
 

17.11.2022 Tiedonkeruun modernisointi, Tilastokeskus

  • 2. Tarpeet verkkoharavoinnille 2 Tilastokeskus 16.1.2023 Uusia tietotarpeita, joiden täyttämiseen pohditaan aineistojen hankintaa, syntyy koko ajan • Tilastolain mukaan tilastojen laadintaan tarvittavat tiedot tulisi kerätä mahdollisimman tehokkaasti ja tiedonantajien rasite minimoiden • Valmiita rekistereitä tai rajapintoja ei saada/löydetä, tai tietojen kerääminen suorilla tiedonkeruilla olisi liian kallista tai työlästä toteuttaa • Suora tiedonkeruu (etenkin käynnit liikkeissä tai tietojen poimiminen manuaalisesti verkosta) kallista, työvoimaintensiivistä, hidasta. Lomakekeruu tai massa-aineistojen tuottaminen rasittaa tiedonantajia (yritykset)
  • 3. Verkkoharavointi? 3 Tilastokeskus 16.1.2023 Verkkoharavointi on automatisoitu tiedonkeruun menetelmä, joka kerää tiedot määrämuotoisena verkkosivujen lähdekoodista –Vaihtoehtona verkkoharavoinnille ovat ainakin – Perinteinen suorakeruu (kysely) – Manuaalinen tiedon poiminta – Yhdessä tiedon tuottajan (esim. yrityksen tai sivuston ylläpitäjän) kanssa määritetyt rajapintahaut (API) – Tiedostomuotoiset toimitukset
  • 4. Verkkoharavat tuotantokäytössä tai kokeilussa Tilastokeskuksessa –Vuokramökit (tuotanto) www.stat.fi/keruu/vumo/ –Rautakaupat (tuotanto) www.stat.fi/keruu/raka/ –Vaatteet –Huonekalut –Autot –Uusia suunnitteilla 4 Tilastokeskus 16.1.2023
  • 5. Verkkoharavoinnin mahdollisuudet 5 Tilastokeskus 16.1.2023 –Koko internetin laajuinen ”tietovaranto” käytettävissä –Tiedot saatavissa ajantasaisesti ja nopeasti – Kymmeniätuhansia tietoja muutamassa sekunnissa –Haravien laatu ja soveltuvuus tilastoihin voi vaihdella suurestikin – Mahdollisuuksia on paljon, ja tarkentuvat tapauskohtaisesti tutkimalla – Erilaisissa hintakeruissa huomattavia säästömahdollisuuksia –Sopii hyvin massa-aineistojen keruuseen –Oikein toteutettuna ei kuormita tiedontuottajan teknisiä tai henkilöresursseja
  • 6. Haasteet 6 Tilastokeskus 16.1.2023 –Lainsäädännön tuomat ja eettiset reunaehdot –Testidataa saadaan, mutta tuotantokäytössä tunnistauduttava > blokkaus > pyyntö avata > joskus jopa sopimusneuvottelut –Kaikkia olennaisia tietoja ei saada haravoinnin kautta, tarvitaan useampi tietolähde –Kolmansien osapuolien haravoimien tietojen mahdollisuudet vs. eettiset ja juridiset linjaukset –Hankalasti hahmotettavat viritelmät nettisivujen takana, mistä nettisivulla oleva tieto tulee, kuka omistaa aineiston –Sivusto (alusta) voidaan lakkauttaa, mistä korvaava tieto nopeasti? –Ei varmuutta että tiedot (esim. hinnat) päivitetään ajantasaisesti sivustolle
  • 7. Teknologian nykytila ja uudet vaatimukset 7 Tilastokeskus 16.1.2023 – Sivustoilla uudentyyppisiä taulurakenteita, javascriptiä, visuaalisen puolen ja käytettävyyden muutokset haastavat – Sivustojen uudistuminen, vanhan rinnalle kehitetään uusia sivuja jotka vaikeuttavat haravointia (sivustojen rakenteen selvittäminen vaikeaa) – Teknologian tarjoamat mahdollisuudet vs. linjaus ja rajat (emme hakkeroi, toimi pimeissä verkoissa jne.) – Muutokset edellyttävät useimmiten haravien päivittämistä tai jopa uudelleenrakentamista – Teknologinen kehitys sivustoilla (pysytäänkö muutosten mukana) – Cloudflaren kaltaiset sivustojen suojausmenetelmät estävät haravoinnin – Haravat vaativat jatkuvaa ylläpitoa – Sivustojen rakenne voi muuttua ennakoimattomasti – Tuotteet/kohde mitä halutaan haravoida vaihtuu
  • 8. Lainsäädäntö 8 Tilastokeskus 16.1.2023 Tilastojen laadintaa ohjaa tilastolaki (280/2004). Tilastolakiin tai muuhun lainsäädäntöön ei sisälly varsinaisia verkkoharavointia koskevia säännöksiä. Verkkoharavointia tilastotuotannossa koskevia vakiintuneita tulkintoja tai oikeuskäytäntöä ei ole. Käytännöt ovat kansainväliselläkin tasolla vasta muotoutumassa. Verkkoharavointia tällä hetkellä tarkasteltava • yleislainsäädännön perusteella • tilastojen laadintaa koskevan lainsäädännön perusteella Verkkoharavoinnin lainmukaisuutta arvioitaessa huomioitava • tekijänoikeudet • tietosuoja • käyttöehdot
  • 9. Linjaus selkeyttämään käyttöä 9 Tilastokeskus 16.1.2023 Haravien oltava (Tilastokeskuksen) linjausten mukaisia ja hyvää netikettiä noudattavia ”eettisiä” – Vaikka moni seikka puoltaa internetistä haravoitujen tietojen hyödyntämistä, ei tietojen käyttäminen tilastoinnissa ole ongelmatonta. • Tiedon laatua koskevat puutteet • Eettiset ongelmat • Juridiset ongelmat – Samoja haasteita pohditaan eurooppalaisessa tilastoyhteistyössä. – Ensimmäinen verkosta haravoitujen tietojen käyttöä koskeva linjaus (ESS Web scraping policy template) julkaistiin heinäkuussa 2019, ja se on yhtenäinen Tilastokeskuksen käytäntöjen kanssa.
  • 10. Eettisen kestävyyden varmistaminen 10 Tilastokeskus 16.1.2023 Lainmukaisuus • Lainsäädäntö ja tietosuoja huomioidaan ja noudatetaan täysimääräisesti. Mahdollisia muutoksia seurataan. Läpinäkyvyys • Verkkoharavoinneista ilmoitetaan julkisesti Tilastokeskuksen kotisivuilla. • Haravoinnin tarkoitus, haravoinnin kohteena olevat tietotyypit • Yhteystiedot, joihin verkkosivuston ylläpitäjä voi ottaa yhteyttä lisätietojen pyytämiseksi tai haravoinnin rajoittamiseksi. • Jos tiedonantovelvollisuuteen perustuvaa tiedon keräämistä, tietoja kerättäessä huomioidaan tilastolain mukainen tiedottamisvelvollisuus. Henkilötietojen käsittelyä koskevaa informointivelvollisuutta noudatetaan. Vähimmän haitan periaate • Verkkoharavointi siten, että haravoinnista aiheutuu verkkosivuston toiminnalle ja sen omistajille mahdollisimman vähän haittaa ja kustannuksia.
  • 11. Eettisen kestävyyden varmistaminen 11 Tilastokeskus 16.1.2023 Oikeus kieltää • Verkkosivuston ylläpitäjille annetaan oikeus kieltää haravointi (opt-out) ottamalla yhteyttä Tilastokeskukseen. • Kieltopyyntöjä kunnioitetaan, ja ne ilmoitetaan yhteiseen listaan (ns. black list). Tilastointiperiaatteiden noudattaminen • Tilastojen laatimiseen ja toimintaan sovellettavia menettelytapoja, periaatteita ja ammattietiikkaa noudatetaan myös verkkoharavoinnissa. Käyttöehtojen tarkistaminen • Verkkoharavointi kohdistetaan toistaiseksi ainoastaan sellaisille verkkosivustoille, joiden käyttöehdot on tarkistettu. • Haravoinnin katsotaan olevan sallittua, jos sitä ei ole nimenomaisesti kielletty tai kielto on selkeästi rajattu koskemaan pelkästään kaupallista toimintaa.
  • 12. Käytännön toimintaperiaatteet 12 Tilastokeskus 16.1.2023 Tietojen tarpeellisuus • Verkkoharavointi kohdistetaan vain sellaisiin tietoihin, jotka ovat perustellusti tarpeellisia tilastojen laatimisen kannalta. • Tietojen on tuotava lisäarvoa tilastotuotantoon. Käyttötarkoitus Verkkoharavoinnin avulla kerättyjä aineistoja voidaan luovuttaa ainoastaan Tilastolain 13 §:n mukaisiin tarkoituksiin. Identiteetin paljastaminen (user agent string) Haravoitavalle verkkosivustolle ilmoitetaan • Tilastokeskuksen identiteetti • yhteyspiste yhteydenottoa varten • linkki verkkoharavointia koskevaan ilmoitukseen Tilastokeskuksen kotisivuille.
  • 13. Käytännön toimintaperiaatteet 13 Tilastokeskus 16.1.2023 Kuormittamisen minimointi • Verkkosivustoja ei kuormiteta liiallisilla ja tiheillä kyselyillä • Haravointi ajoitetaan sivuston hiljaisimpiin aikoihin (esim. yöaikaan) • Ylimääräisiä kyselyitä ei tehdä, vaan haravat toteutetaan siten, että ne hakevat ainoastaan tarpeellisia tietoja. Etukäteiskuuleminen poikkeustapauksissa Verkkosivuston ylläpitäjää kuullaan etukäteen tapauksissa, joissa verkkoharavointi olisi poikkeuksellisen laajamittaista tai kuormittavaa. Tilannekohtainen harkinta • Verkkoharavoinnin tilannekohtainen tarkoituksenmukaisuus selvitetään ennen haravoinnin aloittamista. • Tiedot voidaan hakea myös APIn kautta, jos sellainen on tarjottu.
  • 14. Käytännön toimintaperiaatteet 14 Tilastokeskus 16.1.2023 Robots.txt • Jos verkkosivustolla on verkkoharavoinnin kieltävä robots.txt tiedosto, sitä kunnioitetaan. Robots.txt-tiedostosta poikkeamiseen voidaan tarvittaessa kysyä lupaa verkkosivuston ylläpitäjältä (kirjallisesti). • Haravointia ei tule aloittaa ennen myöntävän vastauksen saamista. Kolmannen osapuolen haravoiman aineiston hankinta • Noudatettava samoja periaatteita kuin edellä esitelty • Ei saa olla kopioitu esim. tekijänoikeuksien suojaamasta tietokannasta • Ei saa sisältää luvattomasti haravoituja tietoja • Oltava eettisesti kestävällä tavalla hankittua • Ei saa sisältää henkilötietoja
  • 15. Voiko haravoinnin varaan perustaa tuotantoa? 15 Tilastokeskus 16.1.2023 –Toimintaympäristön seuranta ja muutoksiin reagoiminen olennaista –Kommunikaatio tuotantokäyttöön tulevan tiedon tuottajan kanssa korostuu
  • 16. Haravan rakentaminen 16 Tilastokeskus 16.1.2023 –Tekniikoita (Beutifulsoup, Requests, Scrapy, Selenium, Requests back end –tekniikalla) –Tutustumismateriaalia Scrapyyn: https://docs.scrapy.org/en/latest/ https://docs.scrapy.org/en/latest/intro/tutorial.html
  • 17. Haravointialusta 17 Tilastokeskus 16.1.2023 Tiedonkeruualusta jolle tuodaan kerääjiä (=haravat) Sisältää yhteisiä komponentteja –ajastus –datan siirto –konfiguraatiotiedosto –selaimen ajurit ja asennus –haravien monitorointi –virheilmoitukset –lokitus +keskitetty käyttöoikeuksien hallinta