SlideShare une entreprise Scribd logo
1  sur  24
Télécharger pour lire hors ligne
Open Data - zarządzanie danymi
w projektach badawczych NCN
Dr Laura Bandura-Morgan
25 listopada 2020r.
Krajowe Warsztaty Otwartego Dostępu OpenAIRE
Zarządzanie danymi – definicje
• Obiekt badawczy - zbiór jednego lub więcej obiektów cyfrowych
wyprodukowanych przez lub wykorzystywanych do badań naukowych. W
rzeczywistości każdy obiekt badawczy traktujemy jako formę danych.
• Dane badawcze - to wszelkie informacje (cyfrowe, ale także niecyfrowe),
które zostały zebrane, zaobserwowane, wygenerowane, użyte do
weryfikacji oryginalnych wyników badań: slajdy, artefakty, okazy, próbki,
filmy, obrazy, teksty, kwestionariusze, modele, algorytmy,
oprogramowanie, przepływy pracy, standardowe procedury operacyjne,
usługi.
• Dane odczytywalne maszynowo (wykonalne) - maszyna może względnie
niezależnie znajdować dane, uzyskiwać do nich dostęp, przetwarzać je i
ponownie wykorzystywać do celów, dla których zostały zaprojektowane.
Zarządzanie danymi – dlaczego?
• Pozwala zapobiegać utracie danych
• Wypadki/zdarzenia losowe (backup)
• Nieznajdywalne pliki (nazwy plików, wersjonowanie)
• Rotacja personelu (własność danych)
• Widoczność i wpływ na rozwój kariery
• Udostępnienie danych zwiększa cytowalność i daje możliwość
nawiązania współpracy: https://datacite.org/index.html,
https://Databib.org
• Strukturyzacja danych zwiększa ich jakość/ profesjonalizm.
• Rzetelność naukowa i możliwość walidacji przez innych naukowców
• Ponowne wykorzystanie danych jest efektywne pod względem
kosztów i czasu.
Plan Zarządzania Danymi
Zarządzanie danymi – cykl życia projektu
https://www.slideshare.net/MariekeGuy/research-lifecyclenorthampton
Zarządzanie danymi – planowanie
• Czy konieczne jest zbieranie nowych danych aby odpowiedzieć na pytanie badawcze? Czy są
już istniejące dane? Czy sa one relewantne do badań? Czy mogą być użyte?
• Kto jest właścicielem danych istniejących? Od kogo pozyskać zgody/licencje na ich
wykorzystanie? Czy jest możliwe ? OPEDAS GoFair? Jaki jest format danych? Czy będą użyte
dane referencyjne, np. LITMED albo UniProt?
https://www.go-fair.org/implementation-networks/overview/opedas/
• Czy wzięto pod uwagę w jaki sposób zachowana zostanie anonimizacja lub pseudonimizacja
danych?
• Gdzie dane będą przechowywane i czy mamy na to odpowiednią infrastrukturę i pojemność.
• Kto w projekcie będzie odpowiedzialny za dane?
• Kto będzie współautorem publikacji i na jakich zasadach?
• Kto będzie podejmował decyzję o udostępnieniu danych?
Zarządzanie danymi – zbieranie danych
• Kwestie etyczne w badaniach z udziałem ludzi
• Zgody Komisji oraz zgody uczestnika badania
• Inne konieczne zgody wymagane prawem (Prawo własności intelektualnej i Prawo
autorskie)
• Ochrona danych poufnych i wrażliwych
• Zgoda na przekazanie i użytkowanie danych, w tym danych osobowych spoza
jednostki naukowej prowadzącej badania, z innego kraju UE, spoza UE,
• Zgodność z RODO,
• Ocena skutków ochrony danych (tzw. Data Protection Impact Assessment
(DPIA) – kontrola dostępu do danych osobowych, szyfrowana komunikacja,
• Przetwarzanie danych przez stronę trzecią.
Przechowywanie danych
 Struktura folderu
 Kopie zapasowe - zasada 3-2-1
 Wersjonowanie - x.y.v.0.1
Umożliwia odnalezienie „kroków poprzednich” –
powtarzalność wyników
Zarządzanie danymi - metadane
 Metadane to dane o danych.
 Zgodnie z zasadami FAIR istotny element każdego zbioru
danych.
 Metadane są dostępne na licencji Creative Commons
Public Domain.
 Metadane posiadają trwały i unikalny identyfikator (np.
DOI) umożliwiający odszukanie ich maszynowo oraz
manualnie.
 Są kluczem do uzyskania dostępu do danych badawczych,
ich zrozumienia i ponownego wykorzystania.
Zarządzanie danymi - metadane
 Zidentyfikuj i zastosuj odpowiednie standardy
określając te, które zawierają pola potrzebne do
opisania twoich danych;
 Jakie informacje są wymagane aby użytkownicy
mogli je znaleźć, wykorzystać i zrozumieć;
 Należy wziąć pod uwagę odpowiedzi na pytania: kto,
gdzie, co, kiedy i dlaczego (5Ws) oraz opis
jakościowy;
 Opis powinien zawierać informacje co można a czego
nie można robić z danymi.
Zarządzanie danymi – standardy
 Metadata
 General (descriptive) standards: Dublin Core i Data Cite
 Disciplinary metada standards: Darwin Core (life sciences) TEI (text-
based doc) i CDWA (humanities), VRA Core (Art Objects)’
 Akceptowane formaty
 UK Data Service
 DANS
https://support.datacite.org/docs/schema-optional-properties-v43
https://support.datacite.org/docs/field-descriptions-for-form
http://dublincore.org/specifications/dublin-core/dcmi-terms/
Zarządzanie danymi – archiwizacja danych
• Ochrona danych i metadanych
• Dokumentacja
• Co zrobiłeś i jak?
• Na jakich warunkach dane mogą być ponownie użyte?
• Otwarte licencje CC – licencje Creative Commons nie są alternatywą
do praw autorskich.
• Licencje umożliwiają autorom/właścicielom danych określenie warunków
dot. udostępnienia i ponownego wykorzystania danych. Jednocześnie
pozwala autorom na zachowanie pełnych praw do dzieła i uznania ich
autorstwa (cytowanie). Prawo autorskie to wyłączne prawo autora dzieła do
reprodukcji, publikacji, modyfikacji etc. dzieła/danych. Prawa autorskie mogą
zostać przeniesione, na drodze pisemnej umowy, przez autora na osobę
trzecią (często wydawcę).
• Trwałe identyfikatory – długotrwałe odniesienie do obiektu cyfrowego
• Digital Object Identifier (DOI), Handle
Guide to Creative Commons for Scholarly Publications and Educational Resources
by P. Braak, H. de Jonge, G.Trentacosti, I. Verhagen; S. Woutersen-Windhouwer, 28.10.2020 zenodo
Zarządzanie danymi – kryteria wyboru
repozytorium
• Trwałość funkcjonowania repozytorium– czy repozytorium
jest zarządzane przez uznaną organizację?
• Adekwatność prawna – na podstawie jakiej jurysdykcji
prawnej przeprowadzono/finansowano badania?
• Integracja i interoperacyjność danych – czy dane mogą być
połączone z innymi, istniejącymi danymi?
• Funkcjonalność – czy istnieje możliwość przechowywania
dużej ilości danych i czy dostęp do nich wymaga posiadania
specjalnych narzędzi dostępu?
COAR Community Framework for Good Practices in Repositories – opublikowane
8.10.2020 https://www.coar-repositories.org/coar-community-framework-for-good-
practices-in-repositories/
Zarządzanie danymi – repozytoria otwarte
Zarządzanie danymi – w sposób FAIR
FAIR data ≠ Open data
“As open as possible, as closed as necessary”
F – Findable – (meta)dane są znajdywalne poprzez posiadanie unikalnego i
trwałego identyfikatora (PID);
A – Accessible – (meta)dane są dostępne przy użyciu
znormalizowanego protokołu, bezpłatnego i otwartego;
I - Interoperable – (meta)dane są interoperacyjne dzięki użyciu
formalnego, rozpoznawalnego i szeroko stosowanego formatu;
R - Re-usable – (meta)dane są dobrze opisane, z wieloma dokładnymi
atrybutami, co pozwoli na ich ponowne wykorzystanie przez innych
użytkowników.
Plan Zarządzania Danymi
1. Ogólne informacje o danych
• Pochodzenie danych : istniejące , nowe
• Typ, rozmiar, format, własność.
Różne formaty są dobre do różnych rzeczy: formaty otwarte są bardziej
trwałe, np.: tif, xml, rtf, wav.
Formaty zastrzeżone lub skompresowane są trudniejsze do
przechowywania, ale są szeroko stosowane, np.: doc, jpg, mp3.
Można wybrać jeden format do analizy, a następnie przekonwertować
na format standardowy w celu archiwizacji i udostępniania.
2. Dokumentacja i jakość danych
• Standardy metadanych
• Jakie informacje użytkownik potrzebuje aby zrozumieć dane?
Plan Zarządzania Danymi
3. Przechowywanie danych w trakcie realizacji projektu
• Ochrona danych (techniczna, organizacyjna)
• Kontrola dostępu
• Kto ma dostęp do danych, czy do wszystkich danych?
4. Etyczne aspekty badań i wymogi prawne
• Zgoda uczestników badania
• Zgoda na wykorzystanie danych
5. Archiwizowanie danych po zakończeniu projektu
• Wybór otwartego repozytorium
• Anonimizacja danych
• Wybranie odpowiedniego formatu dla danych: nieszyfrowany,
nieskompresowany, otwarty; udokumentowany standard (ASC II,
Unicode). Rekomendowane: CSV, PLAIN TEXT< HTML, RTF, MP4, Codec:
Theora, TIFF, JPG2000, XML,
• Ochrona danych..
Skąd wiemy, że DMP jest OK
1. Is the plan appropriate?
 adopting relevant standards
 practices in line with norms for that field
 use of support services e.g. university storage, subject repositories
2. Does it seem feasible to implement?
3. Is Openness on the author’s mind?
4. Has sufficient detailed information been provided?
5. Has advice been sought where needed?
6. Are restrictions and costs properly justified?
Based on Sarah Jones: Developing and reviewing DMPs
Plan Zarządzania Danymi - przykład
“we will use suitable formats to ensure that our data
can be preserved and sustained over the long term”
• Which formats? Name them!
• Does the team know which are suitable?
• Does the chosen repository have prefered data
format?
Plan Zarządzania Danymi - przykład
“data will be made available upon request to
bona fide medieval historians”
 Why is it restricted?
 Could other communities not reuse the data?
 Will the research team be around to handle access
requests in the future?
Zarządzanie danymi – ocena ekspercka
“Online resource development will cost 21,000 PLN”
versus
“Online resource development, 60 days at 350 PLN”
• Don’t make reviewers dig around for information
• Be consistent in what you say in DMP and proposal
Zarządzanie danymi – ocena ekspercka
• First impressions count
• Stick to page limits, follow the template if mandated, provide
information in the relevant section…
• Beware blanket copy/paste
• A limited amount of information can be provided as boilerplate text.
Always read and adjust to your project.
• Avoid hyperbole, buzzwords and jargon
• Stick to clear statements and the strength of your technical
approach will evidence itself. Remember to explain abbreviations.
• Be clear and inspire trust in your plan
• Mention the agreements you have made with service providers
• Make all project partners contribute and commit to the DMP
• Mention community procedures or good practices, but avoid lip
service.
www.ncn.gov.pl
Gramy dla polskiej nauki

Contenu connexe

Tendances

"Polskie repozytoria naukowe" - warsztaty, 27 kwietnia 2015, Małgorzata Rychl...
"Polskie repozytoria naukowe" - warsztaty, 27 kwietnia 2015, Małgorzata Rychl..."Polskie repozytoria naukowe" - warsztaty, 27 kwietnia 2015, Małgorzata Rychl...
"Polskie repozytoria naukowe" - warsztaty, 27 kwietnia 2015, Małgorzata Rychl...Platforma Otwartej Nauki
 
Dane badawcze: warsztaty dla redaktorów i wydawców
Dane badawcze: warsztaty dla redaktorów i wydawcówDane badawcze: warsztaty dla redaktorów i wydawców
Dane badawcze: warsztaty dla redaktorów i wydawcówPlatforma Otwartej Nauki
 

Tendances (6)

Otwarta Nauka w pigułce 06-2017
Otwarta Nauka w pigułce 06-2017Otwarta Nauka w pigułce 06-2017
Otwarta Nauka w pigułce 06-2017
 
"Polskie repozytoria naukowe" - warsztaty, 27 kwietnia 2015, Małgorzata Rychl...
"Polskie repozytoria naukowe" - warsztaty, 27 kwietnia 2015, Małgorzata Rychl..."Polskie repozytoria naukowe" - warsztaty, 27 kwietnia 2015, Małgorzata Rychl...
"Polskie repozytoria naukowe" - warsztaty, 27 kwietnia 2015, Małgorzata Rychl...
 
Otwarte dane badawcze w humanistyce
Otwarte dane badawcze w humanistyceOtwarte dane badawcze w humanistyce
Otwarte dane badawcze w humanistyce
 
Informacja bibliograficzna9
Informacja bibliograficzna9Informacja bibliograficzna9
Informacja bibliograficzna9
 
Dane badawcze: warsztaty dla redaktorów i wydawców
Dane badawcze: warsztaty dla redaktorów i wydawcówDane badawcze: warsztaty dla redaktorów i wydawców
Dane badawcze: warsztaty dla redaktorów i wydawców
 
Crip
CripCrip
Crip
 

Similaire à Open Data - zarządzanie danymi w projektach badawczych NCN

Praktyczne aspekty udostępniania danych badawczych
Praktyczne aspekty udostępniania danych badawczychPraktyczne aspekty udostępniania danych badawczych
Praktyczne aspekty udostępniania danych badawczychPlatforma Otwartej Nauki
 
Zarządzanie danymi badawczymi - praktyczne aspekty
Zarządzanie danymi badawczymi - praktyczne aspektyZarządzanie danymi badawczymi - praktyczne aspekty
Zarządzanie danymi badawczymi - praktyczne aspektyPlatforma Otwartej Nauki
 
Dane powiązane - wprowadzenie
Dane powiązane - wprowadzenieDane powiązane - wprowadzenie
Dane powiązane - wprowadzenieOpen Data Support
 
Information literacy w bibliotekach akademickich standardy
Information literacy w bibliotekach akademickich   standardyInformation literacy w bibliotekach akademickich   standardy
Information literacy w bibliotekach akademickich standardyEwa Rozkosz
 
Oracle Big Data Discovery - ludzka twarz Hadoop'a
Oracle Big Data Discovery - ludzka twarz Hadoop'aOracle Big Data Discovery - ludzka twarz Hadoop'a
Oracle Big Data Discovery - ludzka twarz Hadoop'aData Science Warsaw
 
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
10. Analizowanie potrzeb klienta i projektowanie struktury baz danychkalaxq
 
Porównanie bibliotek cyfrowych JBC i WSL wg zasad przewodnika NISO Anna Mielec
Porównanie bibliotek cyfrowych JBC i WSL wg zasad przewodnika NISO Anna MielecPorównanie bibliotek cyfrowych JBC i WSL wg zasad przewodnika NISO Anna Mielec
Porównanie bibliotek cyfrowych JBC i WSL wg zasad przewodnika NISO Anna MielecAnna Mielec
 
Zarządzanie metadanymi – wprowadzenie
Zarządzanie metadanymi – wprowadzenieZarządzanie metadanymi – wprowadzenie
Zarządzanie metadanymi – wprowadzenieOpen Data Support
 
Jak skutecznie pozyskiwać informacje w internecie? Wykorzystanie zasobów Dee...
Jak skutecznie pozyskiwać informacje w internecie?  Wykorzystanie zasobów Dee...Jak skutecznie pozyskiwać informacje w internecie?  Wykorzystanie zasobów Dee...
Jak skutecznie pozyskiwać informacje w internecie? Wykorzystanie zasobów Dee...Sabina Cisek
 
Sanmargar MetaStudio DRM. Ogólny opis.
Sanmargar MetaStudio DRM. Ogólny opis.Sanmargar MetaStudio DRM. Ogólny opis.
Sanmargar MetaStudio DRM. Ogólny opis.Ireneusz Chmielak
 
Za dużo informacji, i co dalej? Funnelback - Michał Rachowski Squiz 12.09.12 ...
Za dużo informacji, i co dalej? Funnelback - Michał Rachowski Squiz 12.09.12 ...Za dużo informacji, i co dalej? Funnelback - Michał Rachowski Squiz 12.09.12 ...
Za dużo informacji, i co dalej? Funnelback - Michał Rachowski Squiz 12.09.12 ...Squiz Poland
 
[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics SystemArtur Wronski
 
OAIS. Open Archival Information System, aut. dr Aneta Januszko-Szakiel
OAIS. Open Archival Information System, aut. dr Aneta Januszko-SzakielOAIS. Open Archival Information System, aut. dr Aneta Januszko-Szakiel
OAIS. Open Archival Information System, aut. dr Aneta Januszko-SzakielŚląska Biblioteka Cyfrowa
 
Big Data for unstructured data Dariusz Śliwa
Big Data for unstructured data Dariusz ŚliwaBig Data for unstructured data Dariusz Śliwa
Big Data for unstructured data Dariusz ŚliwaEvention
 
Data science - o co chodzi?
Data science - o co chodzi?Data science - o co chodzi?
Data science - o co chodzi?Pawel Jarosz
 

Similaire à Open Data - zarządzanie danymi w projektach badawczych NCN (20)

Praktyczne aspekty udostępniania danych badawczych
Praktyczne aspekty udostępniania danych badawczychPraktyczne aspekty udostępniania danych badawczych
Praktyczne aspekty udostępniania danych badawczych
 
Zarządzanie danymi badawczymi
Zarządzanie danymi badawczymiZarządzanie danymi badawczymi
Zarządzanie danymi badawczymi
 
Zarządzanie danymi badawczymi - praktyczne aspekty
Zarządzanie danymi badawczymi - praktyczne aspektyZarządzanie danymi badawczymi - praktyczne aspekty
Zarządzanie danymi badawczymi - praktyczne aspekty
 
Dane powiązane - wprowadzenie
Dane powiązane - wprowadzenieDane powiązane - wprowadzenie
Dane powiązane - wprowadzenie
 
Information literacy w bibliotekach akademickich standardy
Information literacy w bibliotekach akademickich   standardyInformation literacy w bibliotekach akademickich   standardy
Information literacy w bibliotekach akademickich standardy
 
Information literacy w bibliotekach akademickich. Standardy
Information literacy w bibliotekach akademickich. StandardyInformation literacy w bibliotekach akademickich. Standardy
Information literacy w bibliotekach akademickich. Standardy
 
Oracle Big Data Discovery - ludzka twarz Hadoop'a
Oracle Big Data Discovery - ludzka twarz Hadoop'aOracle Big Data Discovery - ludzka twarz Hadoop'a
Oracle Big Data Discovery - ludzka twarz Hadoop'a
 
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
10. Analizowanie potrzeb klienta i projektowanie struktury baz danych
 
Porównanie bibliotek cyfrowych JBC i WSL wg zasad przewodnika NISO Anna Mielec
Porównanie bibliotek cyfrowych JBC i WSL wg zasad przewodnika NISO Anna MielecPorównanie bibliotek cyfrowych JBC i WSL wg zasad przewodnika NISO Anna Mielec
Porównanie bibliotek cyfrowych JBC i WSL wg zasad przewodnika NISO Anna Mielec
 
Zarządzanie metadanymi – wprowadzenie
Zarządzanie metadanymi – wprowadzenieZarządzanie metadanymi – wprowadzenie
Zarządzanie metadanymi – wprowadzenie
 
Jak skutecznie pozyskiwać informacje w internecie? Wykorzystanie zasobów Dee...
Jak skutecznie pozyskiwać informacje w internecie?  Wykorzystanie zasobów Dee...Jak skutecznie pozyskiwać informacje w internecie?  Wykorzystanie zasobów Dee...
Jak skutecznie pozyskiwać informacje w internecie? Wykorzystanie zasobów Dee...
 
Metastudio DRM. Opis.
Metastudio DRM. Opis.Metastudio DRM. Opis.
Metastudio DRM. Opis.
 
Sanmargar MetaStudio DRM. Ogólny opis.
Sanmargar MetaStudio DRM. Ogólny opis.Sanmargar MetaStudio DRM. Ogólny opis.
Sanmargar MetaStudio DRM. Ogólny opis.
 
Za dużo informacji, i co dalej? Funnelback - Michał Rachowski Squiz 12.09.12 ...
Za dużo informacji, i co dalej? Funnelback - Michał Rachowski Squiz 12.09.12 ...Za dużo informacji, i co dalej? Funnelback - Michał Rachowski Squiz 12.09.12 ...
Za dużo informacji, i co dalej? Funnelback - Michał Rachowski Squiz 12.09.12 ...
 
[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System[#4] spark - IBM Integrated Analytics System
[#4] spark - IBM Integrated Analytics System
 
OAIS. Open Archival Information System, aut. dr Aneta Januszko-Szakiel
OAIS. Open Archival Information System, aut. dr Aneta Januszko-SzakielOAIS. Open Archival Information System, aut. dr Aneta Januszko-Szakiel
OAIS. Open Archival Information System, aut. dr Aneta Januszko-Szakiel
 
Big Data for unstructured data Dariusz Śliwa
Big Data for unstructured data Dariusz ŚliwaBig Data for unstructured data Dariusz Śliwa
Big Data for unstructured data Dariusz Śliwa
 
M4j2
M4j2M4j2
M4j2
 
M4j2
M4j2M4j2
M4j2
 
Data science - o co chodzi?
Data science - o co chodzi?Data science - o co chodzi?
Data science - o co chodzi?
 

Plus de Platforma Otwartej Nauki

Umowy dot. autorskich praw majątkowych w praktyce wydawców książek naukowych
Umowy dot. autorskich praw majątkowych w praktyce wydawców książek naukowychUmowy dot. autorskich praw majątkowych w praktyce wydawców książek naukowych
Umowy dot. autorskich praw majątkowych w praktyce wydawców książek naukowychPlatforma Otwartej Nauki
 
DSpace - doświadczenia Repozytorium Uniwersytetu Łódzkiego
DSpace - doświadczenia Repozytorium Uniwersytetu ŁódzkiegoDSpace - doświadczenia Repozytorium Uniwersytetu Łódzkiego
DSpace - doświadczenia Repozytorium Uniwersytetu ŁódzkiegoPlatforma Otwartej Nauki
 
Platforma czasopism Wydawnictwa Uniwersytetu Łódzkiego
Platforma czasopism Wydawnictwa Uniwersytetu ŁódzkiegoPlatforma czasopism Wydawnictwa Uniwersytetu Łódzkiego
Platforma czasopism Wydawnictwa Uniwersytetu ŁódzkiegoPlatforma Otwartej Nauki
 
Biblioteka Nauki - techniczne możliwości wymiany metadanych
Biblioteka Nauki - techniczne możliwości wymiany metadanychBiblioteka Nauki - techniczne możliwości wymiany metadanych
Biblioteka Nauki - techniczne możliwości wymiany metadanychPlatforma Otwartej Nauki
 
Publikacje Ośrodka Badawczego Facta Ficta w Bibliotece Nauki
Publikacje Ośrodka Badawczego Facta Ficta w Bibliotece NaukiPublikacje Ośrodka Badawczego Facta Ficta w Bibliotece Nauki
Publikacje Ośrodka Badawczego Facta Ficta w Bibliotece NaukiPlatforma Otwartej Nauki
 
PRESSto Platfoma otwartych czasopism naukowych UAM
PRESSto Platfoma otwartych czasopism naukowych UAMPRESSto Platfoma otwartych czasopism naukowych UAM
PRESSto Platfoma otwartych czasopism naukowych UAMPlatforma Otwartej Nauki
 
Publikacje Instytutu Historii Ukrainy w Bibliotece Nauki
Publikacje Instytutu Historii Ukrainy w Bibliotece NaukiPublikacje Instytutu Historii Ukrainy w Bibliotece Nauki
Publikacje Instytutu Historii Ukrainy w Bibliotece NaukiPlatforma Otwartej Nauki
 
Otwarty dostęp do publikacji naukowych GUS - doświadczenia i wyzwania
Otwarty dostęp do publikacji naukowych GUS - doświadczenia i wyzwaniaOtwarty dostęp do publikacji naukowych GUS - doświadczenia i wyzwania
Otwarty dostęp do publikacji naukowych GUS - doświadczenia i wyzwaniaPlatforma Otwartej Nauki
 
Making Open Access Book Funding Work Fairly
Making Open Access Book Funding Work FairlyMaking Open Access Book Funding Work Fairly
Making Open Access Book Funding Work FairlyPlatforma Otwartej Nauki
 
UCL Press. The UK's first fully open access university press
UCL Press. The UK's first fully open access university pressUCL Press. The UK's first fully open access university press
UCL Press. The UK's first fully open access university pressPlatforma Otwartej Nauki
 
Funding open access books at Open Book Publishers
Funding open access books at Open Book PublishersFunding open access books at Open Book Publishers
Funding open access books at Open Book PublishersPlatforma Otwartej Nauki
 
Arianna Becerril García – Redalyc: A platform to advance non-commercial Open ...
Arianna Becerril García – Redalyc: A platform to advance non-commercial Open ...Arianna Becerril García – Redalyc: A platform to advance non-commercial Open ...
Arianna Becerril García – Redalyc: A platform to advance non-commercial Open ...Platforma Otwartej Nauki
 
Abel L Packer – SciELO advances as an Open Science program
Abel L Packer – SciELO advances as an Open Science programAbel L Packer – SciELO advances as an Open Science program
Abel L Packer – SciELO advances as an Open Science programPlatforma Otwartej Nauki
 
Wsparcie naukowców w zakresie przygotowania planów zarządzania danymi badawcz...
Wsparcie naukowców w zakresie przygotowania planów zarządzania danymi badawcz...Wsparcie naukowców w zakresie przygotowania planów zarządzania danymi badawcz...
Wsparcie naukowców w zakresie przygotowania planów zarządzania danymi badawcz...Platforma Otwartej Nauki
 

Plus de Platforma Otwartej Nauki (20)

Umowy dot. autorskich praw majątkowych w praktyce wydawców książek naukowych
Umowy dot. autorskich praw majątkowych w praktyce wydawców książek naukowychUmowy dot. autorskich praw majątkowych w praktyce wydawców książek naukowych
Umowy dot. autorskich praw majątkowych w praktyce wydawców książek naukowych
 
Prawne aspekty otwartego dostępu
Prawne aspekty otwartego dostępuPrawne aspekty otwartego dostępu
Prawne aspekty otwartego dostępu
 
Monografie Naukowe - Uniwersytet Śląski
Monografie Naukowe - Uniwersytet ŚląskiMonografie Naukowe - Uniwersytet Śląski
Monografie Naukowe - Uniwersytet Śląski
 
DSpace - doświadczenia Repozytorium Uniwersytetu Łódzkiego
DSpace - doświadczenia Repozytorium Uniwersytetu ŁódzkiegoDSpace - doświadczenia Repozytorium Uniwersytetu Łódzkiego
DSpace - doświadczenia Repozytorium Uniwersytetu Łódzkiego
 
Platforma czasopism Wydawnictwa Uniwersytetu Łódzkiego
Platforma czasopism Wydawnictwa Uniwersytetu ŁódzkiegoPlatforma czasopism Wydawnictwa Uniwersytetu Łódzkiego
Platforma czasopism Wydawnictwa Uniwersytetu Łódzkiego
 
Biblioteka Nauki - techniczne możliwości wymiany metadanych
Biblioteka Nauki - techniczne możliwości wymiany metadanychBiblioteka Nauki - techniczne możliwości wymiany metadanych
Biblioteka Nauki - techniczne możliwości wymiany metadanych
 
Monografie w Bibliotece Nauki
Monografie w Bibliotece Nauki Monografie w Bibliotece Nauki
Monografie w Bibliotece Nauki
 
Open Science Platform
Open Science PlatformOpen Science Platform
Open Science Platform
 
OpenAIRE Services for Open Science
OpenAIRE Services for Open ScienceOpenAIRE Services for Open Science
OpenAIRE Services for Open Science
 
Publikacje Ośrodka Badawczego Facta Ficta w Bibliotece Nauki
Publikacje Ośrodka Badawczego Facta Ficta w Bibliotece NaukiPublikacje Ośrodka Badawczego Facta Ficta w Bibliotece Nauki
Publikacje Ośrodka Badawczego Facta Ficta w Bibliotece Nauki
 
PRESSto Platfoma otwartych czasopism naukowych UAM
PRESSto Platfoma otwartych czasopism naukowych UAMPRESSto Platfoma otwartych czasopism naukowych UAM
PRESSto Platfoma otwartych czasopism naukowych UAM
 
Publikacje Instytutu Historii Ukrainy w Bibliotece Nauki
Publikacje Instytutu Historii Ukrainy w Bibliotece NaukiPublikacje Instytutu Historii Ukrainy w Bibliotece Nauki
Publikacje Instytutu Historii Ukrainy w Bibliotece Nauki
 
Polska Akademia Nauk a otwarta nauka
Polska Akademia Nauk a otwarta naukaPolska Akademia Nauk a otwarta nauka
Polska Akademia Nauk a otwarta nauka
 
Otwarty dostęp do publikacji naukowych GUS - doświadczenia i wyzwania
Otwarty dostęp do publikacji naukowych GUS - doświadczenia i wyzwaniaOtwarty dostęp do publikacji naukowych GUS - doświadczenia i wyzwania
Otwarty dostęp do publikacji naukowych GUS - doświadczenia i wyzwania
 
Making Open Access Book Funding Work Fairly
Making Open Access Book Funding Work FairlyMaking Open Access Book Funding Work Fairly
Making Open Access Book Funding Work Fairly
 
UCL Press. The UK's first fully open access university press
UCL Press. The UK's first fully open access university pressUCL Press. The UK's first fully open access university press
UCL Press. The UK's first fully open access university press
 
Funding open access books at Open Book Publishers
Funding open access books at Open Book PublishersFunding open access books at Open Book Publishers
Funding open access books at Open Book Publishers
 
Arianna Becerril García – Redalyc: A platform to advance non-commercial Open ...
Arianna Becerril García – Redalyc: A platform to advance non-commercial Open ...Arianna Becerril García – Redalyc: A platform to advance non-commercial Open ...
Arianna Becerril García – Redalyc: A platform to advance non-commercial Open ...
 
Abel L Packer – SciELO advances as an Open Science program
Abel L Packer – SciELO advances as an Open Science programAbel L Packer – SciELO advances as an Open Science program
Abel L Packer – SciELO advances as an Open Science program
 
Wsparcie naukowców w zakresie przygotowania planów zarządzania danymi badawcz...
Wsparcie naukowców w zakresie przygotowania planów zarządzania danymi badawcz...Wsparcie naukowców w zakresie przygotowania planów zarządzania danymi badawcz...
Wsparcie naukowców w zakresie przygotowania planów zarządzania danymi badawcz...
 

Open Data - zarządzanie danymi w projektach badawczych NCN

  • 1. Open Data - zarządzanie danymi w projektach badawczych NCN Dr Laura Bandura-Morgan 25 listopada 2020r. Krajowe Warsztaty Otwartego Dostępu OpenAIRE
  • 2. Zarządzanie danymi – definicje • Obiekt badawczy - zbiór jednego lub więcej obiektów cyfrowych wyprodukowanych przez lub wykorzystywanych do badań naukowych. W rzeczywistości każdy obiekt badawczy traktujemy jako formę danych. • Dane badawcze - to wszelkie informacje (cyfrowe, ale także niecyfrowe), które zostały zebrane, zaobserwowane, wygenerowane, użyte do weryfikacji oryginalnych wyników badań: slajdy, artefakty, okazy, próbki, filmy, obrazy, teksty, kwestionariusze, modele, algorytmy, oprogramowanie, przepływy pracy, standardowe procedury operacyjne, usługi. • Dane odczytywalne maszynowo (wykonalne) - maszyna może względnie niezależnie znajdować dane, uzyskiwać do nich dostęp, przetwarzać je i ponownie wykorzystywać do celów, dla których zostały zaprojektowane.
  • 3. Zarządzanie danymi – dlaczego? • Pozwala zapobiegać utracie danych • Wypadki/zdarzenia losowe (backup) • Nieznajdywalne pliki (nazwy plików, wersjonowanie) • Rotacja personelu (własność danych) • Widoczność i wpływ na rozwój kariery • Udostępnienie danych zwiększa cytowalność i daje możliwość nawiązania współpracy: https://datacite.org/index.html, https://Databib.org • Strukturyzacja danych zwiększa ich jakość/ profesjonalizm. • Rzetelność naukowa i możliwość walidacji przez innych naukowców • Ponowne wykorzystanie danych jest efektywne pod względem kosztów i czasu.
  • 5. Zarządzanie danymi – cykl życia projektu https://www.slideshare.net/MariekeGuy/research-lifecyclenorthampton
  • 6. Zarządzanie danymi – planowanie • Czy konieczne jest zbieranie nowych danych aby odpowiedzieć na pytanie badawcze? Czy są już istniejące dane? Czy sa one relewantne do badań? Czy mogą być użyte? • Kto jest właścicielem danych istniejących? Od kogo pozyskać zgody/licencje na ich wykorzystanie? Czy jest możliwe ? OPEDAS GoFair? Jaki jest format danych? Czy będą użyte dane referencyjne, np. LITMED albo UniProt? https://www.go-fair.org/implementation-networks/overview/opedas/ • Czy wzięto pod uwagę w jaki sposób zachowana zostanie anonimizacja lub pseudonimizacja danych? • Gdzie dane będą przechowywane i czy mamy na to odpowiednią infrastrukturę i pojemność. • Kto w projekcie będzie odpowiedzialny za dane? • Kto będzie współautorem publikacji i na jakich zasadach? • Kto będzie podejmował decyzję o udostępnieniu danych?
  • 7. Zarządzanie danymi – zbieranie danych • Kwestie etyczne w badaniach z udziałem ludzi • Zgody Komisji oraz zgody uczestnika badania • Inne konieczne zgody wymagane prawem (Prawo własności intelektualnej i Prawo autorskie) • Ochrona danych poufnych i wrażliwych • Zgoda na przekazanie i użytkowanie danych, w tym danych osobowych spoza jednostki naukowej prowadzącej badania, z innego kraju UE, spoza UE, • Zgodność z RODO, • Ocena skutków ochrony danych (tzw. Data Protection Impact Assessment (DPIA) – kontrola dostępu do danych osobowych, szyfrowana komunikacja, • Przetwarzanie danych przez stronę trzecią.
  • 8. Przechowywanie danych  Struktura folderu  Kopie zapasowe - zasada 3-2-1  Wersjonowanie - x.y.v.0.1 Umożliwia odnalezienie „kroków poprzednich” – powtarzalność wyników
  • 9. Zarządzanie danymi - metadane  Metadane to dane o danych.  Zgodnie z zasadami FAIR istotny element każdego zbioru danych.  Metadane są dostępne na licencji Creative Commons Public Domain.  Metadane posiadają trwały i unikalny identyfikator (np. DOI) umożliwiający odszukanie ich maszynowo oraz manualnie.  Są kluczem do uzyskania dostępu do danych badawczych, ich zrozumienia i ponownego wykorzystania.
  • 10. Zarządzanie danymi - metadane  Zidentyfikuj i zastosuj odpowiednie standardy określając te, które zawierają pola potrzebne do opisania twoich danych;  Jakie informacje są wymagane aby użytkownicy mogli je znaleźć, wykorzystać i zrozumieć;  Należy wziąć pod uwagę odpowiedzi na pytania: kto, gdzie, co, kiedy i dlaczego (5Ws) oraz opis jakościowy;  Opis powinien zawierać informacje co można a czego nie można robić z danymi.
  • 11. Zarządzanie danymi – standardy  Metadata  General (descriptive) standards: Dublin Core i Data Cite  Disciplinary metada standards: Darwin Core (life sciences) TEI (text- based doc) i CDWA (humanities), VRA Core (Art Objects)’  Akceptowane formaty  UK Data Service  DANS https://support.datacite.org/docs/schema-optional-properties-v43 https://support.datacite.org/docs/field-descriptions-for-form http://dublincore.org/specifications/dublin-core/dcmi-terms/
  • 12. Zarządzanie danymi – archiwizacja danych • Ochrona danych i metadanych • Dokumentacja • Co zrobiłeś i jak? • Na jakich warunkach dane mogą być ponownie użyte? • Otwarte licencje CC – licencje Creative Commons nie są alternatywą do praw autorskich. • Licencje umożliwiają autorom/właścicielom danych określenie warunków dot. udostępnienia i ponownego wykorzystania danych. Jednocześnie pozwala autorom na zachowanie pełnych praw do dzieła i uznania ich autorstwa (cytowanie). Prawo autorskie to wyłączne prawo autora dzieła do reprodukcji, publikacji, modyfikacji etc. dzieła/danych. Prawa autorskie mogą zostać przeniesione, na drodze pisemnej umowy, przez autora na osobę trzecią (często wydawcę). • Trwałe identyfikatory – długotrwałe odniesienie do obiektu cyfrowego • Digital Object Identifier (DOI), Handle Guide to Creative Commons for Scholarly Publications and Educational Resources by P. Braak, H. de Jonge, G.Trentacosti, I. Verhagen; S. Woutersen-Windhouwer, 28.10.2020 zenodo
  • 13. Zarządzanie danymi – kryteria wyboru repozytorium • Trwałość funkcjonowania repozytorium– czy repozytorium jest zarządzane przez uznaną organizację? • Adekwatność prawna – na podstawie jakiej jurysdykcji prawnej przeprowadzono/finansowano badania? • Integracja i interoperacyjność danych – czy dane mogą być połączone z innymi, istniejącymi danymi? • Funkcjonalność – czy istnieje możliwość przechowywania dużej ilości danych i czy dostęp do nich wymaga posiadania specjalnych narzędzi dostępu? COAR Community Framework for Good Practices in Repositories – opublikowane 8.10.2020 https://www.coar-repositories.org/coar-community-framework-for-good- practices-in-repositories/
  • 14. Zarządzanie danymi – repozytoria otwarte
  • 15. Zarządzanie danymi – w sposób FAIR FAIR data ≠ Open data “As open as possible, as closed as necessary” F – Findable – (meta)dane są znajdywalne poprzez posiadanie unikalnego i trwałego identyfikatora (PID); A – Accessible – (meta)dane są dostępne przy użyciu znormalizowanego protokołu, bezpłatnego i otwartego; I - Interoperable – (meta)dane są interoperacyjne dzięki użyciu formalnego, rozpoznawalnego i szeroko stosowanego formatu; R - Re-usable – (meta)dane są dobrze opisane, z wieloma dokładnymi atrybutami, co pozwoli na ich ponowne wykorzystanie przez innych użytkowników.
  • 16. Plan Zarządzania Danymi 1. Ogólne informacje o danych • Pochodzenie danych : istniejące , nowe • Typ, rozmiar, format, własność. Różne formaty są dobre do różnych rzeczy: formaty otwarte są bardziej trwałe, np.: tif, xml, rtf, wav. Formaty zastrzeżone lub skompresowane są trudniejsze do przechowywania, ale są szeroko stosowane, np.: doc, jpg, mp3. Można wybrać jeden format do analizy, a następnie przekonwertować na format standardowy w celu archiwizacji i udostępniania. 2. Dokumentacja i jakość danych • Standardy metadanych • Jakie informacje użytkownik potrzebuje aby zrozumieć dane?
  • 17.
  • 18. Plan Zarządzania Danymi 3. Przechowywanie danych w trakcie realizacji projektu • Ochrona danych (techniczna, organizacyjna) • Kontrola dostępu • Kto ma dostęp do danych, czy do wszystkich danych? 4. Etyczne aspekty badań i wymogi prawne • Zgoda uczestników badania • Zgoda na wykorzystanie danych 5. Archiwizowanie danych po zakończeniu projektu • Wybór otwartego repozytorium • Anonimizacja danych • Wybranie odpowiedniego formatu dla danych: nieszyfrowany, nieskompresowany, otwarty; udokumentowany standard (ASC II, Unicode). Rekomendowane: CSV, PLAIN TEXT< HTML, RTF, MP4, Codec: Theora, TIFF, JPG2000, XML, • Ochrona danych..
  • 19. Skąd wiemy, że DMP jest OK 1. Is the plan appropriate?  adopting relevant standards  practices in line with norms for that field  use of support services e.g. university storage, subject repositories 2. Does it seem feasible to implement? 3. Is Openness on the author’s mind? 4. Has sufficient detailed information been provided? 5. Has advice been sought where needed? 6. Are restrictions and costs properly justified? Based on Sarah Jones: Developing and reviewing DMPs
  • 20. Plan Zarządzania Danymi - przykład “we will use suitable formats to ensure that our data can be preserved and sustained over the long term” • Which formats? Name them! • Does the team know which are suitable? • Does the chosen repository have prefered data format?
  • 21. Plan Zarządzania Danymi - przykład “data will be made available upon request to bona fide medieval historians”  Why is it restricted?  Could other communities not reuse the data?  Will the research team be around to handle access requests in the future?
  • 22. Zarządzanie danymi – ocena ekspercka “Online resource development will cost 21,000 PLN” versus “Online resource development, 60 days at 350 PLN” • Don’t make reviewers dig around for information • Be consistent in what you say in DMP and proposal
  • 23. Zarządzanie danymi – ocena ekspercka • First impressions count • Stick to page limits, follow the template if mandated, provide information in the relevant section… • Beware blanket copy/paste • A limited amount of information can be provided as boilerplate text. Always read and adjust to your project. • Avoid hyperbole, buzzwords and jargon • Stick to clear statements and the strength of your technical approach will evidence itself. Remember to explain abbreviations. • Be clear and inspire trust in your plan • Mention the agreements you have made with service providers • Make all project partners contribute and commit to the DMP • Mention community procedures or good practices, but avoid lip service.