Prezentacja: dr Laura Bandura-Morgan (Narodowe Centrum Nauki)
Krajowe Warsztaty Otwartego Dostępu OpenAIRE 2020, Polska
Polityki otwartości w Polsce
Cześć 2: dane badawcze
25 listopada 2020, online
OpenAIRE National Workshop in Poland (2020), organized as part of the OpenAIRE Advance project, was be devoted to the implementation of open access policies in Polish scientific institutions.
http://pon.edu.pl/politykiotwartosci/
Wsparcie naukowców w zakresie przygotowania planów zarządzania danymi badawcz...
Open Data - zarządzanie danymi w projektach badawczych NCN
1. Open Data - zarządzanie danymi
w projektach badawczych NCN
Dr Laura Bandura-Morgan
25 listopada 2020r.
Krajowe Warsztaty Otwartego Dostępu OpenAIRE
2. Zarządzanie danymi – definicje
• Obiekt badawczy - zbiór jednego lub więcej obiektów cyfrowych
wyprodukowanych przez lub wykorzystywanych do badań naukowych. W
rzeczywistości każdy obiekt badawczy traktujemy jako formę danych.
• Dane badawcze - to wszelkie informacje (cyfrowe, ale także niecyfrowe),
które zostały zebrane, zaobserwowane, wygenerowane, użyte do
weryfikacji oryginalnych wyników badań: slajdy, artefakty, okazy, próbki,
filmy, obrazy, teksty, kwestionariusze, modele, algorytmy,
oprogramowanie, przepływy pracy, standardowe procedury operacyjne,
usługi.
• Dane odczytywalne maszynowo (wykonalne) - maszyna może względnie
niezależnie znajdować dane, uzyskiwać do nich dostęp, przetwarzać je i
ponownie wykorzystywać do celów, dla których zostały zaprojektowane.
3. Zarządzanie danymi – dlaczego?
• Pozwala zapobiegać utracie danych
• Wypadki/zdarzenia losowe (backup)
• Nieznajdywalne pliki (nazwy plików, wersjonowanie)
• Rotacja personelu (własność danych)
• Widoczność i wpływ na rozwój kariery
• Udostępnienie danych zwiększa cytowalność i daje możliwość
nawiązania współpracy: https://datacite.org/index.html,
https://Databib.org
• Strukturyzacja danych zwiększa ich jakość/ profesjonalizm.
• Rzetelność naukowa i możliwość walidacji przez innych naukowców
• Ponowne wykorzystanie danych jest efektywne pod względem
kosztów i czasu.
5. Zarządzanie danymi – cykl życia projektu
https://www.slideshare.net/MariekeGuy/research-lifecyclenorthampton
6. Zarządzanie danymi – planowanie
• Czy konieczne jest zbieranie nowych danych aby odpowiedzieć na pytanie badawcze? Czy są
już istniejące dane? Czy sa one relewantne do badań? Czy mogą być użyte?
• Kto jest właścicielem danych istniejących? Od kogo pozyskać zgody/licencje na ich
wykorzystanie? Czy jest możliwe ? OPEDAS GoFair? Jaki jest format danych? Czy będą użyte
dane referencyjne, np. LITMED albo UniProt?
https://www.go-fair.org/implementation-networks/overview/opedas/
• Czy wzięto pod uwagę w jaki sposób zachowana zostanie anonimizacja lub pseudonimizacja
danych?
• Gdzie dane będą przechowywane i czy mamy na to odpowiednią infrastrukturę i pojemność.
• Kto w projekcie będzie odpowiedzialny za dane?
• Kto będzie współautorem publikacji i na jakich zasadach?
• Kto będzie podejmował decyzję o udostępnieniu danych?
7. Zarządzanie danymi – zbieranie danych
• Kwestie etyczne w badaniach z udziałem ludzi
• Zgody Komisji oraz zgody uczestnika badania
• Inne konieczne zgody wymagane prawem (Prawo własności intelektualnej i Prawo
autorskie)
• Ochrona danych poufnych i wrażliwych
• Zgoda na przekazanie i użytkowanie danych, w tym danych osobowych spoza
jednostki naukowej prowadzącej badania, z innego kraju UE, spoza UE,
• Zgodność z RODO,
• Ocena skutków ochrony danych (tzw. Data Protection Impact Assessment
(DPIA) – kontrola dostępu do danych osobowych, szyfrowana komunikacja,
• Przetwarzanie danych przez stronę trzecią.
8. Przechowywanie danych
Struktura folderu
Kopie zapasowe - zasada 3-2-1
Wersjonowanie - x.y.v.0.1
Umożliwia odnalezienie „kroków poprzednich” –
powtarzalność wyników
9. Zarządzanie danymi - metadane
Metadane to dane o danych.
Zgodnie z zasadami FAIR istotny element każdego zbioru
danych.
Metadane są dostępne na licencji Creative Commons
Public Domain.
Metadane posiadają trwały i unikalny identyfikator (np.
DOI) umożliwiający odszukanie ich maszynowo oraz
manualnie.
Są kluczem do uzyskania dostępu do danych badawczych,
ich zrozumienia i ponownego wykorzystania.
10. Zarządzanie danymi - metadane
Zidentyfikuj i zastosuj odpowiednie standardy
określając te, które zawierają pola potrzebne do
opisania twoich danych;
Jakie informacje są wymagane aby użytkownicy
mogli je znaleźć, wykorzystać i zrozumieć;
Należy wziąć pod uwagę odpowiedzi na pytania: kto,
gdzie, co, kiedy i dlaczego (5Ws) oraz opis
jakościowy;
Opis powinien zawierać informacje co można a czego
nie można robić z danymi.
11. Zarządzanie danymi – standardy
Metadata
General (descriptive) standards: Dublin Core i Data Cite
Disciplinary metada standards: Darwin Core (life sciences) TEI (text-
based doc) i CDWA (humanities), VRA Core (Art Objects)’
Akceptowane formaty
UK Data Service
DANS
https://support.datacite.org/docs/schema-optional-properties-v43
https://support.datacite.org/docs/field-descriptions-for-form
http://dublincore.org/specifications/dublin-core/dcmi-terms/
12. Zarządzanie danymi – archiwizacja danych
• Ochrona danych i metadanych
• Dokumentacja
• Co zrobiłeś i jak?
• Na jakich warunkach dane mogą być ponownie użyte?
• Otwarte licencje CC – licencje Creative Commons nie są alternatywą
do praw autorskich.
• Licencje umożliwiają autorom/właścicielom danych określenie warunków
dot. udostępnienia i ponownego wykorzystania danych. Jednocześnie
pozwala autorom na zachowanie pełnych praw do dzieła i uznania ich
autorstwa (cytowanie). Prawo autorskie to wyłączne prawo autora dzieła do
reprodukcji, publikacji, modyfikacji etc. dzieła/danych. Prawa autorskie mogą
zostać przeniesione, na drodze pisemnej umowy, przez autora na osobę
trzecią (często wydawcę).
• Trwałe identyfikatory – długotrwałe odniesienie do obiektu cyfrowego
• Digital Object Identifier (DOI), Handle
Guide to Creative Commons for Scholarly Publications and Educational Resources
by P. Braak, H. de Jonge, G.Trentacosti, I. Verhagen; S. Woutersen-Windhouwer, 28.10.2020 zenodo
13. Zarządzanie danymi – kryteria wyboru
repozytorium
• Trwałość funkcjonowania repozytorium– czy repozytorium
jest zarządzane przez uznaną organizację?
• Adekwatność prawna – na podstawie jakiej jurysdykcji
prawnej przeprowadzono/finansowano badania?
• Integracja i interoperacyjność danych – czy dane mogą być
połączone z innymi, istniejącymi danymi?
• Funkcjonalność – czy istnieje możliwość przechowywania
dużej ilości danych i czy dostęp do nich wymaga posiadania
specjalnych narzędzi dostępu?
COAR Community Framework for Good Practices in Repositories – opublikowane
8.10.2020 https://www.coar-repositories.org/coar-community-framework-for-good-
practices-in-repositories/
15. Zarządzanie danymi – w sposób FAIR
FAIR data ≠ Open data
“As open as possible, as closed as necessary”
F – Findable – (meta)dane są znajdywalne poprzez posiadanie unikalnego i
trwałego identyfikatora (PID);
A – Accessible – (meta)dane są dostępne przy użyciu
znormalizowanego protokołu, bezpłatnego i otwartego;
I - Interoperable – (meta)dane są interoperacyjne dzięki użyciu
formalnego, rozpoznawalnego i szeroko stosowanego formatu;
R - Re-usable – (meta)dane są dobrze opisane, z wieloma dokładnymi
atrybutami, co pozwoli na ich ponowne wykorzystanie przez innych
użytkowników.
16. Plan Zarządzania Danymi
1. Ogólne informacje o danych
• Pochodzenie danych : istniejące , nowe
• Typ, rozmiar, format, własność.
Różne formaty są dobre do różnych rzeczy: formaty otwarte są bardziej
trwałe, np.: tif, xml, rtf, wav.
Formaty zastrzeżone lub skompresowane są trudniejsze do
przechowywania, ale są szeroko stosowane, np.: doc, jpg, mp3.
Można wybrać jeden format do analizy, a następnie przekonwertować
na format standardowy w celu archiwizacji i udostępniania.
2. Dokumentacja i jakość danych
• Standardy metadanych
• Jakie informacje użytkownik potrzebuje aby zrozumieć dane?
17.
18. Plan Zarządzania Danymi
3. Przechowywanie danych w trakcie realizacji projektu
• Ochrona danych (techniczna, organizacyjna)
• Kontrola dostępu
• Kto ma dostęp do danych, czy do wszystkich danych?
4. Etyczne aspekty badań i wymogi prawne
• Zgoda uczestników badania
• Zgoda na wykorzystanie danych
5. Archiwizowanie danych po zakończeniu projektu
• Wybór otwartego repozytorium
• Anonimizacja danych
• Wybranie odpowiedniego formatu dla danych: nieszyfrowany,
nieskompresowany, otwarty; udokumentowany standard (ASC II,
Unicode). Rekomendowane: CSV, PLAIN TEXT< HTML, RTF, MP4, Codec:
Theora, TIFF, JPG2000, XML,
• Ochrona danych..
19. Skąd wiemy, że DMP jest OK
1. Is the plan appropriate?
adopting relevant standards
practices in line with norms for that field
use of support services e.g. university storage, subject repositories
2. Does it seem feasible to implement?
3. Is Openness on the author’s mind?
4. Has sufficient detailed information been provided?
5. Has advice been sought where needed?
6. Are restrictions and costs properly justified?
Based on Sarah Jones: Developing and reviewing DMPs
20. Plan Zarządzania Danymi - przykład
“we will use suitable formats to ensure that our data
can be preserved and sustained over the long term”
• Which formats? Name them!
• Does the team know which are suitable?
• Does the chosen repository have prefered data
format?
21. Plan Zarządzania Danymi - przykład
“data will be made available upon request to
bona fide medieval historians”
Why is it restricted?
Could other communities not reuse the data?
Will the research team be around to handle access
requests in the future?
22. Zarządzanie danymi – ocena ekspercka
“Online resource development will cost 21,000 PLN”
versus
“Online resource development, 60 days at 350 PLN”
• Don’t make reviewers dig around for information
• Be consistent in what you say in DMP and proposal
23. Zarządzanie danymi – ocena ekspercka
• First impressions count
• Stick to page limits, follow the template if mandated, provide
information in the relevant section…
• Beware blanket copy/paste
• A limited amount of information can be provided as boilerplate text.
Always read and adjust to your project.
• Avoid hyperbole, buzzwords and jargon
• Stick to clear statements and the strength of your technical
approach will evidence itself. Remember to explain abbreviations.
• Be clear and inspire trust in your plan
• Mention the agreements you have made with service providers
• Make all project partners contribute and commit to the DMP
• Mention community procedures or good practices, but avoid lip
service.