Analyse
Die Datenweiterverarbeitung
Die Phase der Analyse meint die Weiterverarbeitung von erhobenen Daten und spielt im Kontext des FDM eine wichtige Rolle für die Wahrung der Nachvollziehbarkeit und Reproduzierbarkeit resultierender Forschungsergebnisse. Adressiert wird dabei die Weiterverarbeitung von einer oder mehreren Datenquellen zu verknüpften Datenbasen und die weitere Analyse sowie Synthese für den Erkenntnisgewinn von Forschungsergebnissen. Hierbei liegt ein großer Fokus auf der Aggregation und dem Zusammenspiel verschiedener digitaler Objekte während des Forschungsprozesses, in welchem oftmals die Anwendung und Verknüpfung mit weiterer Software eine zentrale Rolle spielt. Die Versionierung der Daten und Dokumentation der Datenverarbeitungsschritte hin zu den Forschungsergebnissen ermöglicht es, diese datenorientiert reproduzieren zu können und somit die Provenienz der Daten zu sichern. Da eine Datenpublikation zumeist erst mit Erreichen eines Forschungsergebnisses und der damit verbundenen wissenschaftlichen Publikation erfolgt, spielt die Sicherung und Datenorganisation der anfallenden digitalen Objekte während des Forschungsprozesses eine wichtige Rolle.
Organisation und Strukturierung anfallender digitaler Objekte im Forschungsprozess
Dokumentation der Weiterverarbeitungsschritte
Zusammenspiel unterschiedlicher Datenquellen und digitaler Objekte im Rahmen der Forschung beherrschbar machen
Zweck der Analyse
Das FDM während der Datenweiterverabeitung dient der Sicherung der Datenprovenienz der Weiterverarbeitungsschritte um datenorientierte Nachvollziehbarkeit der Forschungsergebnisse zu gewährleisten. So werden neben der Dokumentation der verarbeitungsschritte die verschiedenen Digitalen Objekte miteinander verknüpft und weitere Metadaten annotiert. Durch die zugrundeliegenden Datenartefakte soll die Reproduzierbarkeit der Forschungsergebnisse ergmöglicht werden um so einen Beitrag zur guten wissenschaftlichen Praxis zu leisten. Auch soll während der Weiterverarbeitung die Nachnutzbarkeit der Daten gesichert werden und auf nachnutzbare Dateiformate geachtet werde, da sich die Daten oftmals nur in Verbindung mit der zueghörigen Softwareumgebung nachnutzen lassen.
Nachvollziehbarkeit der Datenweiterverarbeitung durch Dokumentation der Verarbeitungsschritte sichern
Durch die Versionierung und Datenorganisation anfallender digitaler Objekte im Forschungsprozess soll die Reproduzierbarkeit dieser gesichert werden
Die Organisaiton und Zusammenführung der Daten und
Aktivitäten der Analyse
Das Forschungsdatenmanagement im Rahmen der Datenweiterverarbeitung beinhaltet eine Reihe wichtiger Aktivitäten. Im Vordergrung dieser Phase steht die Wahrung der Nachvollziehbarkeit der Weiterverarbeitung der Daten mit zugeörigen Aggregations-, Analyse- und Syntheseschritten und der damit technischen und inhaltlichen Sicherung der Reproduzierbarkeit der Forschungsergebnisse. Um dies zu wahren sieht das FDM in dieser Phase die Datendokumentation und die Datenorganisation vor.
Die Datendokumentation sieht die Dokumentation des Workflows der Datenverarbeitung bis zum Forschungsergebnis vor. Hierbei gilt es, die einzelnen Schritte mit Versuchsaufbauten, eingesetzten Werkzeugen und Tools und anderen beschreibenden Informationen und Parametern zu dokumentieren. Als sinnvolles Werkzeug für die Dokumentation haben sich elektronische Laborbücher (ELN) erwiesen. Als Output liegen somit eigene Dokumentationsdateien vor sowie die weiteren Anreicherungen der digitalen Objekte mit prozessbeschreibenden- und deskriptiven Metadaten. Prozessbeschreibende Metadaten sehen die Annotation von Methoden, Hilfsmitteln und Parametern, die zur Entstehung und Weiterverarbeitung angewendet wurden. Deskriptive Metadaten geben zusätzliche Informationen zur Verarbeitung der Daten und sind stark von der Methode abhängig.
Neben der Dokumentation spielt auch die Datenorganisation der im Forschungsprozess anfallenden digitalen Objekte eine wichtige Rolle. Hier gilt es, die digitalen Objekte zu strukturieren und miteinander zu verknüpfen und während des Forschungsprozesses zu sichern. Dies sieht einerseits die Verknüpfung von Metadaten, Dokumentation und aggregierten und weiterverarbeitenden Datensätzen vor. Sowie die Verknüpfung der einzelnen digitalen Objekte zur Nachvollziehbarkeit der Weiterverarbeitung. Auf diese Weise gilt es, nachvollziehbare Strukturen der digitalen Objekte in inhaltlich zusammenhängenden Ordnerstrukturen zu schaffen und Namenskonventionen zu definieren, die eine nachvollziehbare Versionierung und Strukturierung der digitalen Objekte schaffen.
Neben der Strukturierung gilt es auch durch den vermehrten Einsatz von Software und anderen Analysewerkzeugen, welche zum Teil eigene Dateiformate verwenden, nachnutzbare Daten zu wahren und die Überführung und Konvertierung in kompatible Dateiformate zu bevorzugen. Gerade für die Nachnutzbarkeit der Daten ist dies ein wichtiger Faktor und wird in den Phasen des zugänglich machen und archivieren von Daten relevant und sollte im Rahmen der Analyse bereits so gut wie möglich berücksichtigt werden. Siehe hierzu: Archivierung und `Zugang
Dokumentation der Weiterverarbeitungsschritt
Organisation der Datenstruktur und Versionierung
Sicherung und Verknüpfung digitaler Objekte und Dokumentation
<https://maturitymodelsnfdi4ing.readthedocs.io/en/latest/Zugang.html#/>`_
Trainingsmaterialien: Daten analysieren [1]
Reifestufen
Level |
Reifestufe |
Charakteristik |
|---|---|---|
Level 1 |
Einstieg |
Das FDM im Rahmen der Analyse wird intuitiv und ad hoc ausgeführt. |
Es sind keine festgeschriebenen Arbeitsabläufe für das FDM im Rahmen der Analyse auf Projektebene beschrieben. |
||
Es sind keine Werkzeuge und Software, die im Rahmen des FDM für die Analyse eingesetzt werden, festgelegt. |
||
Level 2 |
Geführt |
Es werden auf Projektebene die datenmanagementbezogenen Inhalte der Analyse festgelegt und durchgeführt. |
Es werden auf Projektebene notwendige Ressourcen für das FDM im Rahmen der Analyse definiert und eingesetzt. |
||
Forschende wissen, wie die datenmanagementbezogene Analyse durchgeführt werden soll und es stehen notwendige Ressourcen zur Verfügung. |
||
Level 3 |
Definiert |
Die datenmanagementbezogenen Inhalte der Analyse werden nach domänenspezifischen Standards und Richtlinien ausgelegt. |
Es werden in der Domäne etablierte Tools und Werkzeuge für das FDM im Rahmen der Analyse identifiziert und angewendet. |
||
Forschende orientieren die datenmanagementbezogene Analyse an domänenspezifischen Standards und etablieren diese in der Umsetzung im Rahmen des Projektes. |
||
Level 4 |
Quantitativ geführt |
Es werden Qualitätskriterien für die Analyse definiert und etabliert. |
Die datenmanagementbezogenen Inhalte der Analyse werden auf Basis der definierten Qualitätskriterien hin gesichert. |
||
Forschende sichern auf Datenmanagementebene die Umsetzung der Analyse hinsichtlich definierter Qualitätskriterien. |
||
Level 5 |
Optimierend |
Auf Datenmanagementebene wird die Umsetzung der Analyse proaktiv optimiert und kontinuierlich verbessert (inhaltlich und technisch). |
Es werden Best Practices und Verbesserungen für das FDM in der Analyse entwickelt und mit der domänenspezifischen Community geteilt. |
Level 1
Level 2
Ziele |
Praktiken |
Empfehlungen/weitere Materialien |
|---|---|---|
3.2.1 (methodisch) Ich führe ab dem Beginn der Analyse, eine strukturierte und organisierte Dokumentation der (Meta-)Daten im Projekt durch (im (elektronischen) Laborbuch). |
Ich definiere, wie meine Dokumentation durchgeführt wird (Fortführung des Laborbuchs, Arbeitsschritte und -abläufe sowie Voraussetzungen und Beobachtungen). |
|
Ich erstelle ein Data Curation Profile, um die Verarbeitung der Daten zu dokumentieren (für das Projekt) |
||
Ich verwende für die Dokumentation ein konsistentes Format |
||
Ich dokumentiere Metadaten im Projekt nach domänenspezifi schen Anforderungen. |
||
Ich dokumentiere Zusammenhänge und Verknüpfungen. |
||
Ich erstelle einen Plan für den Umgang mit sensiblen Daten. |
||
Ich definiere Verantwortlichkeiten für die Dokumentation |
||
3.2.2 (methodisch) Ich organisiere und strukturiere ab dem Beginn meiner Analyse die Ablage und Dokumentation meiner Daten. |
Ich nutze einheitliche Formate für digitale Objekte |
|
Ich entwickle eine Ordnerstruktur für das Ablegen von Forschungsdaten |
||
Ich erstelle README-Dateien für die Beschreibung |
||
Ich definiere Verantwortlichkeiten für die Organisation |
||
3.2.3 (technisch) Ich definiere bis zum Start der Analyse, ein einheitli ches technisches Vorgehen für die Ablage und Sicherung meiner Daten. |
Ich definiere eine Sicherungsstrategie für die Daten |
|
Ich definiere Formate für das Abspeichern der Daten |
||
Ich nutze ein Speichermedium für die Ablage und Archivierung. |
||
Ich definiere Verantwortlichkeiten für die Speicherung. |
||
3.2.4 (technisch) Ich führe die Analyse, Dokumentation und Organisation meiner Daten in einer Datenbank durch. |
Ich nutze ein definiertes Werkzeug für die Dokumentation Ich nutze ein definiertes Werkzeuge für die Bereitstellung. |
Level 3
Ziele |
Praktiken |
Empfehlungen/weitere Materialien |
|---|---|---|
3.3.1 (methodisch) Ich führe ab dem Beginn der Analyse, eine strukturierte und organisierte Dokumentation der (Meta-)Daten nach domänen- oder communityspezifischen Standards durch (im (elektronischen) Laborbuch). |
Ich identifiziere Vorgaben und Standards aus der Domäne oder Community im Kontext der Analyse. |
|
Ich nutze eine Vorlage für die Erstellung eines Data Curation Profiles, um die Verarbeitung der Daten zu dokumentieren. |
||
Ich verwende für die Dokumentation ein standardisiertes Vokabular. |
||
Ich dokumentiere Metadaten im Projekt nach domänen- oder communityspezifischen Standards (bezogen auf Analyse). |
||
Ich nutze einen in der Domäne oder Community standardisierten Plan für den Umgang mit sensiblen Daten im Projekt (oder beziehe Standards bestmöglich mit ein). |
||
3.3.2 (methodisch) Ich organisiere und strukturiere ab dem Beginn der Analyse, meine digitalen Objekte, (Meta-)Daten und Forschungsergebnisse im Projekt nach domänen- oder communityspezifischen Standards. |
Ich nutze in der Domäne oder Community etablierte Formate für digitale Objekte, (Meta-)Daten und Forschungsergebnisse im Projekt. |
|
Ich richte meine Beschreibung der Datenorganisation nach domänen- oder communityspezifische Standards aus (README- Datei-Vorlagen). |
||
3.3.3 (technisch) Ich nutze bis zum Start der Analyse, ein in der Domäne oder Community standardisiertes Konzept für die Speicherung der im Projekt anfallenden Daten. |
Ich definiere standardisierte und offene Formate für das Abspeichern der (Meta-)Daten, die in der Domäne oder Community etabliert sind (hinsichtlich der Weiterverarbeitung). |
|
Ich nutze ein Speichermedium für die Ablage und den Zugriff auf meine Daten im Projekt, das in der Domäne oder Community etabliert ist (oder Standards einbezieht). |
||
3.3.4 (technisch) Ich führe die Analyse, Dokumentation und Organisation ab Beginn der Analyse mit Werkzeugen und Ressourcen durch, die in der Domäne oder Community etabliert sind (Software/Hardware). |
Ich nutze für die Dokumentation ein domänen- oder communityspezifisches Workflow-Werkzeug (Workflow- Software/-Hardware; Arbeitsschritte und -abläufe, Tools und Voraussetzungen). |
|
Ich nutze ein Werkzeuge für die Be- und Verarbeitung der (Meta-)Daten im Projekt, das in der Domäne oder Community etabliert ist (oder Standards einbezieht). |
Level 4
Ziele |
Praktiken |
Empfehlungen/weitere Materialien |
|---|---|---|
3.4.1 (methodisch) Ich kenne bis zum Start der Analyse in der Domäne oder Community etablierte Qualitätsziele und -kriterien für die Qualitätsmessung der (Meta-)Daten und Dokumentation, abhängig von der Forschungsmethode. |
Ich identifiziere und etabliere explizite Qualitätsdimensionen und -metriken, die innerhalb der Community ausgehandelt und anerkannt sind. |
|
Ich identifiziere (quantitative) Kriterien für die Qualitätsmessung, um intrinsische und kontextuelle Qualität zu gewährleisten (Inhalt, Vokabular, Format). |
||
Ich identifiziere Kriterien und Ziele bezüglich korrekter Bedingungen, Anwendung sowie Implementierung der Verfahren und Werkzeuge (Nutzung der Dokumentation/ Analyseplan; Nachvollziehbarkeit, Vollständigkeit). |
||
Ich definiere Verantwortlichkeiten für die Qualitätsprüfung der (Meta-)Daten und Dokumentation. |
||
3.4.2 (technisch) Ich führe ab dem Start der Analyse die Qualitätskontrolle der (Meta-)Daten anhand definierter Qualitätsmetriken durch. |
Ich prüfe die (Meta-)Datenqualität anhand definierter (quantitativer) Qualitätsdimensionen und -metriken (kontextuell, representational). |
|
Ich führe einen Qualitätskontrollprozess ein, um meine Daten kontinuierlich zu prüfen (manuelle/automatisierte Prüfung; Vollständigkeit, Interpretierbarkeit). |
||
Ich führe die Qualitätskontrolle der (Meta-)Daten mit ausgewählten Werkzeugen durch (Hard-/Software; Nutzung originaler Verfahren und Werkzeuge; Skripte, Checklisten). |
||
3.4.3 (technisch) Ich führe ab dem Start der Analyse die Qualitätskontrolle der Dokumentation anhand definierter Qualitätsmetriken durch. |
Ich prüfe anhand definierter Qualitätsdimensionen und -metriken die Vollständigkeit und Nchvollziehbarkeit der Dokumentation (Ordnungs- und Benennungsschema, Vokabularien, README-Dateien; Verknüpfungen zwischen Dokumentation, Daten und Ergebnissen). |
|
Ich prüfe anhand definierter Qualitätsdimensionen und -metriken die Genauigkeit und Objektivität der Dokumentation (Prüfung durch Experten; Verständlichkeit, Interpretationsfähigkeit). |
||
Ich führe die Qualitätskontrolle der Dokumentation mit einem ausgewählten Werkzeug durch. |
Level 5
Ziele |
Praktiken |
Empfehlungen/weitere Materialien |
|---|---|---|
3.5.1 (methodisch) Ich trage aktiv zur Verbesserung von Methoden und Verfahren in der Domäne oder Community bei und tausche mich mit dieser aus. |
Ich teile meine neuesten Erkenntnisse und Wissen zu Analysemethoden und -verfahren sowie der Dokumentation, Organisation und Sicherung von Daten in der Community (Sicherungsstrategien, Qualitätsmetriken; z.B. Weiterentwicklung von Data Curation Profile Templates oder Workflow-Software). |
|
Ich verwende die neuesten Methoden und Verfahren der Domäne oder Community für die Analyse. |
||
3.5.2 (methodisch) Ich entwickle neue Standards und Best-Practices in der Community mit. |
Ich beteilige mich an der Entwicklung von Standards und Best-Practices in der Domäne oder Community (Metadatenstandards, Vokabulare, Organisation/Struktur von Daten). |
|
Ich nutze die aktuellsten Standards und Best-Practices in der Domäne oder Community. |
Checkliste
Weiterführende Materialien
Referenzen
[1] Diese Trainingmaterialien sind entstanden im Rahmen der NFDI4Ing Special Interest Group RDM Training & Education.