Analyse

Die Datenweiterverarbeitung

Die Phase der Analyse meint die Weiterverarbeitung von erhobenen Daten und spielt im Kontext des FDM eine wichtige Rolle für die Wahrung der Nachvollziehbarkeit und Reproduzierbarkeit resultierender Forschungsergebnisse. Adressiert wird dabei die Weiterverarbeitung von einer oder mehreren Datenquellen zu verknüpften Datenbasen und die weitere Analyse sowie Synthese für den Erkenntnisgewinn von Forschungsergebnissen. Hierbei liegt ein großer Fokus auf der Aggregation und dem Zusammenspiel verschiedener digitaler Objekte während des Forschungsprozesses, in welchem oftmals die Anwendung und Verknüpfung mit weiterer Software eine zentrale Rolle spielt. Die Versionierung der Daten und Dokumentation der Datenverarbeitungsschritte hin zu den Forschungsergebnissen ermöglicht es, diese datenorientiert reproduzieren zu können und somit die Provenienz der Daten zu sichern. Da eine Datenpublikation zumeist erst mit Erreichen eines Forschungsergebnisses und der damit verbundenen wissenschaftlichen Publikation erfolgt, spielt die Sicherung und Datenorganisation der anfallenden digitalen Objekte während des Forschungsprozesses eine wichtige Rolle.

  • Organisation und Strukturierung anfallender digitaler Objekte im Forschungsprozess

  • Dokumentation der Weiterverarbeitungsschritte

  • Zusammenspiel unterschiedlicher Datenquellen und digitaler Objekte im Rahmen der Forschung beherrschbar machen

Zweck der Analyse

Das FDM während der Datenweiterverabeitung dient der Sicherung der Datenprovenienz der Weiterverarbeitungsschritte um datenorientierte Nachvollziehbarkeit der Forschungsergebnisse zu gewährleisten. So werden neben der Dokumentation der verarbeitungsschritte die verschiedenen Digitalen Objekte miteinander verknüpft und weitere Metadaten annotiert. Durch die zugrundeliegenden Datenartefakte soll die Reproduzierbarkeit der Forschungsergebnisse ergmöglicht werden um so einen Beitrag zur guten wissenschaftlichen Praxis zu leisten. Auch soll während der Weiterverarbeitung die Nachnutzbarkeit der Daten gesichert werden und auf nachnutzbare Dateiformate geachtet werde, da sich die Daten oftmals nur in Verbindung mit der zueghörigen Softwareumgebung nachnutzen lassen.

  • Nachvollziehbarkeit der Datenweiterverarbeitung durch Dokumentation der Verarbeitungsschritte sichern

  • Durch die Versionierung und Datenorganisation anfallender digitaler Objekte im Forschungsprozess soll die Reproduzierbarkeit dieser gesichert werden

Die Organisaiton und Zusammenführung der Daten und

Aktivitäten der Analyse

Das Forschungsdatenmanagement im Rahmen der Datenweiterverarbeitung beinhaltet eine Reihe wichtiger Aktivitäten. Im Vordergrung dieser Phase steht die Wahrung der Nachvollziehbarkeit der Weiterverarbeitung der Daten mit zugeörigen Aggregations-, Analyse- und Syntheseschritten und der damit technischen und inhaltlichen Sicherung der Reproduzierbarkeit der Forschungsergebnisse. Um dies zu wahren sieht das FDM in dieser Phase die Datendokumentation und die Datenorganisation vor.

Die Datendokumentation sieht die Dokumentation des Workflows der Datenverarbeitung bis zum Forschungsergebnis vor. Hierbei gilt es, die einzelnen Schritte mit Versuchsaufbauten, eingesetzten Werkzeugen und Tools und anderen beschreibenden Informationen und Parametern zu dokumentieren. Als sinnvolles Werkzeug für die Dokumentation haben sich elektronische Laborbücher (ELN) erwiesen. Als Output liegen somit eigene Dokumentationsdateien vor sowie die weiteren Anreicherungen der digitalen Objekte mit prozessbeschreibenden- und deskriptiven Metadaten. Prozessbeschreibende Metadaten sehen die Annotation von Methoden, Hilfsmitteln und Parametern, die zur Entstehung und Weiterverarbeitung angewendet wurden. Deskriptive Metadaten geben zusätzliche Informationen zur Verarbeitung der Daten und sind stark von der Methode abhängig.

Neben der Dokumentation spielt auch die Datenorganisation der im Forschungsprozess anfallenden digitalen Objekte eine wichtige Rolle. Hier gilt es, die digitalen Objekte zu strukturieren und miteinander zu verknüpfen und während des Forschungsprozesses zu sichern. Dies sieht einerseits die Verknüpfung von Metadaten, Dokumentation und aggregierten und weiterverarbeitenden Datensätzen vor. Sowie die Verknüpfung der einzelnen digitalen Objekte zur Nachvollziehbarkeit der Weiterverarbeitung. Auf diese Weise gilt es, nachvollziehbare Strukturen der digitalen Objekte in inhaltlich zusammenhängenden Ordnerstrukturen zu schaffen und Namenskonventionen zu definieren, die eine nachvollziehbare Versionierung und Strukturierung der digitalen Objekte schaffen.

Neben der Strukturierung gilt es auch durch den vermehrten Einsatz von Software und anderen Analysewerkzeugen, welche zum Teil eigene Dateiformate verwenden, nachnutzbare Daten zu wahren und die Überführung und Konvertierung in kompatible Dateiformate zu bevorzugen. Gerade für die Nachnutzbarkeit der Daten ist dies ein wichtiger Faktor und wird in den Phasen des zugänglich machen und archivieren von Daten relevant und sollte im Rahmen der Analyse bereits so gut wie möglich berücksichtigt werden. Siehe hierzu: Archivierung und `Zugang

  • Dokumentation der Weiterverarbeitungsschritt

  • Organisation der Datenstruktur und Versionierung

  • Sicherung und Verknüpfung digitaler Objekte und Dokumentation

<https://maturitymodelsnfdi4ing.readthedocs.io/en/latest/Zugang.html#/>`_

Trainingsmaterialien: Daten analysieren [1]

Reifestufen

Level

Reifestufe

Charakteristik

Level 1

Einstieg

Das FDM im Rahmen der Analyse wird

intuitiv und ad hoc ausgeführt.

Es sind keine festgeschriebenen Arbeitsabläufe

für das FDM im Rahmen der Analyse auf

Projektebene beschrieben.

Es sind keine Werkzeuge und Software, die im

Rahmen des FDM für die Analyse eingesetzt werden,

festgelegt.

Level 2

Geführt

Es werden auf Projektebene die datenmanagementbezogenen

Inhalte der Analyse festgelegt und durchgeführt.

Es werden auf Projektebene notwendige Ressourcen

für das FDM im Rahmen der Analyse definiert und

eingesetzt.

Forschende wissen, wie die datenmanagementbezogene

Analyse durchgeführt werden soll und es stehen

notwendige Ressourcen zur Verfügung.

Level 3

Definiert

Die datenmanagementbezogenen Inhalte der

Analyse werden nach domänenspezifischen

Standards und Richtlinien ausgelegt.

Es werden in der Domäne etablierte Tools und Werkzeuge

für das FDM im Rahmen der Analyse identifiziert und

angewendet.

Forschende orientieren die datenmanagementbezogene

Analyse an domänenspezifischen Standards und

etablieren diese in der Umsetzung im Rahmen des

Projektes.

Level 4

Quantitativ geführt

Es werden Qualitätskriterien für die Analyse definiert

und etabliert.

Die datenmanagementbezogenen Inhalte der

Analyse werden auf Basis der definierten

Qualitätskriterien hin gesichert.

Forschende sichern auf Datenmanagementebene die

Umsetzung der Analyse hinsichtlich definierter

Qualitätskriterien.

Level 5

Optimierend

Auf Datenmanagementebene wird die Umsetzung der

Analyse proaktiv optimiert und kontinuierlich verbessert

(inhaltlich und technisch).

Es werden Best Practices und Verbesserungen für

das FDM in der Analyse entwickelt und mit der

domänenspezifischen Community geteilt.

Level 1

Level 2

Ziele

Praktiken

Empfehlungen/weitere Materialien

3.2.1 (methodisch)

Ich führe ab dem Beginn der Analyse, eine

strukturierte und organisierte Dokumentation

der (Meta-)Daten im Projekt durch

(im (elektronischen) Laborbuch).

Ich definiere, wie meine Dokumentation durchgeführt wird

(Fortführung des Laborbuchs, Arbeitsschritte und

-abläufe sowie Voraussetzungen und Beobachtungen).

Ich erstelle ein Data Curation Profile, um die

Verarbeitung der Daten zu dokumentieren (für das Projekt)

Ich verwende für die Dokumentation ein konsistentes

Format

Ich dokumentiere Metadaten im Projekt nach domänenspezifi

schen Anforderungen.

Ich dokumentiere Zusammenhänge und Verknüpfungen.

Ich erstelle einen Plan für den Umgang mit sensiblen

Daten.

Ich definiere Verantwortlichkeiten für die Dokumentation

3.2.2 (methodisch)

Ich organisiere und strukturiere ab dem Beginn meiner

Analyse die Ablage und Dokumentation meiner Daten.

Ich nutze einheitliche Formate für digitale Objekte

Ich entwickle eine Ordnerstruktur für das Ablegen von

Forschungsdaten

Ich erstelle README-Dateien für die Beschreibung

Ich definiere Verantwortlichkeiten für die Organisation

3.2.3 (technisch)

Ich definiere bis zum Start der Analyse, ein einheitli

ches technisches Vorgehen für die Ablage und Sicherung

meiner Daten.

Ich definiere eine Sicherungsstrategie für die Daten

Ich definiere Formate für das Abspeichern der Daten

Ich nutze ein Speichermedium für die Ablage und

Archivierung.

Ich definiere Verantwortlichkeiten für die Speicherung.

3.2.4 (technisch)

Ich führe die Analyse, Dokumentation und Organisation

meiner Daten in einer Datenbank durch.

Ich nutze ein definiertes Werkzeug für die Dokumentation

Ich nutze ein definiertes Werkzeuge für die

Bereitstellung.

Level 3

Ziele

Praktiken

Empfehlungen/weitere Materialien

3.3.1 (methodisch)

Ich führe ab dem Beginn der Analyse, eine

strukturierte und organisierte Dokumentation der

(Meta-)Daten nach domänen- oder communityspezifischen

Standards durch (im (elektronischen) Laborbuch).

Ich identifiziere Vorgaben und Standards aus der Domäne

oder Community im Kontext der Analyse.

Ich nutze eine Vorlage für die Erstellung eines Data

Curation Profiles, um die Verarbeitung der Daten zu

dokumentieren.

Ich verwende für die Dokumentation ein standardisiertes

Vokabular.

Ich dokumentiere Metadaten im Projekt nach domänen- oder

communityspezifischen Standards (bezogen auf Analyse).

Ich nutze einen in der Domäne oder Community

standardisierten Plan für den Umgang mit sensiblen Daten

im Projekt (oder beziehe Standards bestmöglich mit ein).

3.3.2 (methodisch)

Ich organisiere und strukturiere ab dem Beginn der

Analyse, meine digitalen Objekte, (Meta-)Daten und

Forschungsergebnisse im Projekt nach domänen- oder

communityspezifischen Standards.

Ich nutze in der Domäne oder Community etablierte Formate

für digitale Objekte, (Meta-)Daten und

Forschungsergebnisse im Projekt.

Ich richte meine Beschreibung der Datenorganisation nach

domänen- oder communityspezifische Standards aus (README-

Datei-Vorlagen).

3.3.3 (technisch)

Ich nutze bis zum Start der Analyse, ein in der Domäne

oder Community standardisiertes Konzept für die

Speicherung der im Projekt anfallenden Daten.

Ich definiere standardisierte und offene Formate für das

Abspeichern der (Meta-)Daten, die in der Domäne oder

Community etabliert sind (hinsichtlich der

Weiterverarbeitung).

Ich nutze ein Speichermedium für die Ablage und den

Zugriff auf meine Daten im Projekt, das in der Domäne

oder Community etabliert ist (oder Standards einbezieht).

3.3.4 (technisch)

Ich führe die Analyse, Dokumentation und Organisation

ab Beginn der Analyse mit Werkzeugen und Ressourcen

durch, die in der Domäne oder Community etabliert sind

(Software/Hardware).

Ich nutze für die Dokumentation ein domänen- oder

communityspezifisches Workflow-Werkzeug (Workflow-

Software/-Hardware; Arbeitsschritte und -abläufe, Tools

und Voraussetzungen).

Ich nutze ein Werkzeuge für die Be- und Verarbeitung der

(Meta-)Daten im Projekt, das in der Domäne oder Community

etabliert ist (oder Standards einbezieht).

Level 4

Ziele

Praktiken

Empfehlungen/weitere Materialien

3.4.1 (methodisch)

Ich kenne bis zum Start der Analyse in der Domäne oder

Community etablierte Qualitätsziele und -kriterien für

die Qualitätsmessung der (Meta-)Daten und

Dokumentation, abhängig von der Forschungsmethode.

Ich identifiziere und etabliere explizite

Qualitätsdimensionen und -metriken, die innerhalb der

Community ausgehandelt und anerkannt sind.

Ich identifiziere (quantitative) Kriterien für die

Qualitätsmessung, um intrinsische und kontextuelle

Qualität zu gewährleisten (Inhalt, Vokabular, Format).

Ich identifiziere Kriterien und Ziele bezüglich korrekter

Bedingungen, Anwendung sowie Implementierung der

Verfahren und Werkzeuge (Nutzung der Dokumentation/

Analyseplan; Nachvollziehbarkeit, Vollständigkeit).

Ich definiere Verantwortlichkeiten für die

Qualitätsprüfung der (Meta-)Daten und Dokumentation.

3.4.2 (technisch)

Ich führe ab dem Start der Analyse die

Qualitätskontrolle der (Meta-)Daten anhand definierter

Qualitätsmetriken durch.

Ich prüfe die (Meta-)Datenqualität anhand definierter

(quantitativer) Qualitätsdimensionen und -metriken

(kontextuell, representational).

Ich führe einen Qualitätskontrollprozess ein, um meine

Daten kontinuierlich zu prüfen (manuelle/automatisierte

Prüfung; Vollständigkeit, Interpretierbarkeit).

Ich führe die Qualitätskontrolle der (Meta-)Daten mit

ausgewählten Werkzeugen durch (Hard-/Software; Nutzung

originaler Verfahren und Werkzeuge; Skripte,

Checklisten).

3.4.3 (technisch)

Ich führe ab dem Start der Analyse die

Qualitätskontrolle der Dokumentation anhand

definierter Qualitätsmetriken durch.

Ich prüfe anhand definierter Qualitätsdimensionen und

-metriken die Vollständigkeit und Nchvollziehbarkeit der

Dokumentation (Ordnungs- und Benennungsschema,

Vokabularien, README-Dateien; Verknüpfungen zwischen

Dokumentation, Daten und Ergebnissen).

Ich prüfe anhand definierter Qualitätsdimensionen und

-metriken die Genauigkeit und Objektivität der

Dokumentation (Prüfung durch Experten; Verständlichkeit,

Interpretationsfähigkeit).

Ich führe die Qualitätskontrolle der Dokumentation mit

einem ausgewählten Werkzeug durch.

Level 5

Ziele

Praktiken

Empfehlungen/weitere Materialien

3.5.1 (methodisch)

Ich trage aktiv zur Verbesserung von Methoden und

Verfahren in der Domäne oder Community bei und tausche

mich mit dieser aus.

Ich teile meine neuesten Erkenntnisse und Wissen zu

Analysemethoden und -verfahren sowie der Dokumentation,

Organisation und Sicherung von Daten in der Community

(Sicherungsstrategien, Qualitätsmetriken; z.B.

Weiterentwicklung von Data Curation Profile Templates

oder Workflow-Software).

Ich verwende die neuesten Methoden und Verfahren der

Domäne oder Community für die Analyse.

3.5.2 (methodisch)

Ich entwickle neue Standards und Best-Practices in der

Community mit.

Ich beteilige mich an der Entwicklung von Standards und

Best-Practices in der Domäne oder Community

(Metadatenstandards, Vokabulare, Organisation/Struktur

von Daten).

Ich nutze die aktuellsten Standards und Best-Practices in

der Domäne oder Community.

Checkliste

Weiterführende Materialien

Referenzen

[1] Diese Trainingmaterialien sind entstanden im Rahmen der NFDI4Ing Special Interest Group RDM Training & Education.