Analyse

Die Datenweiterverarbeitung

Die Phase der Analyse meint die Weiterverarbeitung von erhobenen Daten und spielt im Kontext des FDM eine wichtige Rolle für die Wahrung der Nachvollziehbarkeit und Reproduzierbarkeit resultierender Forschungsergebnisse. Adressiert wird dabei die Weiterverarbeitung von einer oder mehreren Datenquellen zu verknüpften Datenbasen und die weitere Analyse sowie Synthese für den Erkenntnisgewinn von Forschungsergebnissen. Hierbei liegt ein großer Fokus auf der Aggregation und dem Zusammenspiel verschiedener digitaler Objekte während des Forschungsprozesses, in welchem oftmals die Anwendung und Verknüpfung mit weiterer Software eine zentrale Rolle spielt. Die Versionierung der Daten und Dokumentation der Datenverarbeitungsschritte hin zu den Forschungsergebnissen ermöglicht es, diese datenorientiert reproduzieren zu können und somit die Provenienz der Daten zu sichern. Da eine Datenpublikation zumeist erst mit Erreichen eines Forschungsergebnisses und der damit verbundenen wissenschaftlichen Publikation erfolgt, spielt die Sicherung und Datenorganisation der anfallenden digitalen Objekte während des Forschungsprozesses eine wichtige Rolle.

  • Organisation und Strukturierung anfallender digitaler Objekte im Forschungsprozess

  • Dokumentation der Weiterverarbeitungsschritte

  • Zusammenspiel unterschiedlicher Datenquellen und digitaler Objekte im Rahmen der Forschung beherrschbar machen

Zweck der Analyse

Das FDM während der Datenweiterverabeitung dient der Sicherung der Datenprovenienz der Weiterverarbeitungsschritte um datenorientierte Nachvollziehbarkeit der Forschungsergebnisse zu gewährleisten. So werden neben der Dokumentation der verarbeitungsschritte die verschiedenen Digitalen Objekte miteinander verknüpft und weitere Metadaten annotiert. Durch die zugrundeliegenden Datenartefakte soll die Reproduzierbarkeit der Forschungsergebnisse ergmöglicht werden um so einen Beitrag zur guten wissenschaftlichen Praxis zu leisten. Auch soll während der Weiterverarbeitung die Nachnutzbarkeit der Daten gesichert werden und auf nachnutzbare Dateiformate geachtet werde, da sich die Daten oftmals nur in Verbindung mit der zueghörigen Softwareumgebung nachnutzen lassen.

  • Nachvollziehbarkeit der Datenweiterverarbeitung durch Dokumentation der Verarbeitungsschritte sichern

  • Durch die Versionierung und Datenorganisation anfallender digitaler Objekte im Forschungsprozess soll die Reproduzierbarkeit dieser gesichert werden

Die Organisaiton und Zusammenführung der Daten und

Aktivitäten der Analyse

Das Forschungsdatenmanagement im Rahmen der Datenweiterverarbeitung beinhaltet eine Reihe wichtiger Aktivitäten. Im Vordergrung dieser Phase steht die Wahrung der Nachvollziehbarkeit der Weiterverarbeitung der Daten mit zugeörigen Aggregations-, Analyse- und Syntheseschritten und der damit technischen und inhaltlichen Sicherung der Reproduzierbarkeit der Forschungsergebnisse. Um dies zu wahren sieht das FDM in dieser Phase die Datendokumentation und die Datenorganisation vor.

Die Datendokumentation sieht die Dokumentation des Workflows der Datenverarbeitung bis zum Forschungsergebnis vor. Hierbei gilt es, die einzelnen Schritte mit Versuchsaufbauten, eingesetzten Werkzeugen und Tools und anderen beschreibenden Informationen und Parametern zu dokumentieren. Als sinnvolles Werkzeug für die Dokumentation haben sich elektronische Laborbücher (ELN) erwiesen. Als Output liegen somit eigene Dokumentationsdateien vor sowie die weiteren Anreicherungen der digitalen Objekte mit prozessbeschreibenden- und deskriptiven Metadaten. Prozessbeschreibende Metadaten sehen die Annotation von Methoden, Hilfsmitteln und Parametern, die zur Entstehung und Weiterverarbeitung angewendet wurden. Deskriptive Metadaten geben zusätzliche Informationen zur Verarbeitung der Daten und sind stark von der Methode abhängig.

Neben der Dokumentation spielt auch die Datenorganisation der im Forschungsprozess anfallenden digitalen Objekte eine wichtige Rolle. Hier gilt es, die digitalen Objekte zu strukturieren und miteinander zu verknüpfen und während des Forschungsprozesses zu sichern. Dies sieht einerseits die Verknüpfung von Metadaten, Dokumentation und aggregierten und weiterverarbeitenden Datensätzen vor. Sowie die Verknüpfung der einzelnen digitalen Objekte zur Nachvollziehbarkeit der Weiterverarbeitung. Auf diese Weise gilt es, nachvollziehbare Strukturen der digitalen Objekte in inhaltlich zusammenhängenden Ordnerstrukturen zu schaffen und Namenskonventionen zu definieren, die eine nachvollziehbare Versionierung und Strukturierung der digitalen Objekte schaffen.

Neben der Strukturierung gilt es auch durch den vermehrten Einsatz von Software und anderen Analysewerkzeugen, welche zum Teil eigene Dateiformate verwenden, nachnutzbare Daten zu wahren und die Überführung und Konvertierung in kompatible Dateiformate zu bevorzugen. Gerade für die Nachnutzbarkeit der Daten ist dies ein wichtiger Faktor und wird in den Phasen des zugänglich machen und archivieren von Daten relevant und sollte im Rahmen der Analyse bereits so gut wie möglich berücksichtigt werden. Siehe hierzu: Archivierung und `Zugang

  • Dokumentation der Weiterverarbeitungsschritt

  • Organisation der Datenstruktur und Versionierung

  • Sicherung und Verknüpfung digitaler Objekte und Dokumentation

<https://maturitymodelsnfdi4ing.readthedocs.io/en/latest/Zugang.html#/>`_

Trainingsmaterialien: Daten analysieren [1]

Reifestufen

Level

Reifestufe

Charakteristik

Level 1

Einstieg

Das FDM im Rahmen der Analyse wird

intuitiv und ad hoc ausgeführt.

Es sind keine festgeschriebenen Arbeitsabläufe

für das FDM im Rahmen der Analyse auf

Projektebene beschrieben.

Es sind keine Werkzeuge und Software, die im

Rahmen des FDM für die Analyse eingesetzt werden,

festgelegt.

Level 2

Geführt

Es werden auf Projektebene die datenmanagementbezogenen

Inhalte der Analyse festgelegt und durchgeführt.

Es werden auf Projektebene notwendige Ressourcen

für das FDM im Rahmen der Analyse definiert und

eingesetzt.

Forschende wissen, wie die datenmanagementbezogene

Analyse durchgeführt werden soll und es stehen

notwendige Ressourcen zur Verfügung.

Level 3

Definiert

Die datenmanagementbezogenen Inhalte der

Analyse werden nach domänenspezifischen

Standards und Richtlinien ausgelegt.

Es werden in der Domäne etablierte Tools und Werkzeuge

für das FDM im Rahmen der Analyse identifiziert und

angewendet.

Forschende orientieren die datenmanagementbezogene

Analyse an domänenspezifischen Standards und

etablieren diese in der Umsetzung im Rahmen des

Projektes.

Level 4

Quantitativ geführt

Es werden Qualitätskriterien für die Analyse definiert

und etabliert.

Die datenmanagementbezogenen Inhalte der

Analyse werden auf Basis der definierten

Qualitätskriterien hin gesichert.

Forschende sichern auf Datenmanagementebene die

Umsetzung der Analyse hinsichtlich definierter

Qualitätskriterien.

Level 5

Optimierend

Auf Datenmanagementebene wird die Umsetzung der

Analyse proaktiv optimiert und kontinuierlich verbessert

(inhaltlich und technisch).

Es werden Best Practices und Verbesserungen für

das FDM in der Analyse entwickelt und mit der

domänenspezifischen Community geteilt.

Level 1

Level 2

Ziele

Praktiken

Level 3

Ziele

Praktiken

Level 4

Ziele

Praktiken

Level 5

Ziele

Praktiken

Checkliste

Weiterführende Materialien

Referenzen

[1] Diese Trainingmaterialien sind entstanden im Rahmen der NFDI4Ing Special Interest Group RDM Training & Education.