Archivierung
Die Datenarchivierung
Archivierung bezeichnet die langfristige Speicherung von gesammelten Daten und den dazugehörigen Metadaten. Durch diese Praxis werden die Daten vor ungewolltem Verlust oder Schäden geschützt. Die Archivierung wird aufgeteilt in drei Ebenen: Gewährleistung der Integrität, der Authentizität und der Interpretierbarkeit der Daten. Dies sichert nicht nur die Erhaltung der Daten selbst, sondern auch ihre korrekte Bedeutung und Einordnung über die Zeit hinweg.
Langzeitspeicherung erhobener Daten und Metadaten
Daten werden vor ungewolltem Verlust und Beschädigung geschützt
Drei Ebenen der Archivierung: Erhalt von Integrität, Authentizität und Interpretierbarkeit der Daten
Zweck der Archivierung
Die Archivierung dient verschiedenen Zwecken, um die Sicherheit und Bedeutung von Forschungsdaten langfristig zu gewährleisten. Unsachgemäße Archivierung birgt das Risiko von Beschädigung oder Verlust von Daten. Ein gut durchgeführter Archivierungsprozess ermöglicht die Interoperabilität, Langzeitarchivierung und effiziente Datenanalyse, während unzureichende Archivierung dazu führen kann, dass Daten aufgrund veralteter Speichermedien unbrauchbar werden. Die Bewahrung der Authentizität und Integrität von Daten ist von zentraler Bedeutung, wofür vertrauenswürdige Repositorien eine entscheidende Rolle spielen. Durch die Einhaltung solcher Archivierungsprinzipien können Forschende sicherstellen, dass ihre Daten auch langfristig relevant und verlässlich bleiben.
Daten können bei unsachgemäßer Speicherung beschädigt werden oder verloren gehen
Interoperabilität, Langzeitarchivierung und effiziente Datenanalyse wird durch gut durchgeführte Archivierungsprozesse gewährleistet
Speichermedien können veralten und Daten unbrauchbar werden bei unzureichend geführter Archivierung
Die Authentizität und Integrität von Daten muss bewahrt werden, dabei hilft ein vertrauenswürdiges Repositorium
Aktivitäten für die Archivierung
Die Archivierung von Daten beinhaltet eine Reihe von wichtigen Aktivitäten. Dazu gehört die Übertragung oder Transkription der Daten in die gewünschte Schriftform. Es ist empfehlenswert, normierte und offene Dateiformate zu nutzen und diese regelmäßig auf ihre Aktualität hin zu überprüfen.
Je nach Fachgebiet sollte eine geeignete Plattform oder ein geeignetes Repositorium für die Archivierung der Daten gewählt werden. Dies stellt sicher, dass die Daten in einem Kontext abgelegt werden, der den Anforderungen der jeweiligen Wissenschaftsdisziplin entspricht.
Zusätzliches Material, wie beispielsweise genutzte Fragebögen oder Variablenbeschriftungen, sollte den archivierten Daten beigefügt werden. Dies ermöglicht es anderen Forschenden, die Daten besser zu verstehen und zu nutzen.
Ein weiterer essentieller Schritt ist die regelmäßige Durchführung von Backups. Dadurch wird sichergestellt, dass die Daten im Falle eines unerwarteten Verlusts oder technischer Probleme wiederhergestellt werden können. Diese Aktivitäten tragen dazu bei, dass die Archivierung der Daten effektiv und nachhaltig erfolgt.
Daten in die gewünschte Schriftform übertragen bzw. transkribieren
Bestenfalls Nutzung von normierten und offenen Dateiformaten und regelmäßige Prüfung auf Aktualität der genutzten Formate
Die Daten je nach Wissenschaftsdisziplin einem geeigneten Repositorium archivieren
Beifügen von zusätzlichem Material wie z.B. genutzten Fragebögen, Variablenbeschriftungen etc.
Regelmäßige Back Ups durchführen
Trainingsmaterialien: Daten archivieren [1]
Reifestufen
Level |
Reifestufe |
Charakteristik |
|---|---|---|
Level 1 |
Einstieg |
Daten werden ad hoc und reaktiv archiviert. |
Es sind keine festgeschriebenen Arbeitsabläufe für das Archivieren von Daten auf Projektebene beschrieben. |
||
Es sind keine Werkzeuge und Software, die im Rahmen des FDM für Archivieren von Daten eingesetzt werden,festgelegt. |
||
Level 2 |
Geführt |
Es werden auf Projektebene die datenmanagementbezogenen Inhalte das Archivieren von Daten festgelegt und durchgeführt. |
Es werden auf Projektebene notwendige Ressourcen für das FDM das Archivieren von Daten definiert und eingesetzt. |
||
Forschende wissen, wie das Archivieren von Daten durchgeführt werden soll und es stehen notwendige Ressourcen zur Verfügung. |
||
Level 3 |
Definiert |
Die datenmanagementbezogenen Inhalte für das Archivieren von Daten werden nach domänenspezifischen Standards und Richtlinien ausgelegt. |
Es werden in der Domäne etablierte Tools und Werkzeuge für das FDM im Rahmen des Archivierens von Daten identifiziert und angewendet. |
||
Forschende orientieren das Archivieren von Daten an domänenspezifischen Standards und etablieren diese in der Umsetzung im Rahmen des Projektes. |
||
Level 4 |
Quantitativ geführt |
Es werden Qualitätskriterien für das Archivieren von Daten definiert und etabliert. |
Die datenmanagementbezogenen Inhalte für das Archivieren von Daten werden auf Basis der definierten Qualitätskriterien hin gesichert. |
||
Forschende sichern auf Datenmanagementebene die Umsetzung des Archivierens von Daten hinsichtlich definierter Qualitätskriterien. |
||
Level 5 |
Optimierend |
Auf Datenmanagementebene wird die Umsetzung des Archivierens von Daten proaktiv optimiert und kontinuierlich verbessert (inhaltlich und technisch). |
Es werden Best Practices und Verbesserungen für für das Archivieren von Daten entwickelt und mit der domänenspezifischen Community geteilt. |
Level 1
Auf der Reifestufe 1 gibt es keine definierten Ziele, da die Archivierung von Daten intuitiv abläuft
Archivierung von Daten hängt von der Motivation der Forschenden ab
Keine definierte Art und Weise Daten zu archivieren
Level 2
Ziele |
Praktiken |
Empfehlungen/weitere Materialien |
|---|---|---|
4.2.1 (methodisch) Ich bereite bis zum Start der Archivierung den Archivierungsprozess für die Forschungsdaten vor. |
Ich identifiziere ein Archivierungssystem und Ressourcen, die für meine Forschungsdaten geeignet sind (Repositorium, Offline-Speicher, Online-Speicher). |
|
Ich definiere eine Erhaltungs- und Sicherungsstrategie für die Forschungsdaten (Speichermedium, Archivierungsdauer, Organisation des Speichermediums, Technologieentwicklung, Datensicherheit; technische Zusammensetzung, Format, Beschreibung; Migration, Emulation). |
||
Ich definiere Verantwortlichkeiten für den Archivierungsprozess (Selektion, Dokumentation, Organisation). |
||
4.2.2 (methodisch) Ich bereite bis zum Beginn der Archivierung meine Forschungsdaten für die (Langzeit-)Speicherung und Archivierung vor (Auswahl, Beschreibung, Organisation). |
Ich identifiziere und selektiere die Daten, die basierend auf ihrem Nutzen, der Qualität und der Zielgruppe(n) für die (Langzeit-)Archivierung erhalten werden sollen (basierend auf der Zielgruppe und Priorität; Art, Menge, Formate; technische sowie inhaltliche Prüfung). |
|
Ich erstelle möglichst maschinenlesbare, bibliographische Metadaten für das Auffinden, Zuordnen und Einordnen der Forschungsdaten (Hintergrund, Inhalt, Autor, Design, Zugriffsmöglichkeiten). |
||
Ich wandle die Forschungsdaten in ein möglichst offenes Format um (unter Beachtung struktureller oder formatspezifischer Anforderungen an die Daten). |
||
Ich wähle geeignete Lizenzen für die Archivierung der Daten und definiere rechtliche Aspekte. |
||
Ich strukturiere und ordne die selektierten Forschungsdaten nach den Vorgaben des Archivierungsystems. |
||
4.2.3 (technisch) Ich archiviere den strukturierten Forschungsdatensatz mit ausgewählten Werkzeugen und Ressourcen im Rahmen des Projekts. |
Ich lade die Forschungsdaten für die (Langzeit-)Archivierung in ein ausgewähltes Archivierungssystem (Repositorium, Offline-Speicher, Online-Speicher). |
|
Ich nutze für das Archivsystem eine ausgewählte Software (Repositoriumssoftware, Cloud-Dienste). |
Level 3
Ziele |
Praktiken |
Empfehlungen/weitere Materialien |
|---|---|---|
4.3.1 (methodisch) Ich gestalte den Archivierungsprozess bis zum Start der Archivierung nach domänen- oder communityspezifischen Standards. |
Ich identifiziere ein in der Domäne oder Community etabliertes Archivierungssystem (Repositorien, Offline-Speicher, Online-Speicher). |
|
Ich definiere die Erhaltungs- und Sicherungsstrategie nach domänen- oder communityspezifischen Standards (Speichermedium, Archivierungsdauer, Organisation des Speichermediums, Technologieentwicklung, Datensicherheit; Emulation, Konvertierung). |
||
4.3.2 (methodisch) Ich bereite bis zum Beginn der Archivierung meine Forschungsdaten für die (Langzeit-)Speicherung und Archivierung nach domänen- oder communityspezifischen Standards vor (Auswahl, Beschreibung, Organisation). |
Ich identifiziere und selektiere die Daten nach in der Domäne oder Community festgelegten Kriterien. |
|
Ich verfasse standardisierte und maschinenlesbare Metadaten, die in der Domäne oder Community etabliert sind (kontrollierte Vokabulare, Klassifikationen, Ontologien oder Thesauren). |
||
Ich erstelle maschinenlesbare Metadaten für die Archivierung, die domänen- oder communityspezifische Standards einbeziehen. |
||
Ich verwende möglichst offene und in der Domäne oder Community standardisierte Formate für meine (Meta-)Daten. |
||
Ich strukturiere und ordne die selektierten Forschungsdaten nach den Vorgaben und etablierten Standards in der Domäne oder Community (Vorgaben des Archivierungssystems). |
||
4.3.3 (technisch) Ich archiviere den strukturierten Forschungsdatensatz mit in der Domäne oder Community standardisierten Werkzeugen und Ressourcen. |
Ich lade die Forschungsdaten für die (Langzeit-)Archivierung in ein in der Domäne oder Community etabliertes Archivierungssystem. |
Level 4
Ziele |
Praktiken |
Empfehlungen/weitere Materialien |
|---|---|---|
4.4.1 (methodisch) Ich kenne bis zum Beginn der Archivierung Ziele und Kriterien der Domäne oder Community, mit denen der Archivierungsprozess und (Meta-)Daten kontinuierlich gemessen und verbessert werden. |
Ich nutze Risikomanagementstrategien, um quantifizierbare Kriterien für die Qualitätsmessung identifizieren zu können (Risikoanalyseberichte, Änderungen in Abläufen, Performance Informationen etc.). |
|
Ich definiere Verantwortlichkeiten für die Qualitätsprüfung des Archivierungsprozesses und zugehöriger Daten. |
||
4.4.2 (methodisch) Ich prüfe ab Beginn der Archivierung meine Datenselektion und -verarbeitung nach definierten Kriterien (kontextuelle Qualität, representationale Qualität). |
Ich überprüfe die Selektion der Daten abhängig von definierten Prioritäten (Bedarf, Verifizierbarkeit, Dokumentation, Einzigartigkeit). |
|
Ich überprüfe verfasste Metadaten nach definierten Kriterien (Vollständigkeit, Interpretierbarkeit, Konsistenz, Genauigkeit). |
||
Ich lasse alle digitalen Objekte vor der Freigabe für die Archivierung von ausgewählten Verantwortlichen überprüfen (Verantwortliche aus Fachbereich, Funktion oder Archivsystem). |
||
4.4.3 (methodisch) Ich prüfe ab Beginn der Archivierung meine archivierten Daten nach definierten Kriterien (kontextuelle Qualität, representationale Qualität; Zugänglichkeit, Integrität). |
Ich prüfe die Funktionstüchtigkeit der archivierten Objekte nach definierten Kriterien (bezogen auf Technologie; Verfügbarkeit, Interpretierbarkeit). |
|
Ich überprüfe die Authentizität der archivierten Objekte nach definierten Kriterien (Echtheit, Unversehrtheit; Fixierungswerte, Prüfsummen). |
||
Ich prüfe die Einhaltung der Langzeitverfügbarkeit nach definierten Kriterien (Bitstream Preservation, Versionierung, Backups; Austausch von Datenträgern, redundante Speicherung, Migration oder Emulation). |
||
4.4.4 (technisch) Ich führe die Qualitätsprüfung des Archivierungsprozesses mit ausgewählten Werkzeugen durch. |
Ich nutze ein ausgewähltes Werkzeug für die Qualitätsprüfung (Hardware, Software). |
Level 5
Ziele |
Praktiken |
Empfehlungen/weitere Materialien |
|---|---|---|
4.5.1 (methodisch) Ich trage zur (Weiter-)Entwicklung von Archivierungsstrategien, Best-Practices und Standards sowie Werkzeugen und Ressourcen in der Domäne oder Community bei. |
Ich beteilige mich an der (Weiter-)Entwicklung und Optimierung von Archivierungssystemen und zugehöriger Software (Hardware, Software, Kommunikationsprotokolle, Schnittstellen). |
|
Ich wirke bei dem Austausch und der Entwicklung neuer Standards und Best-Practices im Rahmen der Archivierung in der Community mit (Strategien, (Langzeit-)Metadaten, Vokabulare). |
||
Ich beteilige mich in der Domäne oder Community an der Entwicklung von Archivierungsplänen und -strategien. |
||
4.5.2 (methodisch) Ich stehe im Austausch mit der Community und verbessere kontinuierlich Ressourcen und Funktionen im Bereich der Archivierung. |
Ich nutze alle mir zur Verfügung stehenden Kompetenzen und Ressourcen in der Domäne oder Community, um meine Archivierung zu verbessern und zu optimieren (neue Archivierungsysteme, Strategien, Standards). |
|
Ich teile neue Erkenntnisse und Methoden sowie Techniken und Ressourcen für die Archivierung in der Domäne oder Community (Systeme und Komponenten, Protokolle, Formate; Kooperationen für Ressourcen). |
||
Ich teile Erfahrungen und Erkenntnisse zu Methoden, Verfahren und Werkzeugen in Rahmen der Datenarchivierung aktiv in der Community und passe meine Techniken und Werkzeuge kontinuierlich an den neusten Stand an. |
Checkliste
Weiterführende Materialien
Auf der Internetseite Forschungsdaten.info sind weiterführende Informationen, sowie Beispiele für vertrauenswürdige Repositorien zu finden.
Publisso - Digitale Langzeitarchivierung
Referenzen
[1] Diese Trainingmaterialien sind entstanden im Rahmen der NFDI4Ing Special Interest Group RDM Training & Education.