Citing data – the dataverse network project

Heute mal ein sehr kurzer, oberflächlicher, aber doch sehr wichtiger Beitrag über ein Projekt, das sich mit dem folgenden Problem beschäftigt:

Für Artikel und Bücher existieren

  • Bibliotheken und Online-Archive,
  • Systematiken und Kataloge, um schnell das Gesuchte zu finden,
  • sowie Regeln zum Zitieren.

Quantitative Daten

  • finden sich eventuell auf den Webseiten einzelner Forscher,
  • jedoch ist die Erlaubnis zur Verwendung oft unklar,
  • URLs veralten schnell oder die Daten verschwinden ganz nach einiger Zeit,
  • Formate sind eventuell inkompatibel,
  • Änderungen an Daten können nicht nachvollzogen werden bzw. Daten sind nicht verifizierbar.
  • Und wie zitiert man solche Daten?
Auch bzw. gerade für vertrauliche oder gesetzlich geschützte Daten gilt es diese Probleme zu lösen.

UNF

Um die Validität von Daten zu gewährleisten, wurde der Universelle Numerische Fingerabdruck (UNF) von Altman & King eingeführt. Dieser Algorithmus wandelt den Datensatz in einen Unicode-Zeichen-String um und wendet eine Hash-Funktion auf diesen an.

Neben C++-Bibliotheken steht auch das R-Package UNF ``Tools for creating universal numeric fingerprints for data'' zur Verfügung. (http://cran.r-project.org/web/packages/UNF/index.html)

Der Methodenaufruf unf(data, digits=8) berechnet z.B. einen numerischen Fingerabdruck für den Datensatz data, wobei die jeweils ersten acht Stellen der Daten berücksichtigt werden.

Der Universelle Numerische Fingerabdruck

  • lässt Anderungen an Daten erkennen.
  • ist formatunabhängig. Direkt auf Dateien angewendete kryptographische Hash-Funktionen würden im Gegensatz zu ihm für einen Datensatz als SAS Datei andere Werte liefern als für R Binary oder CVS Dateien. (Noch schlimmer wenn in den Dateien wie bei Excel nicht nur die reinen Daten, sondern auch noch Zugriffszeiten oder Pfadangaben gespeichert werden...)
  • ist robust gegen insignifikante Rundungsfehler, also insbesondere plattformunabhängig.
  • zeigt ebenso falsch eingelesene Daten in Statistikprogrammen auf.
Quelle: Reference Manual des Packages UNF.

Zitieren von Daten

Minimal werden beim Zitieren Autor, Jahr und Titel angegeben, gefolgt von einem ``Unique global identifier'', über den die Daten gefunden werden können, sowie den UNF-Wert:

GARY KING; LANGCHE ZENG, 2006, "Replication Data Set for 'When Can History be Our Guide? The Pitfalls of Counterfactual Inference'" hdl:1902.1/DXRXCFAWPK UNF:3:DaYlT6QSX9r0D50ye+tXpA== Murray Research Archive [distributor]

Optionale Zitatelemente wie [producer] oder [distributor] können durch Paare ``Wert [Feldname]'' angehängt werden.

TheData.org

Für das Halten der Daten ist die Dataverse Network OpenSource-Software (http://thedata.org/) frei verfügbar. Als Web Applikation wird für die meisten jedoch kein Grund vorhanden sein, die Software lokal zu installieren, sondern man meldet ein eigenes, sogenanntes "Dataverse" bei einem der Data Repositories an.

Dataverse Überblick

  • Das eigene Dataverse lässt sich unproblematisch in die eigene Homepage unter Berücksichtung des Designs einbauen.
  • Die Daten werden persistent, zitatfähig und
  • automatisch in verschiedenen Datenformaten zur Verfügung gestellt.
  • Für jeden Datensatz können Nutzungsbedingungen festgelegt werden.
  • Eine Auswahl statistischer Methoden kann online auf die Daten angewendet werden.

Bibliography

Altman & King2007

Altman, M., & G. King. 2007. A Proposed Standard for the Scholarly Citation of Quantitative Data. D-Lib 13(3/4), http://dlib.org/dlib/march07/altman/03altman.html

Tags: , ,

Eine Antwort hinterlassen