In diesem Artikel wird auf die siebte Sitzung des Moduls Bibliothek und Archivinformatik eingegangen. Thema dabei waren der zweite Teil von Metadaten modellieren und Schnittstellen nutzen. Schwerpunkt war dabei die Transformation von Metadaten mit OpenRefine. Der Inhalt knüpft damit direkt an die vorherige Sitzung an.

** OpenRefine – Umwandlung von Metadaten**

Die Open-Source-Software OpenRefine wurde von Google entwickelt und ermöglicht die Umwandlung oder Bereinigung von Metadaten. Es geht hier nicht primär um Bibliotheken, sondern wird auch in anderen Bereichen eingesetzt:

So z.B.:

  • in der Forschung
  • in der Datenanalyse
  • oder im Aufbau von semantischen Web

Datenformate die bearbeitet werden können sind z.B. CSV, JSON oder auch XML. Mittels SQL-Abfragen können die Daten dabei von Datenbanken abgerufen werden1.

Die Installation funktionierte problemlos und schnell. Wie fast immer unter Linux bzw. in unserem Fall Ubuntu wird die Instalaltion von Programmen via Terminal durchgeführt. Über localhost:3333 konnte es anschliessend aufgerufen werden. Anschliessend kann direkt gestartet werden, indem ein neues Projekt angelegt wird und Daten importiert werden.

image

In der kurzen interaktiven Übung wurden Beispieldaten erfasst. Der Beispieldatensatz in Form einer CSV-Datei haben wir von den Dozenten zur Verfügung gestellt bekommen. Anschliessend befassten wir uns mit den Funktionen des Tools. Daten konnten vereinheitlicht werden, Einträge gefiltert. Bei den Beispielen funktioniert es ähnlich wie Excel jedoch ist OpenRefine effizienter. Bei grossen Datenmengen kann dies entscheidend sein. Es wurde auch in OpenRefine die Möglichkeit gezeigt, dass die eingelesenen Metadaten mit Daten aus Wikidata ergänzt werden können.

Transformation von Metadaten CSV - MARCXML

Wie von XSLT Crosswalt bekannt, konvertieren wir in dieser Übung die Metadaten der Beispieldaten im CSV-Format in MARCXML. Hier wurden aber nicht das Datenformat in das andere konvertiert, sondern mittels der Sprache General Refine Expression Language (GREL) von einem Metadatenstandard in den anderen. Der Output wurde aufgrund möglicher Fehler mit dem vorinstallierten Ubuntu-Programm «xmllint» geprüft. In unserem ERP-System meines Unternehmens (Tocco AG) spielt der CSV-Import eine wesentliche Rolle. Ein Import von z.B Personendaten im CRM ist für Kunden unerlässlich. Ich komme deshalb sehr oft mit diesem Themengebiet in Berührung. Mit OpenRefine wäre hier eine Datenbereinigung der Kunden, falls nötig denkbar. An dieser Übung hatte ich durch meinen Zugang zu CSV-Files und deren Anwenderprobleme die auftreten können in meinem beruflichen Umfeld, am meisten Interesse und kann hier auch was mitnehmen.

Bildschirmfoto_Tocco CSV-Importer unter dem ERP System Tocco

  1. https://www.wikidata.org/wiki/Wikidata:Main_Page