Automatisierung der Sacherschließung mit Semantic Web Technologie

Projektlaufzeit:

07/2013-06/2018

Projektleitung:

Ralph Hafner, Bernd Schelling

Publikationen zum Projekt:

Schelling, B. (2016). KoKon. Kontextsensitiver Abgleich für Klassifikationen. Masterarbeit im Rahmen des weiterbildenden Fernstudiums, Humboldt-Universität zu Berlin, Philosophische Fakultät I, Institut für Bibliotheks- und Informationswissenschaft. Berlin.

Hafner, R. & Schelling, B. (2015). Automatisierung der Sacherschließung mit Semantic-Web-Technologie. o-bib. Das offene Bibliotheksjournal, 2 (4), 161–175.

Hafner, R. & Schelling, B. (2015). Automatisierung der Sacherschließung mit Semantic Web Technologie. Vortrag auf dem Bibliothekartag, Nürnberg. 

Kasprzik, A. (2013). Projektbericht: Implementierung eines Hierarchisierungsalgorithmus’ für die Konstanzer Systematik


Ziel

Das an der Universität Konstanz laufende Projekt „Automatisierung der Sacherschließung mit Semantic Web Technologie“ hat zum Ziel, Bibliotheken mit einer individuellen Systematik, die also bisher nicht von der inhaltlichen Erschließung anderer Einrichtungen profitieren können, aus ihrer Isolation heraus zu helfen, so dass sie nicht mehr, wie bisher, die ganze Sacherschließungsarbeit alleine leisten müssen.
Umgekehrt soll aber auch die in den individuellen Systematiken geleistete inhaltliche Erschließung den anderen verfügbar gemacht werden, indem sie in andere Sacherschließungssysteme - andere Klassifikationen oder verbale Sacherschließung - übersetzt wird.
Die viele bereits intellektuell geleistete Sacherschließungsarbeit soll nun maschinell ausgewertet und nachgenutzt werden können.
Damit in der Maschine ein Modell von Beziehungen zwischen Begriffen entstehen kann, bedarf es einiger Vorarbeiten.


SiGMaMat 2014°

Zunächst müssen die Daten der eigenen Systematik interoperabel gemacht werden, am einfachsten über eine eindeutige ID. Unser Ansatz ist es, die den Notationen in der Konstanzer Systematik zugeordneten Schlagwörter, die lediglich als Zeichenkette vorliegen, in eindeutige Konzepte mit einer ID aus den Normdateien GND oder VIAF umzuwandeln.
Dafür haben wir ein Tool entwickelt, das die lokalen Schlagwörter den entsprechenden Normbegriffen zuordnet, den SiGMaMat 2014°, eine Art Waschmaschine für Schlagwörter.
Das Akronym SiGMaMat steht für SIS-GND-Matching-AutoMat (SIS ist das Konstanzer Schlagwort-Informations-System).
Von den Konstanzer Schlagwörtern konnten mit dem SiGMaMat ca. 70 % automatisch Normbegriffen aus GND und VIAF zugeordnet werden.
Der SiGMaMat kann über einfache Regeln Schlagwörter aus beliebigen lokalen Systematiken oder Thesauri auf Normbegriffe mappen. Er unterstützt zudem den Mapping-Prozess der nicht automatisch zugeordneten Begriffe durch Vorschlagen von Schlagwörtern aus GND und VIAF, die dann nur noch angehakt werden müssen.


Systematik-Visualizer

Eine weitere Voraussetzung für automatisches Klassifizieren - neben eindeutigen Schlagwörtern - ist eine klare, auch für einen Rechner nachvollziehbare Struktur der Systematik (gilt für Quell- und Zielsystematik). Die Beziehungen zwischen den Notationen müssen klar modelliert und die hierarchische Struktur eindeutig sein. Hierfür haben wir einen Visualizer entwickelt, dessen Algorithmus die Struktur der Systematik ausliest und sichtbar macht.
Näheres s.: Kasprzik, Anna (2014): Projektbericht: Implementierung eines Hierarchisierungsalgorithmus’ für die Konstanzer Systematik.  (Zugriffsdatum: 03.08.2016).


KoKon

Damit sind die Voraussetzungen für das Verschränken der individuellen Systematik mit anderen Sacherschließungssystemen und Daten aus dem Semantic Web geschaffen. Begriffe werden durch Verknüpfung mit hierarchisch- oder lexikalisch-semantischen Netzen zu kontextualisierten Konzepten, die für Mensch und Maschine gleichermaßen verständlich sind. Diese sollen (Verständnis-)Fehler im Programm minimieren. Im Bereich bibliothekarischer Ordnungssysteme soll auch bei natürlichsprachigen Unschärfen noch sicher maschinell entschieden werden können, weil durch kontrolliertes Vokabular und/oder regelbasierten Aufbau einer Systematik Überschneidungen von Konzepten seltener sind als in der natürlichen Sprache.
Unser IT-System soll in die Lage versetzt werden, die vorhandene intellektuelle Sacherschließungsarbeit zu „verstehen“ und daraus neue Sacherschließungsergebnisse zu generieren. Konkret: Das System liest einen neuen noch zu erschließenden Titel ein, sucht weltweit nach vorhandenen Sacherschließungsdaten und generiert damit die Entsprechung für ein ausgewähltes Zielsystem, z.B. eine Notation der Konstanzer Systematik.