Import

Einleitung

Um den problemlosen Import von Digitalisaten in Visual Library und eine hohe Darstellungsqualität im Webportal zu gewährleisten, müssen bestimmte Anforderungen erfüllt sein. Hierzu zählen neben optischen Parametern der Digitalisierung wie Auflösung, Farbtiefe und Bildabmessungen auch datentechnische Eigenschaften wie das Speicherformat, Dateinamenskonventionen und Ordnerstrukturen.

Ergänzend beachten Sie bitte die jeweiligen projektspezifischen Absprachen, die in der Vorbereitungsphase getroffen worden sind (z.B. hinsichtlich der Verwendung bestimmter Strukturdatentypen oder der Anbindung Ihrer Visual-Library-Installation an das Katalogsystem).

Über die hier zusammengefaßten Spezifikationen hinaus empfiehlt sich ein Vorgehen nach den „Praxisregeln Digitalisierung“ der Deutschen Forschungsgemeinschaft (DFG).

Import von Digitalisaten

Eigenschaften der Digitalisate

Digitalisierungsparameter

In der Regel ist jede bibliographische Einheit vollständig zu digitalisieren, d. h. inklusive des Einbandes und leerer Seiten.

Die Digitalisate einer bibliographischen Einheit müssen einheitliche Abmessungen (Breite und Höhe) haben, Abweichungen sind nur bis max. 1% zulässig. Stärker abweichende Maße sind nur im Fall von Sonderformaten in einem Werk gestattet (eingelegte Faltblätter, Karten u.ä.).

Auflösung und Farbtiefe der Digitalisate sind je nach der Beschaffenheit der Vorlagen zu wählen.

Farbscans sind mit einer Farbtiefe von 24 bit RGB (16,7 Mio. Farben) zu scannen.

Farbscans

Farbtiefe: 24 bit RGB (16,7 Mio. Farben)

Farbscans mit 48 bit Farbtiefe können ebenfalls importiert werden, sie werden jedoch vor der weiteren Verarbeitung in 24 bit umgerechnet. Farbscans mit Alphakanal (32 bit RGBA) werden nicht unterstützt.

Graustufenscans

Farbtiefe: 8 bit (256 Graustufen)

bitonale Scans

Farbtiefe: 1 bit (s/w)

Unabhängig von der Farbtiefe sollte in der Regel eine optische Auflösung von 300 dpi gewählt werden, falls erforderlich sind auch 400 dpi oder 600 dpi möglich.

Die Auflösung bezieht sich jeweils auf das Format der Originalvorlage. Bei der Digitalisierung verfilmter Vorlagen (z.B. Mikrofiches) ist der Verkleinerungsfaktor der Verfilmung entsprechend zu berücksichtigen.

Dateiformate

Es können Digitalisate in den folgenden Dateiformaten in Visual Library importiert werden:

Format Unterstützung
TIFF („Baseline-TIFF“) ohne Kompression bevorzugtes Importformat
JPEG optional
PNG optional
TIFF mit „Fax Group 4“-Kompression optional, nur für bitonale Scans

Die Anforderungen an Baseline-TIFF-Dateien sind in der TIFF-6.0-Spezifikation definiert: http://partners.adobe.com/public/developer/en/tiff/TIFF6.pdf

TIFF-Header

Bei TIFF-Dateien sind in die Header die folgenden Informationen gemäß TIFF-Spezifikation einzutragen:

Tag-Nummer und Name Beschreibung Erwarteter Wert
256: ImageWidth Bildbreite (in Pixeln) n/a
257: ImageLength Bildhöhe (in Pixeln) n/a
258: BitsPerSample Anzahl der Bits pro Kanal 8 (für 24bpp RGB und Graustufen) oder 1 (Bitonal)
259: Compression Komprimierungsverfahren 1 (No compression), bei komprimierten bitonalen Scans ggf. 4 (CCITT Group 4 fax encoding)
262: PhotometricInterpretation Farbraum 2 (für 24bpp RGB), 0 oder 1 (Graustufen und Bitonal)
277: SamplesPerPixel Anzahl der Kanäle 3 (für 24bpp RGB) oder 1 (Graustufen und Bitonal)
282: XResolution horizontale Auflösung (dpi) 300 oder mehr
283: YResolution vertikale Auflösung (dpi) 300 oder mehr
284: PlanarConfiguration Organisationstyp der Kanäle nicht gesetzt oder 1 (Chunky)
296: ResolutionUnit Maßeinheit der Auflösung 2 (Inch)
338: ExtraSamples Beschreibung der Zusatzkanäle nicht gesetzt
34675: ICCProfile ICC-Farbprofil ICC-Profil wie nachfolgend beschrieben

Zusätzlich empfiehlt es sich, die folgenden Informationen einzutragen (optional):

Tag-Nummer und Name Beschreibung
271: Make Herstellerangabe des verwendeten Scanners
272: Model (*) Modellbezeichnung des verwendeten Scanners
285: PageName Eindeutige ID der jeweiligen Seite nach den Vorgaben zur Dateibenennung (z.B. CT002000028_0001.tif oder 201432-4_J_1921_B_075_0008.tif)
305: Software (*) Produktbezeichnung der verwendeten Scan-Software
306: DateTime Datum und Uhrzeit der Digitalisierung im Format JJJJ:MM:TT HH:MM:SS, möglichst UTC (z.B. 2011:01:31 09:30:40)
315: Artist (*) Kurzbezeichnung der auftraggebenden Einrichtung (z.B. Bibliotheksname)
316: HostComputer Bezeichnung des bei der Digitalisierung verwendeten Computers/Betriebssystems

Zeichenkodierung

In den TIFF-Headern ist die Zeichenkodierung ASCII zu verwenden; in den mit (*) gekennzeichneten Tags ist auch Latin-1 zulässig.

ICC-Profil

Im Tag 34675 des TIFF-Headers wird ein Farbprofil mit den folgenden Eigenschaften erwartet:

  • Ausgabeprofil vom Typ „scnr“ (device class 0x73636E72) nach den Standards ISO 15076-1:2005 bzw. ICC v2 ICC.1:2001-04 oder ICC v4.2 ICC.1:2004-10
  • Ausgabetransformation mit dem Rendering Intent „Perceptual Intent“ muss unterstützt werden
  • Profile Connection Space: entweder Lab oder CIE-XYZ
  • Color Space: RGB
  • Beschreibung, Model, Copyright, Hersteller und Zeitstempel sollten gesetzt sein

Dateibenennung und Verzeichnisstrukturen

Für den Import in Visual Library müssen die Digitalisate in definierten Verzeichnisstrukturen bereitgestellt werden, die sich abhängig vom Publikationstyp und der eventuell bei der Digitalisierung durchgeführten Vorstrukturierung unterscheiden. Der Aufbau der Verzeichnisstrukturen sowie der Verzeichnis- und Bilddateinamen wird in den folgenden Abschnitten beschrieben. In der Regel wird vor Projektbeginn eine entsprechende Konfiguration des Scanners vorgenommen, so daß auf der Ebene des Dateisystems keine manuellen Eingriffe erforderlich sind.

Bei der Benennung der Verzeichnisse und Bilddateien sind einige Einschränkungen zu beachten:

  • Grundsätzlich dürfen nur die Zeichen A-Z, 0-9 und der Bindestrich - frei verwendet werden. Sonderzeichen, die nicht auf einem Dateisystem dargestellt werden können, werden nach Absprache durch gültige Zeichen ersetzt, z.B. : durch #.
  • Der Unterstrich _ dient ausschließlich als Trennzeichen zwischen den Namensbestandteilen (nach dem Muster {IDENTIFIER}_{ZÄHLER}_T_{TYP}, vgl. die nachfolgenden Beispiele).
  • Der Unterstrich _ darf nicht als erstes Zeichen eines Verzeichnisnamens verwendet werden. Beginnt der Name eines Hauptverzeichnisses (vgl. die nachfolgenden Beispiele) mit einem Unterstrich, so wird dieses beim Importvorgang nicht berücksichtigt.

Monographien oder Sammelwerke ohne weitere Untergliederung

Für jede bibliographische Einheit wird ein Verzeichnis angelegt, das mit der jeweiligen Katalog-ID benannt wird. Innerhalb des Verzeichnisses werden die Digitalisate der jeweiligen bibliographischen Einheit mit fortlaufender Zählung abgelegt.

Hauptverzeichnis (Bibliographische Einheit)

ID der bibliographischen Einheit (z. B. IDN, PPN, VD17-Nummer, ZDB-ID).

Beispiel: CT002000028, 23#301449K

Datei (Seite)

ID der bibliographischen Einheit + fortlaufende Zählung der Bilddateien mit führenden Nullen.

Beispiel: CT002000028_0001.tif, 23#301449K_0001.tif

Sammelwerke mit Untergliederung nach Beiträgen

Für jede bibliographische Einheit wird ein Verzeichnis angelegt, das mit der jeweiligen Katalog- ID benannt wird. Darin wird für jeden Beitrag ein Unterverzeichnis angelegt. Die Unterverzeichnisse werden mit einer fortlaufenden Zählung benannt. Innerhalb der Unterverzeichnisse werden die Digitalisate des jeweiligen Beitrags mit fortlaufender Zählung abgelegt.

Hauptverzeichnis (Bibliographische Einheit)

ID der bibliographischen Einheit (z. B. IDN, PPN, VD17-Nummer, ZDB-ID).

Beispiel: CT002000028, 23#301449K

Unterverzeichnis (Beitrag)

ID der bibliographischen Einheit + Typbezeichnung „A“ und fortlaufende Zählung der Beiträge mit führenden Nullen.

Beispiel: CT002000028_A_001, 23#301449K_A_001

Datei (Seite)

ID der bibliographischen Einheit + fortlaufende Zählung der Bilddateien mit führenden Nullen.

Beispiel: CT002000028_0001.tif, 23#301449K_0001.tif

Mehrbändige Werke

Von mehrbändigen Werken dürfen nur die Einzelbände importiert werden, nicht die Überordnung (der Gesamttitel). Letztere wird automatisch von Visual Library auf Basis der Katalogdaten angelegt und mit den Bänden verknüpft.

Die Bereitstellung der Einzelbände zum Import erfolgt in gleicher Weise wie bei Monographien oder Sammelwerken, d.h. für jeden Band wird ein separates, mit dessen Katalog-ID benanntes Verzeichnis angelegt. Ein übergeordnetes Verzeichnis, analog zum übergeordneten Titel im Katalog, darf nicht angelegt werden. Im übrigen entspricht die Vorgehensweise der in den Abschnitten „Monographien oder Sammelwerke ohne weitere Untergliederung“ und „Sammelwerke mit Untergliederung nach Beiträgen“ beschriebenen.

Bei Verwendung von Auftragslisten (siehe Abschnitt „Bereitstellung der Digitalisate/Importvorgang“) dürfen ebenfalls nur die zu digitalisierenden Einzelbände mehrbändiger Werke berücksichtigt werden; die Überordnungen dürfen nicht in einer Auftragsliste enthalten sein.

Zeitschriften mit Untergliederung nach Jahrgängen oder Bänden

Für jede Zeitschrift wird ein Verzeichnis angelegt, das mit der jeweiligen Katalog-ID bzw. dem Zeitschriften-Identifier der Zeitschriftendatenbank (ZDB) benannt wird. Hierarchisch angelegte Unterverzeichnisse führen zusätzlich das Berichtsjahr oder die fortlaufende Nummer des eingescannten Einzelbandes auf. Innerhalb der Unterverzeichnisse werden die Digitalisate des jeweiligen Jahrgangs mit fortlaufender Zählung abgelegt.

Hauptverzeichnis (Periodikum)

ID der Zeitschrift (z. B. ZDB-ID).

Beispiel: 201432-4

Unterverzeichnis (Jahrgang)

Variante 1: ID der Zeitschrift + Typbezeichnung „J“ und Jahrgangszählung.

Variante 2: ID des Periodikums + Typbezeichnung „B“ und Bandzählung mit führenden Nullen.

Beispiel: 201432-4_J_1921, 201432-4_B_001

Datei (Seite)

Variante 1: ID der Zeitschrift + Typbezeichnung „J“ und Jahrgangszählung + fortlaufende Zählung der Bilddateien mit führenden Nullen.

Variante 2: ID des Periodikums + Typbezeichnung „B“ und Bandzählung mit führenden Nullen + fortlaufende Zählung der Bilddateien mit führenden Nullen.

Beispiel: 201432-4_J_1921_0001.tif, 201432-4_B_001_0001.tiff

Zeitungen mit Untergliederung nach Jahrgängen, Monaten und Tagen

Für jede Zeitung wird ein Verzeichnis angelegt, das mit der jeweiligen Katalog-ID bzw. dem Zeitschriften-Identifier der Zeitschriftendatenbank (ZDB) benannt wird. Hierarchisch angelegte Unterverzeichnisse führen zusätzlich Jahr, Monat und Tag der eingescannten Einzelausgabe auf. Innerhalb der Unterverzeichnisse werden die Digitalisate der jeweiligen Ausgabe mit fortlaufender Zählung abgelegt.

Hauptverzeichnis (Zeitung)

ID der Zeitung (z. B. ZDB-ID).

Beispiel: 341428-0

Unterverzeichnis (Jahr)

ID der Zeitung + Typbezeichnung „J“, Jahresangabe und Nummerierung.

Beispiel: 341428-0_J_1867_N_1

Unterverzeichnis (Monat)

ID der Zeitung + Typbezeichnung „M“ und Monatsangabe (zweistellig mit führender Null).

Beispiel: 341428-0_M_01

Unterverzeichnis (Ausgabe)

ID der Zeitung + Typbezeichnung „A“ und Datumsangabe (in der Form T-M-J) + optionales Sortierkennzeichen „I“ und Zählung (mit führenden Nullen) + optionales zusätzliches Label „L“ und Freitext. Die Nummerierung kann mit „N“ angegeben werden. Das Sortierkennzeichen wird nur ausgewertet, wenn alle Verzeichnisse einer Ebene mit „I“ ausgezeichnet sind.

Beispiel: 341428-0_A_1-1-1867_N_19_I_001_L_Morgenausgabe mit Beilage

Datei (Seite)

ID der Zeitung + fortlaufende Zählung der Bilddateien mit führenden Nullen.

Beispiel: 341428-0_0001.tif

Vorstrukturierte Dokumente (z.B. nach Abschnitten, Kapiteln etc.)


Bei Dokumenten, die bei der Digitalisierung vorstrukturiert wurden (z.B. nach Abschnitten, Kapiteln oder nach Buchbestandteilen wie Vorder-/Rückdeckel, Titelblatt, Inhaltsverzeichnis, Register etc.), kann beim Import in VL die Struktur übernommen werden.

Hierzu wird für jede bibliographische Einheit ein Verzeichnis angelegt, das mit der jeweiligen Katalog-ID benannt wird. Darin wird für jedes Strukturelement ein Unterverzeichnis angelegt. Diese Unterverzeichnisse werden mit einer fortlaufenden Zählung sowie dem Strukturtyp-Identifier gemäß der nachfolgenden Liste benannt. Innerhalb der Unterverzeichnisse werden die Digitalisate des jeweiligen Strukturelements mit fortlaufender Zählung abgelegt.

Hauptverzeichnis (Bibliographische Einheit)

ID der bibliographischen Einheit (z. B. IDN, PPN, VD17-Nummer, ZDB-ID).

Beispiel: CT002000028

Unterverzeichnis (Strukturelement)

ID der bibliographischen Einheit + fortlaufende Zählung der Strukturelemente mit führenden Nullen, Typbezeichnung „T“ und Strukturtyp-ID gemäß der nachfolgenden Liste.

Beispiel: CT002000028_001_T_6

Datei (Seite)

ID der bibliographischen Einheit + fortlaufende Zählung der Bilddateien mit führenden Nullen.

Beispiel: CT002000028_0001.tif

Liste der verwendbaren Strukturelementtypen und Strukturtyp-IDs:

ID Strukturelement
6 Abschnitt
53 Abstract
54 Anhang
18 Annotation
43 Annotation (hs.)
40 Anrede
61 Anzeigen
57 Archivmappe
37 Aufsatz
34 Band
69 Beigebundenes Material
17 Beilage
66 Bericht
24 Besitznachweis
21 Bogensignatur
60 Bücherbesprechung
26 Buchschmuck
50 Druckermarke
38 Einleitung
42 Eintrag
31 Endnoten
13 Errata
19 Exlibris
48 Gedicht
36 Heft
47 Illustrationen
25 Impressum
2 Inhaltsverzeichnis
35 Jahrgang
20 Kapitel
49 Karten
41 Kolophon
67 Korrespondenz
23 Kupfertitel
32 Literaturverzeichnis
65 Mitarbeiterverzeichnis
64 Nachricht
62 Nachruf
51 Notendruck
30 Privilegien
68 Protokoll
3 Register
1 Rückdeckel
56 Rücken
58 Schnitt
27 Spiegel
52 Stempel
55 Tabelle
53 Teil eines Dokumentes
8 Titelblatt
16 Unsicher
63 Vermischtes
12 Vorblätter (Auftragsschein, Farbkarte u. ä. – im Webportal nicht sichtbar)
0 Vorderdeckel
22 Vorsatz
9 Vorwort
10 Widmung
44 Widmung(hs.)
72 Zwischenblätter

Bereitstellung der Digitalisate/Importvorgang

Zum Import einer bibliographischen Einheit bzw. eines Periodikums in Visual Library muß das entsprechende Hauptverzeichnis (mit den darin ggf. enthaltenen Unterverzeichnissen und den Digitalisaten) in das vereinbarte Anlieferungsverzeichnis von Visual Library Server übertragen werden. Im Detail unterscheidet sich die Handhabung danach:

  • ob das Hauptverzeichnis, das die Digitalisate enthält, vor der Übertragung als .zip- oder .tar-Datei ‚gepackt‘ (komprimiert) wird oder nicht,
  • ob ggf. mehrere Sammlungen innerhalb Ihrer Visual Library eingerichtet worden sind,
  • ob die in die jeweilige Sammlung zu importierenden Titel ggf. einer „Kollektion“ (einem definierten Teilbestand) zugeordnet werden sollen.

Bemerkung

Innerhalb einer Sammlung darf jedes Werk nur einmal zum Import bereitgestellt werden. Ein erneuter Import ist nur für Ergänzungs-oder Ersetzungslieferungen (siehe Abschnitte „Nachträgliches Hinzufügen von Digitalisaten“ und „Ersetzen vorhandener Digitalisate“) vorgesehen.

Initialer Import

Bereitstellung ungepackter oder .zip/.tar-gepackter Daten

Bei Bedarf kann das Hauptverzeichnis vor der Datenübertragung in eine .zip- oder .tar-Datei ‚gepackt‘ werden. In diesem Fall muß für jede bibliographische Einheit bzw. jedes Periodikum eine separate .zip/.tar-Datei erstellt werden. Der Name dieser Datei kann beliebig gewählt werden; es empfiehlt sich jedoch, den Namen des darin enthaltenen Hauptverzeichnisses (d.h. die ID der bibliographischen Einheit bzw. des Periodikums) zu übernehmen.

‚Ungepackte‘ Verzeichnisstrukturen müssen in das in das Unterverzeichnis „/import“ des Anlieferungsverzeichnisses geladen werden, .zip/.tar-Dateien in das Unterverzeichnis „/upload“.

Auswahl der Sammlung, in die die Daten importiert werden sollen

Wenn bei der kundenspezifischen Konfiguration von VL mehrere Sammlungen eingerichtet wurden, müssen die Daten in das Anlieferungsverzeichnis der für den Import gewünschten Sammlung übertragen werden.

Die Wahl ist davon abhängig, aus welchem Katalog die bibliographischen Daten des jeweiligen Werks bezogen werden (an diesen Katalog werden ggf. später auch die Sekundäraufnahmen übergeben) und/oder in welchem Unternamensraum URNs für die importierten Werke angelegt werden sollen.

Zuordnung zu einer bestimmten Kollektion

Wenn digitalisierte Werke beim Import zugleich bestimmten Kollektionen zugeordnet werden sollen, wurden innerhalb des „/import“-bzw. „/upload“-Unterverzeichnisses der jeweiligen Sammlung weitere Unterverzeichnisse angelegt, die nach dem Schema dc_{KOLLEKTIONSNAME} benannt sind.

Je nachdem, in welche Kollektion ein Werk eingeordnet werden soll, müssen die Daten in das entsprechende Unterverzeichnis übertragen werden. Eine Zuordnung eines Werks zu mehreren Kollektionen kann auf diese Weise nicht vorgenommen werden; weitere Kollektionszuordnungen können bei Bedarf nachträglich mittels Visual Library Manager angelegt werden.

Importvorgang

Visual Library Server importiert automatisch – i.d.R. einmal pro Nacht – die bereitgestellten Digitalisate, lädt die dazugehörigen bibliographischen Daten aus dem Katalogsystem, schreibt sie in die VL-Datenbank und verknüpft sie mit den Digitalisaten. Zusätzlich wird der sog. Webcache (die JPEG-Derivate für die Darstellung im Webportal) erzeugt und der Index für die Suche aufgebaut.

Bei Verwendung von Auftragslisten sind die bibliographischen Daten schon vor dem Import der Digitalisate in die VL-Datenbank übernommen worden. In diesem Fall werden die Digitalisate beim Import den entsprechenden Datensätzen zugeordnet; ansonsten ist der Ablauf identisch.

Die importierten bibliographischen Einheiten und Digitalisate erscheinen in Visual Library Manager (VLM) in der Baumstruktur der entsprechenden Sammlung. Sie können dann einer Qualitätskontrolle unterzogen und weiterbearbeitet werden.

Nachträgliches Hinzufügen von Digitalisaten

Hinzufügen von Digitalisaten

Beim nachträglichen Hinzufügen von Digitalisaten zu bereits importierten Werken sind drei Fälle zu unterscheiden:

  • Hinzufügen einzelner bzw. weniger Digitalisate zu einem Werk
  • Hinzufügen einer größeren Anzahl von Digitalisaten zu einem Werk
  • Hinzufügen eines kompletten Bandes zu einem mehrbändigen Werk

Hinzufügen einzelner bzw. weniger Digitalisate zu einem Werk

Markieren Sie in der Baumstruktur die bibliographische Einheit, zu der Sie Digitalisate hinzufügen möchten, oder ein Strukturelement/ein Digitalisat unterhalb dieser bibliographischen Ein heit.

Bemerkung

Wenn Sie eine bibliographische Einheit oder ein Strukturelement markieren, werden die neuen Digitalisate hinter dem letzten vorhandenen Digitalisat dieser bibliographischen Einheit bzw. dieses Strukturelements angehängt. Wenn Sie ein Digitalisat markieren, werden die neuen Digitalisate hinter diesem eingefügt.

Öffnen Sie das Kontextmenü und wählen Sie den Befehl „Digitalisate hochladen“. Wählen Sie in dem dann erscheinenden Dialogfenster das neue Digitalisat bzw. die neuen Digitalisate aus.

Vorsicht

Die Dateinamen der neuen Digitalisate dürfen nicht mit den Namen von bereits vorhandenen Digitalisaten identisch sein, damit keine vorhandenen Digitalisate fälschlicherweise ersetzt werden!

Es empfiehlt sich, neu einzufügende Digitalisate gemäß den Import-Konventionen zu benennen und ihren Dateinamen als Eindeutigkeitsmerkmal einen Zeitstempel (z.B. in der Form TTMMJJJJ-hhmm-) als Präfix anzufügen. Für die Sortierung der Digitalisate in der Baumstruktur ist der Dateiname nicht relevant.

Bestätigen Sie die Auswahl der zu ergänzenden Bilder mit der Schaltfläche „Öffnen“. Damit werden die ausgewählten Bilder importiert und an der gewählten Position in die Baumstruktur eingefügt.

Der Webcache (die JPEG-Derivate) für die neu eingefügten Digitalisate wird vom Server erstellt, sobald diese erstmalig abgerufen werden. Bei der nächsten Ausführung des automatischen Webcache-Jobs werden auch die bis dahin noch nicht abgerufenen Webcache-Derivate erstellt.

Hinzufügen einer größeren Anzahl von Digitalisaten zu einem Werk

Um zu einer bibliographischen Einheit eine größere Anzahl von Digitalisaten hinzuzufügen, empfiehlt sich ein Ergänzungsimport über das Anlieferungsverzeichnis.

Dabei müssen die zu importierenden Digitalisate in einem Verzeichnis zusammengefaßt werden, das nicht wie üblich mit der Katalog-ID des entsprechenden Werks benannt wird, sondern mit einem provisorischen Namen (z.B. mit Tagesdatum und Uhrzeit in der Form TTMMJJJJ-hhmm oder mit dem Kurztitel des Werks). Dieses Verzeichnis wird in der gewohnten Weise im Anlieferungsverzeichnis bereitgestellt (siehe Abschnitt „Dateibenennung und Verzeichnisstrukturen“).

Nach dem automatischen Import ist in der Baumstruktur in VLM ein Ordner mit diesem provisorischen Namen zu finden, in dem die neuen Digitalisate enthalten sind. Diese können Sie dann per „Drag&Drop“ zu dem Werk verschieben, zu dem sie hinzugefügt werden sollen. Anschließend sollten Sie den leeren provisorischen Ordner löschen.

Hinzufügen eines kompletten Bandes zu einem mehrbändigen Werk

Soll zu einem (mehrstufig im Katalog erfaßten) mehrbändigen Werk ein kompletter Band hinzugefügt werden, so muß dieser Band importiert werden wie in Abschnitt „Mehrbändige Werke“ beschrieben.

Ersetzen vorhandener Digitalisate

Beim Ersetzen vorhandener Digitalisate sind zwei Fälle zu unterscheiden:

  • Ersetzen einzelner Digitalisate
  • Ersetzen aller Digitalisate eines Werks

Ersetzen einzelner Digitalisate

Markieren Sie in der Baumstruktur das Digitalisat, das Sie ersetzen möchten.

Öffnen Sie das Kontextmenü und wählen Sie den Befehl „Digitalisat ersetzen“. Wählen Sie in dem dann erscheinenden Dialogfenster das neue Digitalisat aus.

Vorsicht

Der Dateiname des neuen Digitalisats darf nicht mit dem Namen eines bereits vorhandenen Digitalisats identisch sein, damit kein vorhandenes Digitalisat fälschlicherweise ersetzt wird!

Es empfiehlt sich, neu einzufügende Digitalisate gemäß den Import-Konventionen zu benennen und ihren Dateinamen als Eindeutigkeitsmerkmal einen Zeitstempel (z.B. in der Form TTMMJJJJ-hhmm-) als Präfix anzufügen. Für die Sortierung der Digitalisate in der Baumstruktur ist der Dateiname nicht relevant.

Bestätigen Sie die Auswahl mit der Schaltfläche „Öffnen“. Damit wird das in der Baumstruktur markierte Digitalisat durch das im Dialog ausgewählte ersetzt.

Der Webcache (die JPEG-Derivate) für die neu eingefügten Digitalisate wird vom Server erstellt, sobald diese erstmalig abgerufen werden. Bei der nächsten Ausführung des automatischen Webcache-Jobs werden auch die bis dahin noch nicht abgerufenen Webcache-Derivate erstellt.

Ersetzen aller Digitalisate eines Werks

Um alle Digitalisate einer bibliographischen Einheit zu ersetzen, empfiehlt sich ein erneuter Import über das Anlieferungsverzeichnis.

Dazu müssen zunächst alle vorhandenen Digitalisate und Strukturelemente der betreffenden bibliographischen Einheit gelöscht werden. Anschließend werden die neuen Digitalisate in einem Verzeichnis, das mit der Katalog-ID dieser bibliographischen Einheit benannt ist, in der gewohnten Weise im Anlieferungsverzeichnis bereitgestellt (siehe „Dateibenennung und Verzeichnisstrukturen“).

Nach dem automatischen Import sind die neuen Digitalisate in der Baumstruktur in VLM unterhalb der betreffenden bibliographischen Einheit zu finden.

Vorsicht

Ein Ersetzungs-Import von Digitalisaten in ein bereits strukturieres Werk hinein ist nicht ratsam. Hierbei kann jede Abweichung zwischen den vorhandenen und den neuen Dateinamen, Verzeichnisnamen und Zuordnungen der Dateien zur Verzeichnisstruktur dazu führen, daß Digitalisate mehrfach an verschiedenen Stellen vorhanden sind. Derartige unerwünschte Ergebnisse lassen sich nur mit hohem manuellem Aufwand korrigieren.

Kombinierter Import von Digitalisaten und OCR-Volltexten

Je nach Absprache kann zusammen mit den Digitalisaten eines Werks der dazugehörige Volltext importiert werden, der mit der Texterkennungssoftware ABBYY FineReader oder ABBYY Recognition Server erkannt und im Ausgabeformat XML (XCA_Extended, siehe: https://abbyy.technology/en:features:ocr:xml) gespeichert wurde.

Hierbei kann entweder je Digitalisat eine separate .xml-Datei mit dem daraus erkannten Volltext angelegt oder der gesamte Volltext eines Werks in eine .xml-Datei gespeichert werden. Abhängig davon müssen die Volltext-Dateien für den Import nach den folgenden Mustern benannt werden (basierend auf den in Abschnitt „Dateibenennung und Verzeichnisstrukturen“ beschriebenen Konventionen für die Dateibenennung und Verzeichnisstrukturen).

Bemerkung

Es können nur Volltexte im ABBYY-spezifischen XML-Format (XCA_Extended) in VL importiert werden. Andere Importformate, wie z.B. PDF, RTF oder ALTO-XML, sind nicht möglich.

Eine .xml-Datei je Digitalisat

In diesem Fall muß jede einzelne Volltext-Datei analog zu dem korrespondierenden Digitalisat benannt werden, dessen Volltext sie enthält (mit der Dateinamensendung .xml).

Die Volltext-Dateien werden innerhalb des Verzeichnisses abgelegt, das die Digitalisate der jeweiligen bibliographischen Einheit enthält.

Hauptverzeichnis (Bibliographische Einheit)

ID der bibliographischen Einheit (z. B. IDN, PPN, VD17-Nummer, ZDB-ID).

Beispiel: CT002000028

Dateien (Seiten)

ID der bibliographischen Einheit + fortlaufende Zählung der Bilddateien mit führenden Nullen.

Beispiel: CT002000028_0001.tif, CT002000028_0002.tif, …

Volltext-Dateien

ID der bibliographischen Einheit + fortlaufende Zählung der korrespondierenden Volltext-Dateien mit führenden Nullen.

Beispiel: CT002000028_0001.xml, CT002000028_0001.xml, …

Die Namen der Volltext-Dateien dürfen, abweichend von denen der Digitalisate, einen zusätzlichen (z. B. beschreibenden) Namensbestandteil enthalten. Dieser darf nur am Beginn des Dateinamens stehen und muß mit einem Unterstrich _ von der darauffolgenden Sequenz aus der ID der bibliographischen Einheit und der fortlaufenden Zählung abgetrennt sein.

Für die Volltext-Dateien im obigen Beispiel wären somit auch Dateinamen nach dem folgenden Muster möglich:

Titelblatt_CT002000028_0001.xml
Inhalt_CT002000028_0002.xml
Vorderdeckel_CT002000028_0003.xml
Colorchecker_CT002000028_0004.xml
...

Eine .xml-Datei mit dem gesamten Volltext eines Werks oder Bandes

In diesem Fall muß die Volltext-Datei den aus allen Digitalisaten des Werks bzw. Bandes erkannten Volltext in genau derjenigen Reihenfolge enthalten, in der die Digitalisate zum Import bereitgestellt werden (d.h. nach dem Texterkennungsvorgang dürfen keine Digitalisate eingefügt, entfernt oder umsortiert worden sein).

Die Volltext-Datei wird – ebenso wie das Verzeichnis, das die Digitalisate der jeweiligen bibliographischen Einheit enthält – mit deren Katalog-ID benannt (mit der Dateinamensendung .xml) und innerhalb dieses Verzeichnisses abgelegt.

Hauptverzeichnis (Bibliographische Einheit)

ID der bibliographischen Einheit (z. B. IDN, PPN, VD17-Nummer, ZDB-ID).

Beispiel: 23#301449K

Dateien (Seiten)

ID der bibliographischen Einheit + fortlaufende Zählung der Bilddateien mit führenden Nullen.

Beispiel: 23#301449K_0001.tif, 23#301449K_0002.tif, …

Volltext-Datei

ID der bibliographischen Einheit

Beispiel: 23#301449K.xml

Import bibliographischer Daten

Bei der projektspezifischen Konfiguration von VL wird im Normalfall eine Anbindung an einen lokalen Bibliothekskatalog oder ein Verbundsystem eingerichtet. Abhängig davon wird vereinbart, welche Art von Katalog-ID (z.B. PPN, IDN, ZDB-ID) zugrundegelegt – und in den Verzeichnisnamen der zu importierenden Digitalisate (siehe Abschnitt „Dateibenennung und Verzeichnisstrukturen“) verwendet – wird. Mittels dieser Katalog-ID werden beim Import der Digitalisate eines Werks die dazugehörigen bibliographischen Daten aus dem Katalog geladen, in die VL-Datenbank geschrieben und mit den Digitalisaten verknüpft.

Änderungen am Titeldatensatz eines Werks im Katalogsystem werden nicht automatisch in VL übernommen. Die Übernahme der geänderten Titeldaten muß in VLM manuell ausgelöst werden. Markieren Sie dazu das betreffende Werk in der Baumstruktur, öffnen Sie das Kontextmenü und wählen Sie den Befehl „Titeldaten aktualisieren“.

Verwendung von Auftragslisten

Wenn bei der Vorbereitung eines Digitalisierungsprojekts der Einsatz von Auftragslisten (zur Planung des Aushebungs- und Digitalisierungsprozesses) vereinbart wurde, werden bereits beim Import der Auftragsliste die entsprechenden bibliographischen Daten in VL importiert.

Eine Auftragsliste muß als Tabelle im .csv- oder .xls (Microsoft Excel)-Format angelegt werden, die die Katalog-IDs und Signaturen der zu digitalisierenden bibliographischen Einheiten enthält. Von mehrbändigen Werken dürfen nur die zu digitalisierenden Einzelbände in eine Auftragsliste aufgenommen werden, jedoch nicht die Überordnungen. Weitere Details dieses Verfahrens werden ggf. vor Projektbeginn spezifiziert.

Beim Hochladen der Auftragsliste in VLM werden anhand der Katalog-IDs die bibliographischen Daten der zu digitalisierenden Werke aus dem Katalog geladen, in die VL-Datenbank geschrieben und entsprechende Titeleinträge in der Baumstruktur in VLM angelegt. Damit können Auftragsscheine für die Aushebung und Digitalisierung erstellt und ggf. Margen für die zeitliche Planung des Digitalisierungsprozesses gebildet werden.

Werden später die Digitalisate importiert, verknüpft VL diese automatisch – auf Grundlage der Katalog-IDs, die in den Verzeichnisnamen (siehe Abschnitt „Dateibenennung und Verzeichnisstrukturen“) verwendet werden – mit den dazugehörigen Titeleinträgen und speichert diese Information ebenfalls in der Datenbank.

Import von MAB-Datenabzügen

In Fällen, in denen die Anbindung an ein Katalogsystem nicht möglich ist, können MAB- Datenabzüge in Visual Library importiert werden. Dazu müssen die Daten in einem der folgenden Formate vorliegen:

  • MAB2 mit MAB2-Encoding
  • MABXML mit UTF-8-Encoding

Hierbei ist zu beachten, daß die Daten in einem echten Binärformat mit gültigem Header vorliegen (d.h. Felder durch 0x1e getrennt, Datensätze durch 0x1e 0x1d). Zu vermeiden sind insbesondere HTML-Quoting sowie die falsche Verwendung von Zeichen (wie „combining low line“ anstatt „low line“).

Daten in abweichenden Formaten (z.B. Plaintext-MAB) oder in MAB2-Format mit abweichenden Kodierungen können nur nach Absprache und mit zusätzlichem Aufwand importiert werden.

Import von Klassifikationsstrukturen

Innerhalb einer Sammlung (Domain) können Klassifikationsstrukturen manuell per VLM angelegt werden (innerhalb des Baumknotens Alle Inhalte über den Kontextmenübefehl Klassifikation einfügen). Alternativ kann das initiale Anlegen einer Klassifikation durch den Import einer Textdatei gemäß den folgenden Konventionen durchgeführt werden. Eventuelle nachträgliche Ergänzungen oder Änderungen müssen auch in diesem Fall manuell per VLM erfolgen.

In der Textdatei müssen die gewünschten Klassifikationseinträge zeilenweise aufgelistet werden, wobei hierarchische Strukturen durch entsprechende Einrückungen mittels Leerzeichen oder Tabstopps abgebildet werden. Die Textdatei darf nur reinen Text ohne Formatierungen (“Plaintext”) enthalten und muß UTF-8-codiert sein. Der Dateiname kann frei gewählt werden, die Dateinamensendung muß “.classification” lauten.

In den ersten beiden Zeilen der Textdatei können zwei Parameter angegeben werden, um die Import-Identifier der Klassifikationseinträge zu steuern. Die Import-Identifier können z.B. bei Publikationsservern genutzt werden, um einen Titel beim Import in VL anhand der Angaben im Katalogsystem einer bestimmten Klassifikation zuzuordnen. Wenn die beiden optionalen Parameter nicht gesetzt werden, erzeugt VL automatisch eindeutige Import-Identifier.

# ident first - Dieser optionale Parameter bedingt, daß das erste Wort (d.h. die erste zusammenhängende und mit einem Leerzeichen abgeschlossene Zeichenfolge) jeder Zeile als Import-Identifier des entsprechenden Klassifikationseintrags verwendet (und damit nicht in dessen Beschriftung übernommen) wird. Anstelle von # ident first kann auch # ident last angegeben werden, um das letzte Wort jeder Zeile als Import-Identifier zu verwenden.

# prefix abcd - Dieser optionale Parameter bedingt, daß jedem Import-Identifier das Präfix abcd vorangestellt wird. Ist nur der prefix-Parameter und nicht der ident-Parameter gesetzt, dann werden die Import-Identifier aus dem Präfix mit einer fortlaufenden Zählung gebildet.

Vorsicht

Bei Verwendung des ident-Parameters müssen die angegebenen Import-Identifier eindeutig sein.

Der Import der Datei in die jeweilige Sammlung erfolgt per VLM über den Kontextmenübefehl Verwaltung | Import-Dateien hochladen. Nach dem Bestätigen des Dialogs wird die ausgewählte Datei automatisch importiert und verarbeitet.

Beispiel

Dieses Beispiel illustriert den Aufbau einer Textdatei für den Import einer Klassifikationsstruktur.

# ident first
# prefix ssg
:root Classification Scheme of the Special Subject Collection
    1 General Works
        1.1 University Departments, Institutes or Centers
        1.2 Libraries, Booksellers and Publishing Houses
        1.3 Special Subject Internet Directories and Link Collections
        1.4 Other General Works
    2 Islamic Studies
        2.1 General Works
        2.2 Theology, Religious Life
        2.3 Sufism
        2.4 Religious Denominations
        2.5 Interreligious Relations
        2.6 Law
        2.7 History
        2.8 History of Culture and Civilization, Philosophy, Sciences
        2.9 Islamic Institutions, Islamic Thought
        2.10 Muslim Communities in the Modern World
        2.11 Islam in Europe, America, Australia
        2.12 Islam in China, South and Southeast Asia
        2.13 Islam in Sub-Saharan Africa
    3 Regions, Countries and Peoples
        3.1 Arab World, Near and Middle East
            3.1.1 General Works
            3.1.2 Religion
            3.1.3 History, Politics
            3.1.4 History of Culture and Civilization
            3.1.5 Law, Economic and Social Sciences
            3.1.6 Geography, Travel
        3.2 Particular Regions
            3.2.1 Arabian Peninsula
                3.2.1.1 The Region
                    3.2.1.1.1 General Works
                    3.2.1.1.2 Religion
                    3.2.1.1.3 History, Politics
                    3.2.1.1.4 History of Culture and Civilization
                    3.2.1.1.5 Law, Economic and Social Sciences
                    3.2.1.1.6 Geography, Travel
                3.2.1.2 Saudi Arabia

Aufgrund der ident- und prefix-Parameter in der ersten und zweiten Zeile werden die folgenden Import-Identifier für die Klassifikationseinträge gebildet:

ssg:root
  ssg1
    ssg1.1
    ssg1.2
(...)
  ssg2
    ssg2.1
    ssg2.2
(...)
  ssg3
    ssg3.1
      ssg3.1.1
      ssg3.1.2
(...)
Praxisregeln Digitalisierung (DFG)

http://www.dfg.de/download/pdf/foerderung/programme/lis/praxisregeln_digitalisierung.pdf