SLUBlog

Permalink

Mut- und Leberwurst: Herausforderung Texterkennung als ‚Begleiterscheinung‘ der Digitalisierung

Um die zahlreichen Digitalisate in unseren Sammlungen durchsuchbar zu machen, müssen sie eine möglichst umfassende und genaue Texterkennung durchlaufen. Wir erläutern, was es damit auf sich hat und worin die aktuellen Herausforderungen bestehen.

Der Umgang mit digitalen Texten und insbesondere die Recherche innerhalb solcher ist in den vergangenen 20 Jahren Bestandteil unseres Alltags geworden. Suchportale bzw. -funktionen sind der am häufigsten genutze Einstieg ins Internet  bzw. spezifische Internetseiten. Auch auf der Webseite der SLUB Dresden ist das Suchfeld ein äußerst prominentes Element, das den Zugriff auf unsere digitalen Angebote unterstützt.

Damit Suchbegriffe mit einzelnen Dokumenten abgeglichen werden können, müssen diese als digitale Textdaten vorliegen. Das ist bei vielen unserer Inhalte, wie etwa Blogbeiträgen, Veranstaltungshinweisen und Katalogeinträgen unproblematisch, da sie digital entstanden sind (born digital). Anders stellt sich die Situation mit Dokumenten dar, die nicht am Computer erstellt wurden. Um diese in vergleichbarer Weise auswertbar zu machen, müssen sie zunächst digitalisiert werden. Eine solche Digitalisierung kann manuell stattfinden. Das heißt jedes einzelne Wort, das sich auf einer zu erfassenden Seite befindet, wird am Computer abgeschrieben. Dieser Prozess ist jedoch hochgradig aufwendig und für größere Bestände, wie sie in der SLUB vorhanden sind, nicht leistbar. Deshalb bedient man sich weitgehend automatischer Verfahren zur Texterfassung.

Das beginnt bei gedruckten Werken mit einer Erfassung als Bilddatei. Sie werden gescannt oder photographiert. Unser Dresdner Digitalisierungszentrum ist eine deutschlandweit führende Einrichtung in diesem Bereich und verfügt über weitreichende Erfahrung mit historisch wertvollen Beständen. Die so entstandenen Bilddaten sind jedoch nicht ohne weitere Bearbeitung als digitaler Text verwertbar: Z.B. müssen in einem Bild des Wortes „Mut“ die Buchstaben „M“, „u“ und „t“ erkannt werden, wobei natürlich Fehler passieren können, wie das ‚Mutwurst‘-Beispiel im obigen Bild eindrücklich zeigt. Die dafür notwendigen Algorithmen werden unter dem Sammelbegriff Optical Character Recognition (OCR) geführt und lassen sich grob in drei Prozessschritte untergliedern: Zunächst durchläuft die Bilddatei eine Vorverarbeitung, in welcher sie durch z.B. automatische Begradigung, Beschneidung und Verstärkung der Konstraste optimal für die Texterkennung vorbereitet wird. Danach wird zunächst die Struktur der Seite analysiert: Textbereiche werden lokalisiert und in Zeilen aufgetrennt. Aus den einzelnen Zeilen wird dann durch die eigentliche Zeichenerkennung der Volltext extrahiert und in einem speziellen Datenformat, das die Verknüpfung von Bild, Struktur und Text zulässt, gespeichert.

Die so erzeugten Daten werden dann in die digitalen Sammlungen der SLUB eingespielt und lassen sich dort öffentlich und frei verfügbar ansehen, durchsuchen und herunterladen. Gegenwärtig finden Sie in unseren digitalen Kollektionen 101 925 Titel. Bereits jetzt sind davon viele per OCR mit einem durchsuchbaren Volltext versehen. Perspektivisch sollen alle Titel „vervolltextet“ werden. Die Herausforderung liegt dabei vor allem in den speziellen Anforderungen, die historische Dokumente des vorindustriellen Druckes, zum Beispiel durch Materialalterung, ökonomiebedingte Layoutspezifika sowie nicht-standardisierte Orthographie, an die skizzierten Verfahren stellen.

Creative Commons Lizenzvertrag

Dieser Artikel ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz

3 Kommentar(e)

  • Helena Richlin
    02.08.2019 19:33
    Druckfehler ...

    Hallo!

    Beim 1. Bild heisst es bei der Transkriotion:

    Hallesche Mut- und Leberwurst,

    eigentlich heisst es im Text:

    Hallesche Blut- und Leberwurst

  • Annemarie Grohmann (SLUB)
    01.08.2019 11:19
    @Volltextsuche

    Lieber Nutzer,

    herzlichen Dank noch für Ihre Anmerkung! Ihre Kritik ist berechtigt: Bei der Suche in den Digitalen Sammlungen gibt es einige Baustellen – u.a. die wortgetreue Suche und jene nach Phrasen. Unsere IT-Kolleginnen und Kollegen arbeiten daran, die Suche zu optimieren, aber das ist ein durchaus komplexes Unterfangen. Für ein gutes Ergebnis ist es genauso wichtig, parallel dazu die Qualität der Texterkennung zu verbessern. Wir hoffen, Sie haben ein wenig Geduld mit uns und bleiben uns trotzdem gewogen!

    Haben Sie ein konkretes Rechercheanliegen? Dann nutzen Sie gern unsere persönliche Beratung in der SLUB Wissensbar (www.slubdd.de/wissensbar). Ein wenig komfortabler ist die Suche schon jetzt auf dem Portal https://sachsen.digital/. Dort finden Sie digitalisiertes Kulturgut aus verschiedenen sächsischen Institutionen und können auch innerhalb einzelner Kollektionen im Volltext suchen. Wenn Sie weitere Anregungen oder Fragen haben, kommen Sie gern auf uns zu!

  • Nutzer
    26.07.2019 17:21

    "Bereits jetzt sind davon viele per OCR mit einem durchsuchbaren Volltext versehen"

    Schonmal die Volltextsuche über die gesamte Kollektion benutzt? Es werden in großem Umfang, weder die Ausschnitte der Suchtreffer mit vernünftigen Titeldaten angezeigt, noch lässt sich irgendwie die Suche sinnvoll feinjustieren. Z.B. ist eine Wortwörtliche Suche nicht möglich.

    Man erhält bei bei wohl jeder beliebiger Suche so etwas wie:
    34076 Treffer in 23292 Dokumenten

    Titel {1911}
    Trefferanzeige als
    "StrukturtypSeite 8"
    StrukturtypSeite 6

    also:
    [02-Abendausgabe]
    StrukturtypSeite 3

    usw.

    So wie die Suche angeboten wird, ist sie nutzlos, weil wohl in jedem Fall eine unscharfe Suche (Wortstamm) durchgeführt wird - mit unzähligen "Nicht-Treffern".

    Bevor man sich an den Feinheiten von "Fraktur-OCR", wie dem Unterschied zwischen dem Langen "ſ" und einem "f" abarbeitet, sollte man eine Mindestbasis für so einen Katalog schaffen.