SLUBlog

Permalink

Abtauchen ins Deep Web

Im Wikipedia-Artikel zum Lemma Deep Web ist zu lesen, dass es sich bei diesem Phänomen um das im Vergleich zum Surface Web bis zu 550 mal größere unsichtbare, mit herkömmlichen Suchmaschinen nicht navigable, also versteckte Internet handelt. Gerade dieses Web, das sich aufteilt in verschiedene Unterformen, ist es aber, in dem sich ein Großteil der qualitativ hochwertigen Ressourcen unserer digitalen Welt angesammelt hat. Selbst wenn immer mehr Anbieter von digitalen Volltexten dazu übergehen, ihre Ressourcen auch für Internet-Suchmaschinen wie Google zumindest auffindbar (wenn auch nicht frei zugreifbar) zu machen, ist das tiefe, schwer ergründbare Netz noch immer riesengroß.

Um in dieses Netz der Informationen einzutauchen, sind besondere Suchmaschinen nötig, die meistens von den Anbietern der entsprechenden Inhalte zur Verfügung gestellt werden und die spezifische Suchstrategien ermöglichen - aber auch oft spezifische Kenntnisse und Fertigkeiten von den Benutzern abfordern. Auch unser SLUB-Katalog ist ein Instrument, mit dessen Hilfe man ins Deep Web gelangt: Mit seiner Hilfe können Sie beispielsweise Aufsätze, die das Thema "decompression illness" - also die Taucherkrankheit - behandeln, durch Eingabe einiger relevanter Stichwörter auffinden, und zwar sogar dann, wenn sich diese Stichwörter irgendwo im Aufsatztext verstecken. Eine Vielzahl der von der SLUB Dresden lizenzierten - das heißt nicht frei zugänglichen - digitalen Ressourcen sind auf diese Weise im SLUB-Katalog volltextindexiert erschlossen.

Was bisher den Algorithmen unserer Suchmaschine verborgen blieb, sind Volltext-Inhalte in traditionellen CD-ROM- oder DVD-Datenbanken. Zwar bieten wir seit langer Zeit auf der Grundlage einer eigens entwickelten Technologie "Databases on Demand (DBoD) den Fernzugriff auf lizenzierte CD-ROM-Datenbanken an - für entsprechend berechtigte Nutzer (Angehörige der TU Dresden) sogar vom heimischen Rechner oder vom mobilen Endgerät aus. Bis heute mussten die Nutzer dieser Ressourcen jedoch mindestens zwei Dinge wissen, nämlich 1.) dass sie existieren und 2.) in welcherDatenbank sie enthalten sind. Wenn man bislang also z.B. die DIN-Norm EN 1972 suchte, die sicherheitstechnische Anfordungen für Tauchzubehör und Schnorchel definiert, musste man wissen, dass die SLUB eine Datenbank namens Perinorm anbietet, diese Datenbank im SLUB-Katalog auffinden, sie starten um dann innerhalb der Datenbank nach der Norm mithilfe der "Dokumentnummer" oder entsprechender Stichworte zu suchen.

Suchen Sie direkt im Katalog

Ab heute ist dies nicht mehr nötig. Ab heute können Sie die Norm DIN EN 1972 oder ein Stichwort wie Schnorchel direkt im Suchfeld auf unserer Webseite eingeben und daraufhin ohne Umweg zu dem gewünschten Dokument gelangen:

Ein Klick auf "Datenbank starten" leitet Sie augenblicklich zum entsprechenden Dokument in Perinorm. Oder besser fast augenblicklich, denn der Startknopf ruft ein Java-Applet auf, das die Datenbank mit kleiner Ladeverzögerung öffnet. Ein kleiner Tipp: Wenn Sie für Ihre Suchanfrage zu viele Treffer erzielen, schränken Sie die Suche am besten nachträglich ein. Sucht man nach der Schnorchelnorm z.B nur mit dem Begriff Schnorchel, ist die Trefferliste sehr viel länger als im Screenshot oben. Dann lassen sich die gewünschten Normen von den in dieser Suche nicht gewünschten Buchpublikationen wie Tauchen für Einsteiger u.a. mithilfe der Facetten Thema ("DIN-Norm") oder Urheber ("DIN Deutsches Institut für Normung e.V."), aber auch Medientyp ("Datenbank") zuverlässig trennen.

Möglich ist die direkte Katalogsuche nach Einzeldokumenten und deren Inhalten durch die innovative und übrigens einzigartige Volltextindexierung von Datenbanken auf physischen Trägern im SLUB-Katalog. Diese Technologie wurde in unserem Projekt DBoD-Tiefenerschließung entwickelt und steht in Kürze auch allen institutionellen Anwendern der DBoD-Lösung zur Verfügung. Zum Start sind neben der wichtigen Ressource Perinorm folgende Datenbanken in die Volltextsuche einbezogen:

  • die Datenbank der Datenbanken - unser Datenbank-Infosystem DBIS;
  • video2brain, keine CD-ROM-Datenbank, sondern eine Online-Sammlung von über 800 Lehr- und Trainingsvideos aus den Bereichen Informatik, Business, Lifestyle, Bildbearbeitung, Fotografie und Webdesign;
  • Statistisches Jahrbuch Sachsen, und zwar vorerst die erste CD über die Jahre 1833-1855.

Weitere Datenbanken folgen schrittweise. Über CD-ROM- und DVD-Datenbanken hinaus werden wir in Zukunft auch die Dokumente in unserem Open-Access-Dokumentenserver Qucosa, unserer eigenen Digitalisate, sofern sie als Textdokumente in den Digitalen Sammlungen vorliegen, sowie Online-Datenbanken und ähnliche Ressourcen volltextindexieren.

8 Comment(s)

  • Daniel Heger
    29.04.2013 17:42
    Č,Š,Ž..... - das scheint den "Machern" der Seite relativ egal zu sein...

    Die Sache mit den (nicht angezeigten) Sonderzeichen passt nicht unbedingt hierher, geht mir und vielen anderen aber auch gehörig auf die Nerven. SLUB-Mitarbeiter empfehlen deswegen den alten Webopac zu benutzen, wenn man slawische Sachen sucht (kein Witz, dieser "Tipp" wurde mir von SLUB-Mitarbeitern schon öfters gegeben).

    • Daniel Heger
      30.04.2013 13:04
      Re: Sonderzeichen

      Sehr geehrter Herr Lohmeier,
      ja, wir hatten diesbezüglich schon korrespondiert, ich konnte mir aber trotzdem gestern den Kommentar hier im BLOG nicht verkneifen. Hat mich gefreut zu sehen, dass ich nicht der einzige bin, den das stört.
      Wenn Sie das Problem in den nächsten Wochen gelöst bekommen, wäre das einfach super!

    • Felix Lohmeier (SLUB Dresden)
      30.04.2013 12:10
      Sonderzeichen

      Lieber Herr Ebert, lieber Herr Heger,

      diese fehlerhaften Anzeigen von Sonderzeichen sind uns natürlich nicht entgangen und wir arbeiten an der Behebung des Darstellungsproblems. Herr Heger, wir hatten dazu ja auch bereits korrespondiert. Es handelt sich hierbei um einen Fehler, der durch die Konvertierung von Zeichensätzen bei der Datenumformung für den Suchindex entstanden ist. Die Fehlerursache ist bereits behoben, die Zeichensätze bleiben bei der Datenumformung nun erhalten. Um das Problem nun auch in der Anzeige zu beheben, müssen wir noch alle Datensätze neu laden. In unserem jetzigen System ist dies nur mit Geschwindigkeitseinschränkungen des SLUB-Katalogs möglich, weshalb wir das Nachladen der Datensätze nachts in kleinen Portionen laufen lassen. Deshalb wird der gesamte Prozess mehrere Wochen in Anspruch nehmen. Wir bitten um Verständnis und arbeiten auch an einer generellen Verbesserung des Systems, um solche Fehlerbehebungen künftig schneller durchführen zu können.

  • Anton Ebert
    25.04.2013 13:38
    Schnickschnack

    Bevor sich die Entwickler der SLUB-Seite mit solchen Nebensächlichkeiten beschäftigen, wäre es vielleicht angebrachter, die vorhandenen "Baustellen" zu schließen. Ich entschuldige mich für diesen Ausdruck, aber es kotzt mich an, dass die Seite zu blöd ist, einige Sonderzeichen (slawische Zischlaute) anzuzeigen und zu lesen, was zur Verfälschung des Suchergebnisses führt. Stattdessen zeigt die Seite diese Buchstaben als "?" an, wie schön. Suche ich also etwas über Chruschtschow, muss ich eingeben "Chru??ev", sieht sehr intelligent aus und das ist seit Einführung des neuen Kataloges bekannt, geändert hat sich bislang rein gar nichts!!!

  • Elisabeth Eckstädt
    22.04.2013 18:49
    Klasse

    Wieder ein Klick weniger. Es sind die kleinen Dinge, die das Arbeiten angenehmer machen. Vielen Dank dafür!

    Gibt es denn irgendwo eine Auflistung was die Suche im SLUB-Katalog eigentlich erfasst? (was im Volltext, wovon nur die Metainformationen). Insbesondere bei Fachartikeln bin ich da immer wieder unsicher.

    VG

    • Jens Mittelbach (SLUB Dresden)
      23.04.2013 10:59
      Liste der indexierten Datenquellen

      Eine Liste der für den SLUB-Katalog indexierten Datenquellen finden Sie unter Recherche: Datenquellen im SLUB-Katalog (http://slubdd.de/datenquellen). Ihre Anregung, liebe Frau Eckstädt, genauer aufzuführen, was eigentlich indexiert ist, greifen wir gerne auf. In der Liste "Lokale Datenquellen" haben wir es bereits umgesetzt.

  • Andreas R.
    22.04.2013 14:05
    Was auch möglich wäre…

    Um einen noch aktiveren Beitrag zur Tiefenerschliessung des Netzes (und der Offline-Welt) zu ermöglichen, wäre die Nutzung der freien, verteilten Suchmaschine YaCy (http://yacy.net/de/) möglich.

    Kann auch als Portal genutzt werden und versteht auch OIA-PMH und kann von jedem Betreiber kontrolliert gesteuert werden. Die Installation ist einfach und kann auch jeder ergänzend privat betreiben.

    Vorteile: ausfallsicher, dezentral, skalierbar, freie Software

    Kurzum, YaCy ist für Suche das, was Wikipedia für Lexika ist :)

    Siehe auch http://de.wikipedia.org/wiki/Deep_Web und http://de.wikipedia.org/wiki/YaCy

  • Jens Lazarus
    20.04.2013 21:22
    Nebenbei

    Normalerweise ist so ein Blog ja nicht dazu da, unter Kollegen zu kommunizieren. Aber was hier so nebenbei angekündigt wird, erlaubt schon mal eine Ausnahme. Es ist für die Innung ein Riesenschritt und eine wirklich starke Leistung, was da gerade erreicht wurde. Herzlichen Glückwunsch an die SLUB.

    Beste Grüße, Jens Lazarus