Aktueller Channel Fokus:

Storage und Datamanagement

Definition

Was ist das Deep Web?

| Autor / Redakteur: MiR / Sarah Böttcher

Grundlagenwissen zum IT-Business
Grundlagenwissen zum IT-Business (Bild: © adiruch na chiangmai - Fotolia.com)

Deep Web (beziehungsweise „Tiefes Netz“) ist die allgemeine Bezeichnung für den nicht indexierten Teil des World Wide Webs. Geprägt wurde der Begriff im Jahr 2001 durch den Computerwissenschaftler Michael K. Bergmann.

Klassische Suchmaschinen – wie zum Beispiel Google – finden diese Seiten ohne Indexierung nicht. Sie sind unsichtbar beziehungsweise versteckt. Daher wird alternativ auch oft vom Invisible Web oder Hidden Web gesprochen. Indexierte Seiten sind demgegenüber im Visible Web via Suchmaschine auffindbar und erreichbar. Experten gehen davon aus, dass das Deep Web um ein vielfaches größer ist als das Visible Netz. Schon 2001 soll das Hidden Web laut einer Studie bis zu 550 Mal größer gewesen sein als das Visible Web. Es ist davon auszugehen, dass sich dieser Wert bis heute noch einmal deutlich erhöht hat.

In diese Kategorien lässt sich das Deep Web unterteilen

Deep Web fungiert dabei im Grunde genommen als Oberbegriff für verschiedene Teilbereiche. So lässt sich das Invisible Web in insgesamt vier Kategorien einteilen:

  • Opaque Web: Crawling-Tiefe und Crawl-Frequenz als wesentliche Kriterien: Hierbei handelt es sich um den Teil des Deep Webs, der nicht indexiert werden kann (aufgrund bestimmter Restriktionen), obwohl er technisch korrekt von den Suchmaschinen erfasst wird. Die Websites werden allerdings meistens nur pro Crawl bis zur sechsten Verzeichnisebene erfasst. Daher landen Websites – die vom Crawler noch nicht erreicht werden konnten – mit einer lediglich geringen Crawling-Tiefe im Opaque Web. Ein weiteres Kriterium ist die Aktualität der Webseiten, also die Crawl-Frequenz. Zudem lassen sich im Opaque Web Datei- und Mediatypen finden, die nicht vom Spider komplett verstanden werden, sowie auch Spam Seiten und Websites ohne Linkverweise oder Hyperlinks.
  • Private Web: Nur erreichbar für bestimmte User: Webseiten, die aufgrund einer Zugangsbeschränkung nicht im Index erfasst werden, erscheinen im Private Web. Um Zugriff auf diese Seiten zu erlangen, werden Passwörter oder spezifizierte IP-Adressen benötigt. Hierfür wird zusätzlich ein Meta-Tag im Quelltext hinterlegt. Zum Private Web zählen beispielsweise nur über bestimmte Rechennetze erreichbare Intranet-Seiten. Auch Dokumente von Bibliotheken oder Universitäten sind hier in großer Zahl vertreten.
  • Proprietary Web: Hochwertiger Content ist hier kein Entscheidungskriterium: Mit der Bezeichnung Proprietary Web sind Seiten gemeint, die kostenpflichtige Inhalte anbieten, die Zustimmung von bestimmten Nutzerbedingungen einfordern oder eine Registrierung verlangen. Selbst wenn sich nützlicher, respektive mehrwertiger Content hinter diesen Websites verbirgt, können Spider mittels Crawling auf diese Inhalte nicht zurückgreifen.
  • Truly Invisible Web: Indexierung aus technischen Gründen nicht möglich: In dieser Deep-Web-Kategorie lassen sich Webseiten finden, die aus rein technischen Gründen nicht erkannt und indexiert werden können. In erster Linie handelt es sich dabei um Dateiformate, die nicht vom Browser angezeigt werden können. Darunter fallen softwarespezifische Dateiformate, Skripte und Nicht-Standardformate wie zum Beispiel Flash.

Kommentare werden geladen....

Sie wollen diesen Beitrag kommentieren? Schreiben Sie uns hier

Anonym mitdiskutieren oder einloggen Anmelden

Avatar
Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
  1. Avatar
    Avatar
    Bearbeitet von am
    Bearbeitet von am
    1. Avatar
      Avatar
      Bearbeitet von am
      Bearbeitet von am

Kommentare werden geladen....

Kommentar melden

Melden Sie diesen Kommentar, wenn dieser nicht den Richtlinien entspricht.

Kommentar Freigeben

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

Freigabe entfernen

Der untenstehende Text wird an den Kommentator gesendet, falls dieser eine Email-hinterlegt hat.

copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Infos finden Sie unter www.mycontentfactory.de (ID: 45384386 / IT-BUSINESS Definitionen)