Wissensauffindung in verteilten Systemen
Lokale Suchmaschine und Informationsaufbereitung für externe Suchdienste
Diplomarbeit
an der
Technischen Universität Graz
vorgelegt von
Bernhard Knögler
Institut für Informationsverarbeitung und computergestützte
neue Medien IICM
Technische Universität Graz
A-8010 Graz
Österreich
September 1999
© Copyright 1999, Bernhard Knögler
Begutachter: o.Univ.-Prof. Dr. Dr.h.c. Hermann Maurer
Betreuer: Dipl.-Ing. Christian Gütl
Kurzfassung
Das Internet repräsentiert heute, seit der Entwicklung einfach
zu bedienender Zugriffswerkzeuge, die weltweit größte und am
schnellsten wachsende unstrukturierte Wissens- und Informationsdatenbank.
Gerade diese Eigenschaften erschweren das Auffinden von relevanten Informationen
und verhindern die effiziente Nutzung des World Wide Web. Aus der Notwendigkeit
heraus, den Benutzern des Web die Möglichkeit zu geben, Informationen
zu einem bestimmten Thema zu finden, entstanden in den letzten Jahren mehrere
Suchdienste, die jeder für sich mehr oder weniger große Teile
des World Wide Web indizieren und eine Suche ermöglichen.
Mit den gegenwärtigen Methoden der Informationssammlung dieser
Suchdienste und der steigenden Anzahl von Dokumenten und aktiven Suchmaschinen
wird die dadurch verursachte Netz- und Serverbelastung künftig andere
Anwendungen weitgehend beeinträchtigen. In der vorliegenden Arbeit
werden daher neue Forschungsansätze wie lokale Indizes und hierarchische
Suchdienste näher untersucht. Dabei werden gegenwärtige Konzepte
lokaler Informationssammlung und Konzepte zur Bereitstellung bereits gesammelter
Daten für externe, übergeordnete Suchdienste behandelt.
Die Ergebnisse des Untersuchungsbereiches führen in weiterer Folge
zur Entwicklung eines leicht portierbaren lokalen Suchdienstes, der die
Bereitstellung von Informationen Inhalte sowie Metadaten für externe
Suchdienste ermöglicht. Zusätzlich werden die Informationen über
ein Web-Suchinterface zur Verfügung gestellt, wobei ein Index mit
einem Ranking- und Relevanzsystem und automatischer Schlüsselwortbildung
aus den Dokumenten aufgebaut wird. Die lokale Suchmaschine sowie die Schnittstellen
werden detailliert dokumentiert und zukünftige Erweiterungsmöglichkeiten
aufgezeigt.
Abstract
Today, since the development of simple-to-use access tools, the Internet
represents the world's largest and fastest growing unstructured knowledge
and information database. However, exactly this very characteristic makes
the discovery of relevant information difficult and prevents efficient
use of the World Wide Web. In recent years search engines have been developed
to give users the possibility to search and find certain information on
the Web. All these search services gather independently information from
more or less large parts of the Internet.
Present day methods of information collection and the ever-growing quantity
of documents and active search engines will increasingly affect future
internet applications because of repeated net- and server-load caused by
information gathering. In this thesis new approaches such as local gathering
and hierarchical search services will be analysed. Furthermore, current
concepts of local search engines and concepts of providing already gathered
information for external, hierarchically higher levels of search services
are discussed.
The results of this analysis lead to the development of an easily portable
local search engine which enables providing information contents as well
as meta information for external search services. Additionally, the gathered
information will be made available through a Web search interface. An index
with a ranking and relevance system and automatic keyword extraction from
the documents will be created. The local search engine and the interfaces
are documented in detail and future ways of extending the engine will be
discussed.
PDF
Word
HTML
|