Latent Semantic Indexing (LSI) - ein kurzer ÜberblickStudienarbeit aus dem Jahr 2001 im Fachbereich BWL - Informationswissenschaften, Informationsmanagement, Note: 2,0, Universität Hildesheim (Stiftung) (Angewandte Sprachwissenschaft), Veranstaltung: Virtuelles Hauptseminar, Sprache: Deutsch, Abstract: Bei dieser Retrieval-Methode werden in einem n -dimensionalen Raum A nfragen und Dokumente in Form von Vektoren repräsentiert, wobei jeder Suchbegriff eine Dimension darstellt. Die gefundenen Dokumente werden aufgrund ihrer Deskriptoren als Vektoren in den Raum eingeordnet, ihre Position im R aum bezeichnet ihre Relevanz. Messbar wird die Ähnlichkeit zwischen Anfrage und Dokument anhand des Cosinus- Winkels zwischen Anfrage- und Dokumentvektor: Je kleiner das Cosinus-Maß des Winkels zwischen Anfrage und Dokument, desto größer die Ähnlichkeit zwischen Dokument und Anfrage. Die Vektor-Retrieval-Methode ist weit verbreitet, hat jedoch den Nachteil, dass sie Terme als voneinander unabhängig betrachtet. Wie bei den anderen „klassischen“ Retrieval-Techniken (Boolsches Retrieval, probabilistisches Retrieval, vgl. http://www.iud.fh-darmstadt.de/iud/wwwmeth/LV/ss97/wpai/grpTexte/textgr2.htm#Heading26) werden exakte Übereinstimmungen zwischen in der Anfrage enthaltenen und in den Dokumenten verwendeten Termen, unabhängig vom Kontext, in dem sie gebraucht werden gesucht. Diese Technik ist in der Hinsicht problematisch, dass es z.B. für ein und dieselbe Sache oft verschiedene Bezeichnungen gibt, und somit relevante Dokumente oft nicht ausgegeben werden, weil im Dokument eine andere Bezeichnung als in der Anfrage verwendet wurde. Hier setzt Latent Semantic Indexing an: Dokumente werden aufgrund von Wort-Assoziationen und kontextue llen Zusammenhängen indexiert, sodass auch relevante Dokumente, die mit der Anfrage keine Wörter gemeinsam haben gefunden werden. |
Common terms and phrases
Ähnlichkeit analysis Anfrage und Dokument appear automatisch modelliert based basierend Bedeutung beste Antwort Boolschem Retrieval collection correlation matrix Cross-Language Information Retrieval Cross-Language-LSI CL-LSI darmstadt.de/iud/wwwmeth/LV/ss97/wpai/grpTexte/textgr2.htm#Heading26 different words Dimension Document Retrieval Dokumente mit Hilfe Dokumente werden aufgrund eingeordnet Einsatz von LSI Einsprachige englisch enthält Term Eword factor Fmot Form von Vektoren found Fragevektor Französisch funktioniert LSI Grafiken nach Littman http://www.iud.fh jeglicher Sprache Konstruktion kontextuellen Zusammenhängen Latent Semantic Indexing Littman et al LSI im Cross-Language LSI Vector Space Machine Translation-LSI MT-LSI make match mehrdimensionalen Raum Menge der Vektoren Methode Nachteile von LSI number numerische orthogonal Reduced LSI Vector reduzierten Raum relevante Dokumente Repräsentation repräsentiert represent Retrieval-Methode semantischen Raums Singular Value Decomposition Sprache liefern Sprache übersetzt sprachunabhängige Technik term-document matrix traditionellen Training Trainingsdokumente TRdoc Übersetzung user value decomposition SVD Vector Space Model Vektor-Retrieval-Methode Vektoren ihrer Terme Vektorraum Vektorraum-Modell Verbesserung Verifizierungsdatum verschiedene verwendet voneinander unabhängig Wechselbeziehungen zwischen Termen Winkels zwischen Anfrage Wort-Assoziationen Wörter gemeinsam