Modelo de espacio vectorial
De Wikipedia, la enciclopedia libre
Se conoce como modelo de espacio vectorial a un modelo algebraico utilizado para filtrado, recuperación, indexado y cálculo de relevancia de información. Representa documentos en lenguaje natural de una manera formal mediante el uso de vectores (de identificadores, por ejemplo términos de búsqueda) en un espacio lineal multidimensional. Fue usado por primera vez por el sistema SMART de recuperación de información.
La teórica básica es que la relevancia de un documento frente a una búsqueda puede calcularse usando la diferencia de ángulos (basada en el coseno de esos ángulos) de cada uno de los dosumentos respecto del vector de busca, utilizando el producto escalar entre el vector de búsqueda . Así un valor de coseno de cero significa que la búsqueda y el documento son ortiginales el uno al otro, y eso significa que no hay coincidencia.
Para determinar el coseno del ángulo entre dos vectores se usa la siguiente ecuación:
cos(teta) = v1.v2 / (||v1|| * ||v2||)
donde:
- teta es el ángulo entre v1 y v2
- v1 es el primer vector
- v2 es el segundo vector
- . representa el producto dot
- ||x|| representa la magnitud del vector x
El modelo clásico propuesto por Salto, Wong y Yang tenía parámetros locales y globales incorporados en la ecuacuón del peso del término (w(n)) conocida como tf-idf):
w(n) = f(n) x Log (D / d(n))
donde:
- w(n) es el peso del térmisno para la búsqueda de la palabra clave n,
- f(n) es la frecuencua en la que aparece el término n en el documento (representa el parámetro local),
- d(n) es el número de documentos conteniendo al término n
- D es la cantidad total de documentos
Nótese que el cociente d(n)/D es esencualmente la probabilidad de encontrar el documento que contiene el término n en el conjunto que está siendo utilizado y representa el parámetro global.
[editar] Bibliografía
- G. Salton, A. Wong, and C. S. Yang (1975), "A Vector Space Model for Automatic Indexing," Communications of the ACM, vol. 18, nr. 11, pages 613–620. (The article in which the vector space model was first presented)
- Descripción del modelo de espacio vectorial
- Descripción del modelo de espacio vectorial basado en tópicos
- Descripción del modelo de espacio vectorial clásico por Dr E Garcia
[editar] Véase también
- Índice invertido