Modelo de espacio vectorialSe conoce como modelo de espacio vectorial a un modelo algebraico utilizado para filtrado, recuperación, indexado y cálculo de relevancia de información. Representa documentos en lenguaje natural de una manera formal mediante el uso de vectores (de identificadores, por ejemplo términos de búsqueda) en un espacio lineal multidimensional. Fue usado por primera vez por el sistema SMART de recuperación de información.
En esta representación vectorial de documentos el éxito o fracaso se basa en la ponderación o peso de los términos. Aunque ha habido mucha investigación sobre técnicas de ponderación de términos, en realidad no hay un consenso sobre cuál método es el mejor. También hay que destacar que el espacio de renglones de la matriz documento-término determinan el contenido semántico de la colección de documentos. Sin embargo, una combinación lineal de dos vectores-documento no representa necesariamente un documento viable de la colección. Más importante aún, mediante el modelo espacio vectorial se pueden explotar las relaciones geométricas entre dos vectores documento (y términos) a fin de expresar las similitudes y diferencias entre términos.
ConstrucciónUna colección de n documentos indexados por m términos puede ser representada por una matriz A de dimensión n x m, donde cada elemento aij es usualmente definido por una frecuencia ponderada del término i en el documento j cuyo objetivo principal es mejorar el rendimiento en la recuperación de información; entendiendo como rendimiento la habilidad de recuperar información relevante y descartar información irrelevante. La siguiente figura (ver figura 1) muestra una matriz documento-término simple, donde cada columna representa un término en la colección, cada renglón un documento y cada celda o elemento de la matriz la ocurrencia del término en el documento.
Figura 1 – Matriz documento-término simple En ella podemos ver que el término 1 aparece en el documento 1 y 3, pero no en los otros dos docu-mentos. Se demuestra así que cada renglón de la matriz de 4×3 puede ser representado en un espacio de tres dimensiones. Cada elemento aij de la matriz documento-término A queda definido como
donde lij es el peso local del término i en el documento j, el cual mide la importancia de dicho término en el documento, gi el peso global del término i en la colección de documentos y dj es el factor de normalización para el j-ésimo documento. Los siguientes apartados contienen las fórmulas más populares usadas en sistemas de indexado automático. Usualmente los componentes principales son el factor término-frecuencia (TF) y el factor de frecuencia inversa del documento, inverse document frequency (IDF).
Peso localEl peso local mide la importancia del término i en el documento j y solo depende de las frecuencias en el documento y no de otros documentos. Peso globalSon aquellas que toman información de la colección de documentos para obtener el peso de un término en un documento NormalizaciónLimitaciones del modelo de espacio vectorialEl modelo de espacio vectorial tiene las siguientes limitaciones:
Bibliografía
Véase tambiénEnlaces externos |