潜语义标引模型

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

潜语义标引模型(Latent Semantic Analysis，LSA)

什么是潜语义标引模型^[1]

　　潜语义标引模型是由S．Derewester和S．T．Dumais提出，其将标引词之间、文献之间的相关关系以及标引词与文献之间的语义关联都考虑在内，将文献向量和提问向量映射到与语义概念相关联的较低维度的空间中，从而把文献的标引词向量空间转化为语义概念空间；然后再在降维了的语义概念空间中，计算文献向量和提问向量的相似度，然后根据所得的相似度把排列结果返回给用户。

[编辑]

潜语义标引模型的主要思想^[2]

　　潜语义标引模型的主要思想是将文档和查询向量映射到与概念相关联的空间，这可以通过把索引项向量映射到维数较低的空间来实现。这种观点认为，在维数降低了的空间中的检索可能优于在索引项集合中的检索。潜在语义分析同向量空间模型类似，都是采用空间向量表示文本，但通过奇异值分解(Singular Value Decomposition，SVD)等处理，消除了同义词、多义词的影响，提高了后续处理的精度。因而在信息检索、信息过滤、相关反馈、信息聚类／分类、跨语言信息检索、信息理解和判断及预测等方面都有广泛的应用。

　　假设有一个文本集，包含n个文档，用到了t个词汇，构造“词项-文档矩阵”(Term-Document-MatriX，TDM)：

	$d 1$	$d 2$	$\cdots$	$d n$
$k 1$ $M_{t \times n}=[M_{i,j}]=k_2$ $\vdots$ $k t$	$\begin{bmatrix} w_{1,1} & w_{1,2} & \cdots & w_{1,n} \\ w_{2,1} & w_{2,2} & \cdots & w_{2,n}\\ \vdots & \vdots & \cdots & \vdots \\ w_{t,1} & w_{t,2} & \cdots & w_{t,n} \end{bmatrix}$