简述网站开发流程,2018做网站站长,资金盘网站开发公司哪里好,建立一个平台网站需要多少钱文章目录1. 单词向量空间、话题向量空间1.1 单词向量空间1.2 话题向量空间2. 潜在语义分析算法2.1 例子3. 非负矩阵分解算法4. TruncatedSVD 潜在语义分析实践一种无监督学习方法#xff0c;主要用于文本的话题分析其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系…
文章目录1. 单词向量空间、话题向量空间1.1 单词向量空间1.2 话题向量空间2. 潜在语义分析算法2.1 例子3. 非负矩阵分解算法4. TruncatedSVD 潜在语义分析实践一种无监督学习方法主要用于文本的话题分析其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系最初应用于文本信息检索也被称为潜在语义索引latent semantic indexingLSI在推荐系统、图像处理、生物信息学等领域也有广泛应用
文本信息处理中
传统的方法以单词向量表示文本的语义内容以单词向量空间的度量表示文本之间的语义相似度潜在语义分析 旨在 解决这种方法不能准确表示语义的问题试图从大量的文本数据中发现潜在的话题以话题向量表示文本的语义内容以话题向量空间的度量更准确地表示文本之间的语义相似度
潜在语义分析使用的是非概率的话题分析模型
将文本集合表示为单词-文本矩阵对单词-文本矩阵进行奇异值分解从而得到话题向量空间以及文本在话题向量空间的表示
非负矩阵分解non-negative matrix factorizationNMF是另一种矩阵的因子分解方法其特点是分解的矩阵非负。非负矩阵分解也可以用于话题分析。
1. 单词向量空间、话题向量空间
1.1 单词向量空间
文本信息处理的一个核心问题是对文本的语义内容进行表示并进行文本之间的语义相似度计算。
利用向量空间模型vector space modelVSM也就是单词向量空间模型word vector space model。基本想法用一个向量表示文本的“语义”向量的每一维对应一个单词其数值为该单词在该文本中出现的频数或权值基本假设 文本中所有单词的出现情况表示了文本的语义内容 文本集合中的每个文本都表示为一个向量存在于一个向量空间 向量空间的度量如内积或标准化内积表示文本之间的“语义相似度”。 单词文本矩阵是稀疏矩阵元素为频数或权值权值常用单词频率-逆文本频率term frequency-inverse document frequencyTF-IDF表示其定义是 单词向量空间模型的优点
是模型简单计算效率高。因为单词向量通常是稀疏的两个向量的内积计算只需要在其同不为零的维度上进行即可需要的计算很少可以高效地完成
单词向量空间模型也有一定的局限性
内积相似度未必能够准确表达两个文本的语义相似度上因为自然语言的单词具有一词多义性polysemy及多词一义性synonymy所以基于单词向量的相似度计算存在不精确的问题
1.2 话题向量空间
话题topic就是指文本所讨论的内容或主题。
一个文本一般含有若干个话题如果两个文本的话题相似那么两者的语义应该也相似话题由若干个语义相关的单词表示同义词如“airplane”与“aircraft”可以表示同一个话题而多义词如“apple”可以表示不同的话题
这样基于话题的模型就可以解决上述基于单词的模型存在的问题。
定义一种话题向量空间模型topic vector space model
给定一个文本用话题空间的一个向量表示该文本该向量的每一分量对应一个话题其数值为该话题在该文本中出现的权值用两个向量的内积或标准化内积表示对应的两个文本的语义相似度注意话题的个数通常远远小于单词的个数话题向量空间模型更加抽象潜在语义分析正是构建话题向量空间的方法即话题分析的方法单词向量空间模型与话题向量空间模型互为补充两者可以同时使用
单词-文本矩阵XXX 近似为单词-话题矩阵TTT 话题-文本矩阵YYY 的乘积形式X≈TYX \approx TYX≈TY 2. 潜在语义分析算法
潜在语义分析 利用 矩阵奇异值分解SVD对单词-文本矩阵进行奇异值分解
左矩阵 作为话题向量空间对角矩阵 与 右矩阵的乘积 作为 文本在话题向量空间的表示
潜在语义分析 根据 确定的话题个数k 对单词-文本矩阵XXX进行截断奇异值分解
2.1 例子 3. 非负矩阵分解算法
非负矩阵分解 也可以用于 话题分析
对单词-文本矩阵进行非负矩阵分解左矩阵作为话题向量空间右矩阵作为文本在话题向量空间的表示。注意通常单词-文本矩阵是非负的所有元素 0
定义找到两个非负矩阵乘积近似表示一个非负矩阵 X≈WHX≥0,W≥0,H≥0X \approx WHX \ge 0, W\ge 0, H \ge 0X≈WHX≥0,W≥0,H≥0 WWW 为基矩阵表示话题空间HHH 为系数矩阵是文本在话题空间的表示。 非负矩阵分解 旨在 用较少的基向量、系数向量 来 表示较大的数据矩阵
非负矩阵分解 可以表为以下的最优化问题 min∣∣X−WH∣∣2st.W,H≥0\min ||X-WH||^2\\ st. \quad W,H \ge 0min∣∣X−WH∣∣2st.W,H≥0
非负矩阵分解的算法是迭代算法
乘法更新规则的迭代算法交替地对WWW和HHH进行更新。本质是梯度下降法通过定义特殊的步长和非负的初始值保证迭代过程及结果的矩阵WWW和HHH均为非负
4. TruncatedSVD 潜在语义分析实践
基于sklearn.decomposition.TruncatedSVD的潜在语义分析实践