TopicModel-List
主题模型资料索引
朴素贝叶斯可以胜任许多文本的分类问题,但是无法解决语料中一词多义和多词一义的问题,它更像是词法分析,而不是语义分析。而如果使用词向量作为文档的特征,可以较好地解决了一词多义和多词一义的问题,但是就好像过拟合一样,会造成计算文档间相似度的不准确性。而通过添加主题这个隐藏变量,一个词可能被映射到多个主题,而多个主题也可能被映射到一个词中,从而解决一定程度上的语义问题。
主题模型经历从基于 SVD 的简单的 LSA(隐含语义分析),到基于概率模型与 EM 的 pLSA,再到基于 Dirichlet 分布的 LDA。目前,经典的主题模型一般都会基于 BOW(Bag-of-Words)假设。
LDA
-
Notes Nonparametric Bayesian Methods and Dirichlet Processes: Nonparametric Latent Dirichlet Allocation