文档名:基于LDA的社科文献主题建模方法
随着互联网的发展,文本分类和主题提取的应用越来越广泛,而主题模型在文本主题提取中起着很大的作用.LDA(latentDirichletallocation)模型是一种应用非常广泛且很成熟的主题模型,也是一个概率生成模型,可以很好地解决多词一义和一词多义的问题.但是当利用LDA模型对社科文献领域类的文档集进行主题建模时,由于该建模方法忽略了文档集自身的主题特点,提取的主题分布是偏向文档中高频词汇,所以造成最后提取的主题偏离文档的本质意义上的主题、结果不够准确.针对LDA模型对文档进行主题建模的过程,结合社科文献领域的文档特点,对主题建模的过程进行相应的改进,提出一种新的主题建模方法,从而使最终提取的主题更加准确,更符合文档集本身的主题特点.
作者:李昌亚刘方方
作者单位:上海大学计算机工程与科学学院,上海200444
母体文献:2019年上海市“智能计算与智能电网”研究生学术论坛论文集
会议名称:2019年上海市“智能计算与智能电网”研究生学术论坛
会议时间:2019年5月17日
会议地点:上海
主办单位:上海市学位委员会
语种:chi
分类号:
关键词:社会科学文献 主题提取 建模方法 LDA模型
在线出版日期:2022年9月21日
基金项目:
相似文献
相关博文
- 文件大小:
- 338.26 KB
- 下载次数:
- 60
-
高速下载
|
|