文档名:面向中朝跨语言文本分类的双语主题词嵌入模型的研究
日渐丰富的少数民族跨语言文字信息资源,对其进行有效的管理、挖掘与利用有着重要的应用价值.为了解决语言间的差异,解决语言鸿沟问题,针对中朝跨语言文本分类任务,提出了双语主题词嵌入模型.该模型将主题模型与双语词嵌入模型相结合,解决了一词多义引起的歧义性对跨语言文本分类的精度带来的影响.首先,在大规模包含词对齐信息的平行句对中训练双语单词的词嵌入表示;其次,对双语分类语料进行主题模型的建模,并获得双语单词的双语主题词嵌入表示;最后,将双语单词的双语主题词嵌入表示输入至传统文本分类器与深度学习文本分类器,进行模型的训练与分类预测.实验结果表明,在中朝跨语言文本分类任务中Accuracy达到了91.76%,达到了实际应用水平,并且根据双语单词间的相似度进行排序,该文提出的模型可以对一词多义单词的多个词义有很好的表示.
作者:王琪田明杰崔荣一
作者单位:延边大学计算机科学与技术学科智能信息处理研究室,吉林延吉133002
母体文献:第十八届中国计算语言学大会暨中国中文信息学会2019学术年会论文集
会议名称:第十八届中国计算语言学大会暨中国中文信息学会2019学术年会
会议时间:2019年10月18日
会议地点:昆明
主办单位:中国中文信息学会
语种:chi
分类号:
关键词:跨语言文本分类 双语词嵌入模型 主题模型
在线出版日期:2021年8月24日
基金项目:
相似文献
相关博文
- 文件大小:
- 1.07 MB
- 下载次数:
- 60
-
高速下载
|