文档摘要:官方微博中混杂有较多无关其组织团体的信息,这为事件的提取与摘要工作带来了很大挑战.论文综合考虑官方微博数据的特性,提出了语料加权、标签识别的官方微博事件摘要模型,并结合官微相关语料提出了一种语料加权排序的关键词计算方法(CorpusWeightedRanking,CWR),为博文相似度计算和事件摘要提供了基础支撑.实验测试表明,与IF-IDF和TextRank方法相比较,CWR在关键词提取正确率P,召回率R和F值表现更好,并在后期选取权重较大句子构成事件摘要时取得了很好的效果.
Abstract:OfficialMicroblogisthecertifiedMicroblog,whoseaccountgenerallybelongstoanorganization.Itsdataarenotonlyhighlyreliablewithclear-cutlabels,butalsohaveastrongsocialeffect.Tosummarizetheorganizationtemporaleventinformationcangreatlyhelpimprovethereadingefficiency.However,theofficialMicroblogusuallycontainsmoreinformationunrelatedtotheorganization,whichbringsgreatchallengesforeventextractionandsummary.Thecorpus-weightedandlabel-recognizedmodelofofficialMicroblogeventsummarizationwasproposedaccordingtothecharacteristicsoftheofficialMicroblogdata,andacorpusweightedranking(CWR)keywordscalculationmethodcombinedwiththeofficialrelevantcorpuswaspresented,providingabasicsupportfortheofficialMicrob-logsimilaritycalculationandeventsummarization.Experimentaltestsshowthat,comparedwithIF-IDFandTextRankmethod,CWRhavebetterperformaceinthematictermextractionprecisionrateP,therecallrateRandFvalue.Anditachievedgoodresultsinthelaterselectingweightedsentencesforgeneratingeventsummarization.
作者:高永兵 杨贵朋 张娣Author:GAOYong-bing YANGGui-peng ZHANGDi
作者单位:内蒙古科技大学信息工程学院,内蒙古包头,014010
刊名:内蒙古科技大学学报
Journal:JournalofInnerMongoliaUniversityofScienceandTechnology
年,卷(期):2017, 36(3)
分类号:TP391
关键词:官方微博 关键词提取 相似度 事件摘要 TextRank
Keywords:OfficialMicroblog Keywordsextraction Similarity Eventsummarization TextRank
机标分类号:
在线出版日期:2018年1月17日
基金项目:内蒙古自治区科学基金资助项目官方微博关键词提取与摘要技术研究[
期刊论文] 内蒙古科技大学学报--2017, 36(3)高永兵 杨贵朋 张娣官方微博中混杂有较多无关其组织团体的信息,这为事件的提取与摘要工作带来了很大挑战.论文综合考虑官方微博数据的特性,提出了语料加权、标签识别的官方微博事件摘要模型,并结合官微相关语料提出了一种语料加权排序的关...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
关键词:官方微博,关键词提取,相似度,事件摘要,TextRank,
- 文件大小:
- 1.06 MB
- 下载次数:
- 60
-
高速下载
|
|