中文矛盾语块数据集构建和边界识别研究

admin · 发表于 2024-12-11 23:38

文档名：中文矛盾语块数据集构建和边界识别研究
正确理解文本矛盾是自然语言理解的一项基础性问题.目前的研究大多针对矛盾识别任务,深入文本内部探究矛盾产生原因的工作较少,且缺乏专门的中文矛盾数据集.该文在前人矛盾研究基础上,提出矛盾语块的概念,将其划分为7种类型,并根据标注规范构建了包含16,224条数据的中文矛盾语块(CCB)数据集.基于此数据集,利用序列标注及抽取式阅读理解类模型开展矛盾语块边界识别实验,以检验模型对矛盾内部语义信息的理解能力,结果显示阅读理解类模型在该任务上的性能优于序列标注模型.该文通过三个角度对影响语块边界识别的因素进行分析,为文本矛盾后续研究工作提供可靠的数据集和基线模型.
作者：李博涵姜姗刘畅于东
作者单位：北京语言大学信息科学学院,北京100083
母体文献：第十八届中国计算语言学大会暨中国中文信息学会2019学术年会论文集
会议名称：第十八届中国计算语言学大会暨中国中文信息学会2019学术年会
会议时间：2019年10月18日
会议地点：昆明
主办单位：中国中文信息学会
语种：chi
分类号：
关键词：中文解析矛盾语块数据集边界识别
在线出版日期：2021年8月24日
基金项目：
相似文献
相关博文

2024-12-11 23:38 上传

中文矛盾语块数据集构建和边界识别研究.pdf

文件大小:: 679.79 KB

下载次数:: 60

高速下载

中文矛盾语块数据集构建和边界识别研究

能源电力

化工

建筑工程

机械

电子信息

医药

科学