文档名:基于中文AMR语料库的非投影结构研究
非投影结构是指依存树上的词语节点与原句中的词语序列出现错位的现象,对于句法分析器的影响较大,在语言理论上也有较大价值.在世界多种语言的依存树或图库上,都发现了含有非投影结构的句子,并展开了相关研究.而汉语的非投影结构尚未得到重视,语料库构建过程中也因遵循了投影性原则而缺乏对非投影结构的标注.本文基于概念对齐版的中文AMR语料库,在10149句上统计出带有非投影结构的句子比例为31.62%,其三种主要类型为模态词提升、话题化和成分分离,并提出了相应的自动分析方案,以提高中文AMR自动分析效果.
作者:闻媛 宋丽 吴泰中 李斌 周俊生 曲维光
作者单位:南京师范大学文学院,江苏省南京市210097南京师范大学计算机科学与技术学院,江苏省南京市210023南京师范大学计算机科学与技术学院,江苏省南京市210023;闽江学院福建省信息处理与智能控制重点实验室,福建省福州市350121
母体文献:第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL2018)论文集
会议名称:第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会(CCL2018)
会议时间:2018年10月19日
会议地点:长沙
主办单位:中国中文信息学会
语种:chi
分类号:
关键词:汉语 非投影结构 自动分析
在线出版日期:2021年9月13日
基金项目:
相似文献
相关博文
- 文件大小:
- 1.39 MB
- 下载次数:
- 60
-
高速下载
|
|