文档名:精细化的中文词性标注评测集的研制
本文提出了一套精细化的中文词性标注评测体系.本文的工作重点在于确立其中的评测项目以及每个项目所对应的词例,提出了比对、归类、合取的方法;依此,本文初步建立了规模为5873句的、涵盖了2326项词例和70个评测项目的评测试题集,并用这套试题集对几个常见的开源词性标注程序进行了评测.最后,本文指出了精细化评测体系将评测项目和评测语料联系起来的好处——在传统体系中,二者是分开的.本文从评测项目的价值和评测语料的组织性两个方面阐述了本文的评测体系相对于传统评测体系的优势,并指出了根据本文提出的评测体系改进被测程序的方法.
作者:唐乾桐 常宝宝 詹卫东
作者单位:北京大学计算语言学教育部重点实验室,北京100871;北京大学中国语言文学系,北京100871北京大学计算语言学教育部重点实验室,北京100871北京大学计算语言学教育部重点实验室,北京100871;北京大学中国语言文学系,北京100871;北京大学中国语言学研究中心,北京100871
母体文献:第十八届中国计算语言学大会暨中国中文信息学会2019学术年会论文集
会议名称:第十八届中国计算语言学大会暨中国中文信息学会2019学术年会
会议时间:2019年10月18日
会议地点:昆明
主办单位:中国中文信息学会
语种:chi
分类号:
关键词:汉语 词性标注 评测体系
在线出版日期:2021年8月24日
基金项目:
相似文献
相关博文
- 文件大小:
- 587.41 KB
- 下载次数:
- 60
-
高速下载
|
|