文档名:基于高斯混合模型的现代汉语构式成分自动标注方法
现代汉语构式成分自动标注作为文本自动标注任务之一,其最大的困难在于,当不存在标注语料作为训练数据时,如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注,特别是面对构式序列在句中的边界难以判断的情况.该文试图借助高斯混合模型聚类方法,结合句中每一个字的位置特征与构式形式本身的语言学特征,融合正则表达式匹配结果信息,挖掘句子中的构式实例序列并对构式内部成分进行自动标注.相较于单单基于正则表达式匹配和基于词性匹配的自动标注结果,该方法的F1分别至少提高了17.9%(半凝固型构式)、19.3%(短语型构式)、14.9%(复句型构式).
作者:黄海斌 常宝宝 詹卫东
作者单位:北京大学中国语言文学系,北京100871北京大学计算语言学教育部重点实验室,北京100871北京大学中国语言文学系,北京100871;北京大学计算语言学教育部重点实验室,北京100871;北京大学中国语言学研究中心,北京100871
母体文献:第十八届中国计算语言学大会暨中国中文信息学会2019学术年会论文集
会议名称:第十八届中国计算语言学大会暨中国中文信息学会2019学术年会
会议时间:2019年10月18日
会议地点:昆明
主办单位:中国中文信息学会
语种:chi
分类号:
关键词:现代汉语 构式成分 自动标注 高斯混合模型
在线出版日期:2021年8月24日
基金项目:
相似文献
相关博文
- 文件大小:
- 533.49 KB
- 下载次数:
- 60
-
高速下载
|
|