文档名:NMT语料库中语符不平衡度的测评研究
摘要:语符不平衡是神经机器翻译(NeuralMachineTranslation,NMT)语料库中普遍存在的现象.评估NMT语料库的语符不平衡度对提升语料库质量和翻译效果具有重要意义.针对现有的语符不平衡度测评研究在算法和分词范围上的缺陷与不足,本文提出语符分布离散度算法(DispersionofTokenDistribution,DTD),用以计算语符不平衡度,并扩大分词范围,从字符、子词和词3种粒度对语料库进行评估.实验结果表明,该算法在准确度、有效性和鲁棒性方面较以往研究有较大提升;语料库在不同分词粒度下的语符不平衡度差异很大,其中字符粒度的语符不平衡度最大,子词粒度次之,词粒度最小.
Abstract:Tokenimbalanceisacommonphenomenoninthecorpusofneuralmachinetranslation(NMT).ItisofgreatsignificancetoevaluatethetokenimbalancedegreeofNMTcorpustoimprovethequalityofcorpusandtranslationeffect.Aimingatthedefectsanddeficienciesinthealgorithmandwordsegmentationscopeoftheexistingstudiesonthemeasurementofthetokenimbalancedegree,thispaperproposesthedispersionoftokendistribution(DTD)algorithmtocal-culatethetokenimbalancedegree,expandsthewordsegmentationscope,andevaluatesthecorpusfromthreegranularity:character,subwordandword.Theexperimentalresultsshowthattheaccuracy,validityandrobustnessoftheproposedal-gorithmaregreatlyimprovedcomparedwithpreviousstudies.Therearegreatdifferencesinthetokenimbalancedegreeofcorporaunderdifferentwordsegmentationgranularity,inwhichcharactergranularityhasthehighesttokenimbalancede-gree,followedbysubwordgranularityandwordgranularity.
作者:王海波 余丽丽 王宏伟 Author:WANGHai-bo YULi-li WANGHong-wei
作者单位:浙江大学生物医学工程与仪器科学学院,浙江杭州310027浙江师范大学教师教育学院,浙江金华321004浙江大学伊利诺伊大学厄巴纳香槟校区联合学院,浙江海宁314499
刊名:电子学报 ISTICEIPKU
Journal:ActaElectronicaSinica
年,卷(期):2023, 51(10)
分类号:TP391
关键词:神经机器翻译 语料库 分词 粒度 语符不平衡度
Keywords:neuralmachinetranslation corpus wordsegmentation granularity tokenimbalancedegree
机标分类号:
在线出版日期:2024年1月17日
基金项目:NMT语料库中语符不平衡度的测评研究[
期刊论文] 电子学报--2023, 51(10)王海波 余丽丽 王宏伟语符不平衡是神经机器翻译(NeuralMachineTranslation,NMT)语料库中普遍存在的现象.评估NMT语料库的语符不平衡度对提升语料库质量和翻译效果具有重要意义.针对现有的语符不平衡度测评研究在算法和分词范围上的缺陷与...参考文献和引证文献
参考文献
引证文献
本文读者也读过
相似文献
相关博文
NMT语料库中语符不平衡度的测评研究 Research on Evaluation of Token Imbalance Degree in NMT Corpus
NMT语料库中语符不平衡度的测评研究.pdf
- 文件大小:
- 11.19 MB
- 下载次数:
- 60
-
高速下载
|
|