首页 >> 专题 >> 学科专题 >> 语言学专题 >> 当汉语研究遇到人工智能 >> 汉语信息处理主要成就
汉语语料库的自动词类标注
2015年09月28日 13:50 来源:《当代语言学》第3卷2001年第1期 作者:冯志伟 字号

内容摘要:自动词类标注的方法有两种:基于统计的方法:基于规则的方法。

关键词:语料库;自动词类标注;汉语;词类;冯志伟;文本处理

作者简介:

  自动词类标注的方法有两种:基于统计的方法:基于规则的方法。 

  采用基于统计的方法,词类自动标注过程可按如下步骤进行: 

  (l)从语料库中选出一定数量的文本,作为训练集(training set)。手工分析这个训练集,采用二元语法(digarm grammar),从中归纳出统计数据.(2)根据对训练集的语料分析得出的统计数据,构造统计模型。(3)根据统计模型去标注语料库中新的文本。(4)标注时所用的标记都记录在词典中的单词上。 

  清华大学计算机系黄昌宁等采用统计方法建立了一个自动词性标注系统,标注正确率达96.8%,自动标注的速度为每秒175个汉字。 

  对于基于规则的方法来说,最为严重的问题是兼类词。在汉语中,兼类词主要集中在动词、名词、形容词等常用词上.各种兼类现象的比例如下: 

  基于规则的方法主要根据句法、语义、上下文等语言学规则来消解兼类歧义。 

  事实上,基于统计的方法是一种经验主义的方法,而基于规则的方法则是一种理性主义的方法,我们应该把经验主义的方法与理性主义的方法很好地结合起来,并且在词性自动标注中吸收不同方法的长处。北京大学计算语言学研究所就采用这样的策略,实验结果如下:切词正确率:97.68%(封闭语料),词性标注正确率:%.06%(封闭语料),95.72%(开放语料) 

  (本文摘自冯志伟(2001)“汉字和汉语的计算机处理”) 

分享到: 0 转载请注明来源:中国社会科学网 (责编:王婷婷)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们