首页 >> 专题 >> 学科专题 >> 语言学专题 >> 当汉语研究遇到人工智能 >> 汉语信息处理主要成就
语料库中汉语书面文本的自动切词
2015年09月28日 13:44 来源:《当代语言学》第3卷2001年第1期 作者:冯志伟 字号

内容摘要:语料库输入和校对之后是生语料库,还需要进行深加工,使语料库由“生”变“熟”,这样才能从熟语料库中获取蕴藏在语言中的各种知识。为了进行语料库的深加工,首先就要实现书面文本的自动切词。

关键词:冯志伟;汉语书面文本;自动切词;语料库;句法分析;信息处理

作者简介:

  语料库输入和校对之后是生语料库,还需要进行深加工,使语料库由“生”变“熟”,这样才能从熟语料库中获取蕴藏在语言中的各种知识。为了进行语料库的深加工,首先就要实现书面文本的自动切词。 

  书面汉语的句子,是连续的汉字流,词与词之间没有空白,除了标点符号之外,单词之间的界限无明显的标志。而中文的自动句法分析和语义分析,都是以单词为基本单元的。这样,书面汉语的自动切词,就成了中文信息处理的一个基本问题。 

  为了自动地找出隐藏在汉语文本中的单词,我们一般的做法是把文本中的汉字符号串与中文词典中的单词条目相匹配。主要的匹配方法有: 

  最大匹配法(maximum matching method,MM):选取包含68个汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词为止。匹配的方向是从右向左。 

  逆向最大匹配法(reverse maximum method,RMM):匹配方向与MM法相反.是从左向右。实验表明:对于汉语来说,逆向最大匹配法比最大匹配法更有效。 

  双向匹配法(bi-direction matehing method,BM):比较MM法与RMM法的切分结果,从而决定正确的切分。 

  最佳匹配法(optimum matching method,OM):将词典中的单词按它们在文本中出现频度的大小排列,高频度的单词排在前,频度低的单词排在后,从而提高匹配的速度。 

  联想一回溯法(associationbacktracking method,AB):采用联想和回溯机制来进行匹配。 

  尽管采用这些方法,某些切分有歧义的符号串(ambiguous segmentation strings,ASSs)和词典中的未登录词(unregistered words,URWs)仍然严重地影响着切词的准确性,这些问题在自动切词中必须解决。 

  ASSs有两种类型: 

  交集型歧义切分字段:例如,“太平淡”可能切为“太平”或“平淡”,“平”成为交段,从而产生歧义。 

  多义组合型歧义切分字段:例如,“马上”本身是一个词,但也可以切为“马”+“上”两个单词,而“马上”与“马”+“上”的含义不同。 

  URWs主要是专有名词,即人名、地名、机构名.它们一般在词典中没有登录。例如:“冯志伟”是一个不见经传的普通人,在词典中决不会登录;“蒂豪尼”(Tihany)是匈牙利的一个小城市,词典一般也不登录。这样的未登录词,在自动切分时将无法匹配,造成切分的困难。 

  为了解决这些问题,可以利用各种知识,特别是词类的知识.因此,如果把词类的自动标注与自动切词结合起来,将可以提高切词的精确度。 

1992,在计算机界和语言学界的共同努力下,我国制定了国家标准GB13715《信息处理用现代汉语分词规范》,这个国家标准提出了确定汉语单词切分的原则,是汉语书面语自动切词的重要依据。
   (本文摘于冯志伟(2001)“汉字和汉语的计算机处理”)

分享到: 0 转载请注明来源:中国社会科学网 (责编:王婷婷)
W020180116412817190956.jpg
用户昵称:  (您填写的昵称将出现在评论列表中)  匿名
 验证码 
所有评论仅代表网友意见
最新发表的评论0条,总共0 查看全部评论

回到频道首页
QQ图片20180105134100.jpg
jrtt.jpg
wxgzh.jpg
777.jpg
内文页广告3(手机版).jpg
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们