内容摘要:
关键词:
作者简介:
A Research on Annotation Standard for Multilingual Database of Mongolian Language Family
作 者:宝玉柱
作者简介:宝玉柱(1954-),男(蒙古族),内蒙古赤峰人,中央民族大学蒙古语言文学系教授,博士生导师,主要从事蒙古语社会语言学和蒙古语语法研究(北京 100081)。
原发信息:《满语研究》(哈尔滨)2015年第20152期
内容提要:多语种数据库的标注,不仅要考虑对单个语言单位的分类、标注,还要考虑多种语言信息之间的标注一致性和信息互换性。有一套思想远见、前后一致的标注体系,就能够满足数据库的不同用途、数据库发展不同阶段的不同需要和不同数据库之间、同一数据库不同版本之间的兼容。
关 键 词:数据库/蒙古语族/标注规范
标题注释:【基金项目】国家社科基金重点项目(项目编号:14YY019);国家自然科学基金重点项目(项目编号:61331013)。
一、多语种数据库及通用标注规范
少数民族多语种数据库的语种一般包括少数民族语、国家通用语言、国际通用语言或区域通用语言。少数民族语(或称本地语)是被描写语言或目标语言,国家通用语言(或称国语)或国际通用语言是数据库的分析语言。以多语种数据库为基础,可以生成少数民族语单语词典、少数民族语—国家通用语言双语词典、少数民族语—国际通用语言双语词典和少数民族语—国家通用语言—国际通用语言三语词典。少数民族多语种数据库的研制,表明一个国家的语言研究,在横向研究层次上实现了从个别民族语言到国家通用语言、国际通用语言的信息贯通,在纵向研究层次上实现了通过大规模数据库建设,进入深层次、多角度研究的跨越式发展。多语种数据库的开发,是在国内国际信息通道上解决语言文字差异造成的信息阻隔问题的必要步骤。
建设数据库的最基本技术是对自然语言进行切分和标注。多语种数据库的标注,不仅要考虑对单语言单位的分类、标注,还要考虑多种语言信息之间的标注一致性和信息互换性。没有统一、前后一致的标注规范,不同语言信息之间的分类、对应、检索、反向检索、筛选、打印等操作都无法正常、有效地进行。
多语种数据库的用途是多方面的,就使用目的而言,有研究性、开发性、实用性的区别,就使用者而言,有本民族用户和跨语言、跨国界用户的区别。满足多种用户需要,则保证标注符号的通用性(跨语言性)、简易性、操作性和规范性。
多语种数据库的发展将来必然采取开放建库策略。只要规范文字编码、标注符号和数据库结构,就能够很多小型数据库资源被整合到大型数据库中。目前,世界各地的语言研究者在田野调查中制作了大量具体单语言数据库(大部分是深度标注的),如果能够有效整合这些资源,就能大大加快大型多语种语料库建设,并有效降低建库成本。







