首页 >> 语言学 >> 语言应用
数据时代与语言产业
2021年06月30日 17:27 来源:《山东师范大学学报:人文社会科学版》2020年第5期 作者:李宇明 字号
2021年06月30日 17:27
来源:《山东师范大学学报:人文社会科学版》2020年第5期 作者:李宇明

内容摘要:

关键词:

作者简介:

  内容提要:数据时代的标志是把数据看作生产要素,数据价值由科学领域进入社会经济制度领域。语言数据包括四类:语言的符号系统;语言负载的信息;由语言延伸的各种符号与代码;生活、艺术与科学技术符号。无论是从量上还是从质上看,语言数据都是最为重要的数据,因而也是重要的生产要素。包括语言数据产业在内的语言产业将成为数字经济的一方支柱。随着语言智能的发展,语言逐渐为人和机器两个“物种”所拥有;信息空间是人类正在建造的第三空间,随着信息空间、语言智能和物联网的发展,语言将承担起“万物关联对话”的任务,在社会、信息、物理三元空间中发挥互动作用。新基建应是“智能新基建”。语言学的研究对象应当是具有“双物种”属性、在三元空间运行的语言;要考虑用“新文科”的思路培养适应数据时代需求的语言人才。

  关 键 词:数据;语言数据;语言产业;数字经济;生产要素;新基建;新文科;三元空间

  作者简介:李宇明(1955-),男,河南泌阳人,首都师范大学文学院特聘教授,北京语言大学教授,博士生导师(北京 100089)。 

  基金项目:本文为作者主持研究的国家社会科学基金重点项目“中国学前儿童语料库建设及运作研究”(19AYY010)、教育“十四五”规划研究课题项目“‘十四五’时期语言文字事业发展研究”的阶段性成果。

  数据(data)是观察客观世界和人类社会得到的各种原始素材,通过对素材的加工处理获取信息、建构知识、生发思想。人类社会自形成以来就有数据存在,并为人类知识体系和思想观念的形成发展不断作出贡献。随着计算机的产生和发展,数据的作用更加重要,科学地位更加凸显,社会也对其更加重视。在计算机科学中,所有能输入计算机并被计算机程序处理的符号,都可称之为数据,包括数字、文字、符号、语音、图像、视频,等等。计算机所形成的网络,为社会构建了一个虚拟的网络空间;计算机在数据收集、处理上表现出强大功能,特别是通过大数据学习而不断挖掘知识、获取智能,促进人工智能的快速发展和广泛的社会应用,突出了数据的科学意义。2019年10月,党的十九届四中全会将数据与劳动、资本、土地、知识、技术、管理并列为第七大生产要素,作为生产要素的数据可以通过市场“按贡献取酬”。这是重大的理论创新,体现着对信息化社会的本质认识,也是社会进入“数据时代”的标志。本文讨论数据作为生产要素的意义、语言数据与生产要素的关系、语言智能与人类正在建造的“第三空间”、数据时代的语言产业问题等。目的在于认识语言数据在数字经济发展中的意义,语言学要以新文科的思路为数据时代培养人才。

  一、数据成为生产要素

  数据的价值首先被科学家所认识,特别是被计算机专家和信息专家所认识。计算机与信息科学是当今的先锋学科,对社会发展影响巨大,当今政府常会关注这类学科的发展动向,并及时利用公权力支持这些学科的发展,以便为本国的经济社会发展赢得机遇。因此,政府也会从这些学科领域认识到数据的价值,数据的意义由此从科技领域转入社会领域。

  政府对于数据的认识,可以分为两个层面:第一,推进科学技术发展;第二,推进经济社会发展。第一层认识的结果是加大科技投入,改进科技政策;第二层认识会在第一层认识和行动的基础上,进而改进经济发展政策和社会经济分配政策。政府的这两个认识层面,也代表着数据认识的两个阶段。当政府有了第二个层面的认识,看到数据的生产要素性质时,社会就进入了“数据时代”。

  (一)各国政府的“数据行动”

  在移动网络和人工智能快速发展的时代,各国政府都十分关注数据及其相关问题,积极采取一系列与数据相关的政府行动。有学者曾较为全面地介绍过这方面的情况①:

  2017年3月,英国发布《英国数字化战略》,提出要释放数据在英国经济中的重要力量,提高公众对数据使用的信心。2018年,英国又发布《数字宪章》《产业战略:人工智能领域行动》《国家计量战略实施计划》等。2018年,美国发布《数据科学战略计划》《美国国家网络战略》《美国先进制造业领导力战略》等;欧盟发布《欧盟人工智能战略》《通用数据保护条例》《非个人数据在欧盟境内自由流动框架条例》《促进人工智能在欧洲发展和应用的协调行动计划》等;法国发布《法国人工智能发展战略》《5G发展路线图》《利用数字技术促进工业转型的方案》等;德国发布《联邦政府人工智能战略要点》《人工智能德国制造》《高技术战略2025》等。

  2015年7月,印度提出“数字印度”倡议,计划以“印度制造”和“数字印度”两驾马车驮载国家未来。2017年7月,俄罗斯发布《俄罗斯联邦数字经济规划》。韩国早就提出要建设“数字政府”,要求管理网络化、办公自动化、政务公开化、运行程序优化,从而使政府决策科学化、社会治理精准化、公共服务高效化、政府治理民主化。2017年,韩国行政自治部和信息化振兴院共同发布《2017年电子政府10大技术趋势》,宣布将数字政府逐渐发展成为结合数据分析、机器人技术、提供更周到服务的“以数据为中心的政府”。2018年,日本发布《日本制造业白皮书》《综合创新战略》《集成创新战略》《第2期战略性创新推进计划(SIP)》等,详细阐述了推动数字科技和数字经济发展的行动方案。这些行动方案,充满着“数据、数字、智能”等字眼。

  (二)数据的生产要素属性的认识历程

  前述各国政府的“数据行动”,其认识基本上还都在推进科学技术发展的第一层面,但也开始触及推进经济社会发展的第二层面,但并未明确把数据列入生产要素。生产要素的认定,与生产力发展水平和经济制度密切相关,也与人们的思想认识水平相关。一方面,数据具有生产要素的性质,只有信息化发展到一定阶段才能成为现实,才能被人认识;另一方面,只有对信息化社会经济发展形态具有洞察力的社会集团,才能率先认识,及早布局。

  2017年12月8日,习近平同志在中共中央政治局第二次集体学习时提出:“要构建以数据为关键要素的数字经济。建设现代化经济体系离不开大数据发展和应用。我们要坚持以供给侧结构性改革为主线,加快发展数字经济,推动实体经济和数字经济融合发展,推动互联网、大数据、人工智能同实体经济深度融合,继续做好信息化和工业化深度融合这篇大文章,推动制造业加速向数字化、网络化、智能化发展。要深入实施工业互联网创新发展战略,系统推进工业互联网基础设施和数据资源管理体系建设,发挥数据的基础资源作用和创新引擎作用,加快形成以创新为主要引领和支撑的数字经济。”②这段话有两层意思:第一,数据是数字经济的关键要素;第二,如何发展数字经济。这些论述已经超越了为推进科学技术发展而关注数据,而是将数据问题向经济制度方向引领。

  2018年4月13日,“首届数字中国建设峰会”的数字经济分论坛在福州召开。2018年5月26-29日,中国国际大数据产业博览会在贵阳举行。2018年9月25日,江苏互联网大会在南京举行。2019年12月10日,第六届中国国际大数据大会在北京举行。这些会议都突出了“数据是数字经济的关键要素”这一话题。特别是2018江苏互联网大会,工业和信息化部总经济师王新哲到会致辞。王新哲在致辞中强调:“以数据作为关键生产要素的数字经济正在成为继农业经济、工业经济之后的新型经济形态。”至此,人们确认了两个基本认识:第一,数字经济是继农业经济、工业经济之后的新型经济形态;第二,数字经济的关键生产要素是数据。

  2019年10月28-31日,党的十九届四中全会召开。全会提出,“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”。这是对数据具有生产要素性质的首次明确表述,把数据与劳动、资本、土地、知识、技术、管理并列为第七大生产要素,可以通过市场按贡献取酬。这是重大的理论创新,体现着对信息化社会的本质认识,是在数字经济快速发展背景下经济制度的与时俱进。

  2020年3月30日,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》(以下简称《意见》)发布,主要对土地、劳动力、资本、技术、数据等要素的市场配置提出了要求。③在第六款“加快培育数据要素市场”中,《意见》提出了三条:“(二十)推进政府数据开放共享。”“(二十一)提升社会数据资源价值。培育数字经济新产业、新业态和新模式,支持构建农业、工业、交通、教育、安防、城市管理、公共资源交易等领域规范化数据开发利用的场景。发挥行业协会商会作用,推动人工智能、可穿戴设备、车联网、物联网等领域数据采集标准化。”“(二十二)加强数据资源整合和安全保护。探索建立统一规范的数据管理制度,提高数据质量和规范性,丰富数据产品。研究根据数据性质完善产权性质。制定数据隐私保护制度和安全审查制度。推动完善适用于大数据环境下的数据分类分级安全保护制度,加强对政务数据、企业商业秘密和个人数据的保护。”第七款第二十五条规定,“充分体现技术、知识、管理、数据等要素的价值”;第八款第二十六条规定,“引导培育大数据交易市场,依法合规开展数据交易”。

  《意见》是在“数据是生产要素”的判断之下作出的生产要素市场化的安排,不仅为数据作用的充分发挥创造了有利的市场配置的体制机制与环境,而且也加固、加深了“数据是生产要素”的认识。

  二、语言与生产要素的关系

  人类观察世界所形成的数据,可供计算机处理的数据,80%都是语言数据,故而语言数据是最为重要的数据。语言与其他生产要素,如劳动、资本、知识、技术、管理等,也有密切关系。认识语言与生产要素的关系,有利于在数据时代自觉地、最大限度地获取语言红利,对于语言学研究和语言学人才培养也具有重大意义。

  (一)语言数据是最为重要的数据

  数据是信息的表现形式,亦是信息载体。随着科技与社会的进步,数据的内涵和外延都在发生变化,甚至是重大变化。但有一点可以肯定,那就是多数数据都是语言数据。语言数据主要包括如下4类内容:1.语言的符号系统。包括:语音系统、语汇系统、语法系统;文字系统;标点符号;注音符号等。2.语言负载的信息。语言包括口语、书面语、语言参与的音频、视频文件等,它们记录、负载各种信息。3.由语言延伸的各种符号与代码。如盲文、聋哑人的手语、旗语、灯语、电报代码等。4.生活、艺术与科学技术符号。如电话号码、身份证编码、银行卡号码、乐谱、数学符号、化学符号、公式、计算机编程语言等。其中,前两项是自然语言数据;后两项是人工语言数据。人工语言有时单独使用,有时与自然语言一同使用;它们或是自然语言的符号化,或是需要自然语言辅助理解,或是可以用自然语言进行阐释。

  计算机所要处理的数据,除语言数据外还有人面、人体动作、声音、气味、颜色、物象等数据,但毫无疑问,语言数据是最为重要的数据。其一,语言数据的数据量大;其二,语言数据与人类的关系较为密切;其三,语言是人类最常用、最能反映人类心智的符号系统。语言数据的计算机处理,较难也是最重要的是自然语言数据处理。计算机对语言数据的处理,如汉字识别、词语检索、自动翻译、自动写作、客户的机器语言服务等,每前进一步,就会产生新的语言产业,推进社会前进一大步。

  数据是生产要素,那么,语言数据是最为重要的数据,也应当属于生产要素范畴。2019年12月17日,“第二届语言智能与社会发展论坛”在北京语言大学举行,论坛主题为“智能写作的社会影响及其伦理、法律问题”。闭幕式上,笔者就曾谈及“作为生产要素的语言数据”问题。④2020年5月17日,那顺乌日图领衔成立“东北亚语言资源数字化平台”,笔者作为平台学术委员会主任在“主任寄语”中指出:“语言数据是信息时代的生产要素,如同土地之于农民,机器之于工人,计算机通过对语言数据的加工学习可以获得知识与智能,从而去创造人类的新生活。”《光明日报》2020年7月4日第12版,刊载李宇明《语言数据是信息时代的生产要素》一文,这是中国的重要媒体首次发表语言数据是生产要素的观点。⑤

  (二)语言与其他生产要素的关系

  语言是人类最为重要的交际工具和思维工具,是人类文化和信息的最为重要的负载者,同时也是文化最为重要的建构者和阐释者。所以,不仅语言数据是“数据”这一生产要素的组成部分,而且语言也与其他一些生产要素发生各种各样的关系,发挥各种各样的作用。

  语言与劳动、知识、技术、管理等生产要素的关系十分密切。语言经济学把语言看作人力资本,语言能力是重要的劳动力,特别是智力为主的劳动岗位,尤其是服务产业,语言能力是比体力更为重要的劳动力。⑥语言能力薄弱或有语言障碍的人群,常常会形成社会贫困群体。

  语言不仅是如索绪尔所说的“符号系统”,语言也是“知识”的载体。⑦知识学习需要通过语言,知识储备需要脑神经语言系统的运作,知识的运用与创造也主要是通过语言。就技术而言,语言技术本身就是技术的一部分,特别是以信息化为主的现代语言技术,在技术体系中的地位更为重要,越是智能化的技术,越是与语言的关系密切;各技术门类的名词术语、各个产业的技术规范,都是用语言制定、表现出来的,用语言进行传授的;语言对于技术的扩散与创新,也具有很大影响。语言与“管理”的关系就更为密切,因为语言能力是管理能力的重要组成部分,也是管理能力的体现;管理的具体实施,几乎离不开语言。

  语言与“土地、资本”仿佛没有多大关系。但是,张振兴在2018年9月“世界语言资源保护大会”上所作的《汉语方言资源应用随想》报告,揭示了语言与资本流动的关系,说明语言也是一种投资环境⑧:

  1.据国家统计报告1987年数据:香港地区投资内地,65%资金流向珠江三角洲地区,12%流向潮汕地区;台湾地区投资内地,78.9%资金流向福建,闽南地区占其48%。

  2.据《福建省统计年鉴2017》报告,福建省实际利用外资,2015年为768,339万美元,2016年为819,465万美元,其中来自中国台湾、香港地区、印度尼西亚、新加坡的外资2015年占68.9%,2016年占64.5%。反向投资情况也大致如此,福建省对外投资,2015年是128,640万美元,其中投向印度尼西亚、新加坡等东南亚国家为72.43%。

  3.据《2016年度中国对外直接投资统计公报》数据:2016年,中国向亚洲地区直接投资流量为1302.7亿美元,占当年对外直接投资流量的66.4%;其中对香港的投资为1142.3亿美元,占对亚洲投资的87.7%;对东盟10国的投资为102.8亿美元,占对亚洲投资的7.9%。

  张振兴分析这些数字背后的语言原因:中国香港地区与珠江三角洲言语相通;中国台湾地区与闽南地区同言同语;东南亚地区,尤其新加坡、印度尼西亚等地到处都有说闽南话的华人华侨,福建人在那里做生意很少有语言障碍。

  语言与各生产要素都有密切关系,既是多个生产要素的构成部分,又是生产要素发挥作用的重要助力,甚至是基础条件。随着数字经济的发展和语言智能水平的不断提高,语言数据的生产要素属性会越来越清晰,语言对各生产要素的影响也会越来越显著。

  三、语言智能与人类的三元空间

  语言智能是人工智能的重要组成部分,是让计算机拥有人类的语言智能。人工智能是对人类智能的模仿。人类智能主要表现在思维能力上。语言是人类思维活动的凭借,是思维成果贮存、传播的载体,故而语言能力决定着思维水平。人类自幼成长,通过获取语言促进思维发展,因各种原因而未能较好获得自然语言者,如聋哑人,其思维水平便严重受限。人类的书面语学习和外语学习,大大提升了思维品质,掌握了书面语、外语的人比文盲和单语者更具思维优势。尽管学界对思维与语言的关系还有不少争论,但语言在思维中的重要地位不容否认。语言智能是人类最为重要的智能,让计算机获取人类的语言智能是人工智能的重要任务。

  人工语言智能(以下称为“语言智能”)是人工智能皇冠上的明珠。20世纪50年代,人类进行机器翻译的尝试,由此开始了训练机器进行语言信息处理的进程。中文信息处理经过字处理、词处理阶段的艰难行进,现已顺利步入句处理、篇章处理的话语处理阶段,努力让计算机具有语言智能。⑨这些语言信息技术,促进着信息检索、自动翻译、机器写作、作文自动批改、人机对话等的快速发展。语言智能发展的水平,可以智能写作为例窥其全貌。

  (一)以智能写作为例

  智能写作可细分为辅助写作和自动写作两类。辅助写作是从素材收集、文章撰写、文本检校三个方面辅助人类写作,提升写作效率,如提供领域热点事件、引文推荐、写作润色、文本纠错、自动摘要等。自动写作是机器自主完成文章写作。2018年6月30日,中国智能写作产业联盟在北京成立,首批理事单位有中国声谷、科大讯飞、金山软件等17家。⑩当时,几乎所有互联网和AI巨头都投入智能写作市场。据分析,智能写作需求最强的有4大市场:内容资讯、金融财经分析、数字营销、行政办公。(11)下面,从6个方面来描述智能写作的应用情况:

  1.新闻智能写作

  新闻智能写作的软件,有新华社的“快笔小新”、第一财经的“DT稿王”、今日头条的“张小明”、腾讯的“Dreamwriter”、创作大脑、Giiso、SoccerBot等。新闻智能写作,不仅提供新闻写作的智能机器人,而且结合多种技术,在新闻生产的策划、采编、发稿的全流程中为新闻从业者提供辅助支撑。新闻从业者结合机器撰稿的优势,进行更有创造力的工作。

  2.应用文智能写作

  应用文智能写作的范围很广,如通知通告、总结汇报、招投标文件、专利文件、规范标准文件等。当前主要的应用文智能写作软件,有微软、金山、搜狗等企业的产品,还有妙笔、世通亨奇、Giiso等。

  3.诗歌智能创作

  诗歌(包括对联)的创作需具备三大要素:情感表达;字眼搜寻;文句表达。计算机与之对应的技术是:情感计算;语义计算;文本生成。当然还离不开一定规模的语料库。当前较为有名的写诗能手有:清华九歌、微软小冰、薇薇写诗、小封诗歌、春联机等。其中有写古体诗的,有写新诗的,有写春联的。诗歌智能创作仍处在模仿阶段,但所写诗歌常有出人意料之句。诗歌智能创作或将催生新的人工智能门类。

  4.小说智能创作

  小说智能创作的软件有:壹写作、星达、小蜜蜂、神码AI、捏勺AI、《XXX》写作神器、“狗屁不通”文章生成器等。2016年3月,日本公立函馆未来大学的松原仁团队,根据预设内容自动生成了小说《机器写小说的那一天》。这部小说参赛,竟然瞒过了当时的人类评委,成功入围第三届日经新闻社“星新一奖”比赛。“狗屁不通”文章生成器,2019年竟然火遍网络。

  5.用户评论

  用户评论也可归入应用文智能写作,但因其在当今网络上使用广泛,故可以单独立目。这方面的软件有:蓝色光标、Persado、Phrasee、返利机器人、vatti(华帝)小V等。用户评论是应用情感计算,批量生成可定制的评论,通过评论来塑造商品、企业、组织等形象的应用。用户评论往往不是真正的用户发出的评论,这是一个灰色地带,逐步形成灰色产业,对社会生活存在威胁。(12)

  6.社交机器人

  社交机器人是具有智能写作能力的社交网络账号,以“人”的身份在社交网络中活动,与人进行商务、聊天等社交活动。社交机器人是智能写作技术在语言应用上自主性最强的一种形式,目前集中用于商业营销、客户服务、儿童教育等领域。值得注意的是,它也开始涉足政治宣传,可能会影响到人类的政治生活,比如选举态度等。

  智能写作受制于预设的算法和数据库,具有结构化、模式化、同质化的表现。其语言特点是:字句堆砌复叠,段落连接不畅;数据详尽冗杂,常爱引经据典,行文缺乏生活常识,缺乏情感色彩;长于场景描摹,拙于议论叙事,事实与观点常出现逻辑错位。智能写作尽管离人类写作、阅读习惯还有很大距离,但已经呈现把人类从“笔耕口传”、高创作成本、高传播壁垒中解放出来的曙光。当然,智能写作技术在工商业、公共管理和文化传承等领域不加限制地应用,也将造成现实损失,产生伦理焦虑,因而必须直面智能写作带来的语言不规范、语言暴力、语言偏见、传播虚假信息、扰乱日常生活乃至社会秩序等问题。(13)

  (二)语言的双物种性

  机器具有语言智能了吗?这是较难回答的哲学层面的问题。第一,何谓智能?第二,如何判定机器具有语言智能?依照图灵测试原理,会发现机器在许多语言行为上可以“蒙人过关”,达到图灵测试的某种要求,比如机器写的一些新闻、诗歌、小说、用户评论,机器翻译的一些作品等。因此可以说,目前机器已经具备了初步的语言智能,随着人工智能技术的发展,机器的语言智能会逐步提升,不断地接近人类。

  语言是人类独有的符号系统,这是语言学家的经典认识。当然,他也有关于动物语言的研究,动物界的确存在信息交换系统,但与人类语言相比,可谓云泥之别。搁置动物语言不论,可以说,语言信息处理之前的语言学,皆把语言看作人类独有的。但是语言智能的发展,使语言已为或将为人类和机器这两个“物种”共同享有。

  过去的语言生活,多数都是“人—人”交际,其间一般不使用交际工具。这种“裸装备”的直接的“人—人”交际,现在还在应用,但是重要的语言交际大都采用“人—机—人”交际。其实,“人—机—人”交际是概括的说法,其内涵包括A、B两大类4小类交际模式:

  A.“人-机—机—人”交际;B1.“人-机”交际;B2.“机—机”交际;B3.“机—人”交际;A是B的混成,可以分解为“人—机”交际、“机—机”交际、“机—人”交际三个类型。这些交际都离不开具有语言智能的机器,如果这些机器是“人形机器人”,那么,机器拥有语言智能这一现象,就会看得更为明显。故而,现代的语言学应当把语言看作人与机器两个“物种”所有,是“双物种”的语言学。这是语言学可以超越过往获得大发展的学理基础。

  (三)人类的三元空间

  人类形成之前,世界就是自然界,只是一个物理空间。人类的形成与发展,在物理空间中生长出一个社会空间。语言与社会空间一起成长,大约距今3-5万年前的旧石器时代,人类已有较成熟的口头语言,口语的载体是声波。大约距今5,000-5,500前,文字在两河流域产生,语言有了新载体光波。20世纪20年代,广播、电视相继出现,有声媒体使语言有了第三大载体电波。20世纪末,互联网商业化,语言信息处理出人意料地快速进步,人类开始建构一个新空间——网络空间。(14)

  网络空间也常称为“虚拟空间”“信息空间”。称为虚拟空间,是强调其虚拟性质,网名可以再命,性别可以隐匿甚至更换,地点可以主观臆拟。早期,虚拟空间与现实空间的确有较大不同,由实入虚,如同转世,人的行为方式可以脱离现实空间再行塑造。但随着网络实名化措施的实施,随着虚拟空间对现实空间的影响加大,虚拟空间与现实空间的关系越来越密切,故而有人觉得虚拟空间并不虚,不主张再叫虚拟空间。称为信息空间,是强调这个空间的特性是信息化的产物,主要是进行信息的运行与传播,与信息化时代也很契合。也有专家认为,信息不是某一空间所独有,社会空间也依赖信息,甚至物理世界也需要信息交换,同类动物之间、不同动物之间都有信息交换,同类植物之间有信息,甚至天体之间也存在信息,所以也有专家认为信息空间的名称也不合适。

  

  

  名称之争往往伴随着对于“实”的认识分歧。一个新事物的问世常会伴有多个名称,随着事物的发展,随着认识的深化,名称就会逐步约定俗成,固定下来。笔者也曾经使用过虚拟空间等多个名称,这里姑且从众,称之为信息空间。把信息空间独立出人类的社会空间、与物理空间和人类社会并行而立,这便是人类正在生活的“三元空间”,如图1所示。

  首先提出三元空间的,就我所掌握的资料看是潘云鹤。2019年11月3日,潘云鹤在中国人民大学作《人工智能2.0与数字经济》报告,指出人类正由传统的物理空间、人类社会二元空间,逐步进入物理空间、人类社会、信息空间所构成的三元空间。2019年12月,刘挺在“第二届语言智能与社会发展论坛”上也阐述了信息空间的问题。2020年5月,笔者也向赵沁平请教三元空间的问题。对如何看待这个第三空间,赵沁平有他的看法。

  总之,信息空间是一个正在发展的空间,其结构和运行机理还在被逐步认识中,也还在被逐渐完善中。但有一点相对明确,那就是信息空间主要是被数字化、智能化了的语言空间;除却语言,信息空间不可能存在,即使存在也无意义。语言过去是在社会空间中使用,如今是在社会空间、信息空间中使用。语言不仅具有双物种性,而且还具有双空间性。

  就发展趋势看,语言并不满足于它的双空间性,它还将跨入物理空间。物联网和语言智能的进一步发展,只要在需要驱动的目的物上植入语言感应器,人就可以通过具有语言智能的机器与万物关联、与万物对话,使万物具有语言智能,如图2所示。无人驾驶的汽车、轮船、飞机,已经展示了人与物对话的雏形。

  四、语言产业的发展

  笔者认为,“语言产业是以生产和提供语言产品为主的行业。语言产品的形态、语言产业的业态决定着语言产业的基本面貌,是语言产业研究的基础范畴”。当时,把语言产品的形态归纳为七种:语言、文字及相关符号;语言知识产品;语言文字艺术产品;语言技术产品;语言医疗康复产品;语言咨询培训服务;语言人才。当时也指出:“语言产品的形态,还可以有其他描述方式。同时,随着时代的发展也可能还会出现新的语言产品形态。比如,信息化时代,语言数据显得特别重要,机器翻译需要大量的双语数据,机器语言理解需要大数据的训练等。语言数据也可能成为一种语言产品形态。”(15)现在看来,的确应有语言数据产品,应有生产这种产品的语言数据行业。

  (一)语言数据产业

  语言数据产业,是对语言数据进行收集库存、管理经营、加工应用的行业。语言数据产业涉及许多业态,如语言数据的收集、语言数据库的建设、语言数据的云存储、语言数据的计算机应用、语言数据产品的营销、语言数据及其各种规范标准、语言数据产业人才的培养等。这些业态代表着对这一新兴产业的当下认识,其中蕴含并催生着诸多语言数据的职业,通过这些产业和职业,可以生产出各种形态的语言信息产品。

  语言数据产业的发展,首先需要有语言意识。需从语言经济学、语言产业经济学等角度看待语言数据和语言产业,看到语言数据、语言数据产业在数字经济发展中的重要作用。其次,需要市场驱动。自动翻译及前述智能写作的发展,便显示出市场的作用;中共中央、国务院的《意见》也有许多制度安排。市场运作需要对语言数据产品进行分类与规范,以便将其货币化。通过市场满足供求关系,实现语言数据作用的最大化和语言数据产业效益的最大化。

  比如语料库,现在各有关研究单位几乎都有语料库,甚至每个语言研究课题都有语料库,但是这些语料库基本不能与同行分享,不能与社会共享。个中原因很多,最重要的原因有二:

  第一,产权不好确定。语料库收集的都是他人的“语言成品”,或是作家著作,或是网络言论,或是发音合作人的话语,或是使用某种软件生成的语言数据等。语料库制作者即便是免费与同行或社会共享,也可能发生产权官司。

  第二,没有统一的语料库标注规范。比如语料库应有哪些元数据、字形规范、词语切分规范、词性标注规范,等等。

  一个像样的语料库,其建构成本巨大,但发挥作用有限,他人需要重复建设,造成巨大浪费。语料库只是一例,语言数据产业此类问题甚多,亟需研究解决。要建立语言数据产品名录、语言数据产品规范、语言数据产业与市场的法规政策、语言数据职业规范及伦理道德等。社会已经进入信息时代,过去的很多规矩都是平面媒体时代的,需要与时俱进,需要有创新意识。创新与失误是一根藤上的瓜,有创新意识还需有容错意识,能够容错才敢于创新。

  语言数据适应计算机应用是重要的学术问题。语言数据与计算机的接口是形式化,形式化是解决语言数据与计算机处理“最后一公里”的问题。信息时代,网络已经是最为庞大的语言数据库,利用网络获取语言数据是可能的也是必要的。但是,网络数据是不同时代、不同文化、不同领域的集聚,甚至还有机器生产的大量数据。要利用网络数据,就有一个“洁洗”的问题,通过洁洗去除数据的意识形态偏见、文化偏见以及不良用语。现在,许多数据公司都在数据洁洗方面花了不少工夫。

  此外,需要明晰语言数据的知识产权,保护语言数据涉及的各方权益。重视语言数据的隐私权,妥善处理语言数据可能出现的隐私泄露问题。

  (二)其他语言产业

  任何产业都有一定的业态。贺宏志、陈鹏《语言产业导论》是我国最早研究语言产业的著作,该书把语言产业划分为九大业态:(1)语言培训业;(2)语言出版业;(3)语言翻译业;(4)语言文字信息处理业;(5)语言艺术业;(6)语言康复业;(7)语言会展业;(8)语言创意业;(9)语文能力测评业。(16)可以预见,在数据时代,这些语言产业也会有更浓厚的语言数据意识。

  第一,更好地获得语言数据。语言产业的生产往往离不开语言数据,语言数据是许多语言产业的生产资料。比如,语言培训需要教材,教师需要参考资料;自动语言翻译需要双语数据库;语言会展业展出的都是语言产品,其中包括语言数据、语言数据服务等。语言产业的发展,需要利用网络、现代语言信息技术和语言数据市场去更及时、更便利地获取最适合的语言数据。

  第二,利用好自己产出的语言数据。语言产业生产的语言产品,有许多就是语言数据。比如辞书,看起来是在编纂一条条词语,其实每个词条都是优质的语言数据,词条整合起来就是某一方面优质的知识系统。这些优质的语言数据,辞书编辑反复加工过,经过最为严格的“洁洗”,是训练计算机提升智能的珍贵数据,也是计算机进行知识挖掘的珍贵数据。再如语言教学、语言测试等,都能生成有特殊作用的语言数据,比如经过批改的语言试卷,对于促进机器获取语言智能、促进自动评分技术的发展,都具有重要意义。但是,这些语言数据并没有得到很好利用,甚至被丢入废纸堆中。

  瑞士语言产业对该国GDP的贡献近10%;我国正值数据可以成为生产要素的时代,语言数据产业将有较大发展,其他语言产业亦可借数据之便,大幅提升经济能量。可以预测,语言产业、语言职业将能够创造更为显著的经济成果,成为数字经济的一方重要支柱。

  (三)智能“新基建”

  2018年12月19-21日,中央经济工作会议在北京举行。会议重新定义了基础设施建设,把5G、人工智能、工业互联网、物联网定义为“新型基础设施建设”,简称“新基建”。此后,新基建的内容不断丰富,面貌也逐渐清晰。

  在各种基础设施建设中,重视信息网络、数据中心的建设,能够让数据像交流电、自来水、天然气一样在千家万户奔流。但是,就三元空间的发展前景来看,新基建仅有“联通”是不够的,还需要智能;不仅做到“万物关联”,还要向“万物关联对话”的方向努力。也就是说,在新基建中,不仅重视“联通”,还要重视“智能”,重视“对话”,亦即让基建物具有“智能”,特别是应当具有语言智能,以便实现人与万物的关联对话,构建有智能的物联网。

  具有智能、特别是语言智能的基建,才是名副其实的新基建,为强调起见,或可称为“智能新基建”。如果说目前的“新基建”还主要是为数据、为智能铺设通道,那么,“智能新基建”更看重的是让基建物具有智能,促进“人—机—物”三者的互动,特别是通过语言进行互动。语言交际由“人—人”交际、“人—机—人”交际进一步发展为“人—机—物—人”的更为复杂的交际。在“智能新基建”的思维框架中,语言产业将发挥更为显著的作用。

  (四)新文科建设

  语言已经不仅仅是人文现象,它是“具有声光电三大媒介、为人类与机器两个‘物种’共享、将应用在社会、信息、物理三元空间中”的事物。语言学作为研究语言及其相关问题的科学,也应当是横跨文理工的综合学科,由此可以说,“语言学是一个学科群”(17)。

  2017年10月,美国希拉姆学院提出“新文科”的教育理念,对其29个专业实行重组,把新技术融入哲学、文学、语言等课程中。这反映了学科交叉融合的时代大趋势。我国也在积极推进“新工科、新医科、新农科、新文科”建设,很多高校推进“学部制”改革,在体制上实现学科交叉。根据语言的性质,就应当依照“新文科”的思路发展语言学。综合、交叉、融入新技术的语言学,能够更好地适应“数据是数字经济的关键生产要素”的时代命题和经济制度,促进知识经济的发展,推进智能化“新基建”的发展。

  2020年7月29日,全国研究生教育视频会议召开,部署新技术时代高端人才培养问题。会后出台文件,把交叉学科新增为第14个学科门类,说明了对人才进行大交叉、大融合培养的重要性和急迫性。语言智能是诸多学科的交叉,需要交叉学科培养出来的人才作支撑,而语言学人才培养方面存在的问题不少,应引起学界和学科规划者的重视。当然,新基建和知识经济的谋划者,也应当充分重视语言和语言学,获取语言学的科学红利和社会红利。

  由于数据是人工智能、数字经济的关键要素,近些年世界各国都在开展“数据行动”。数据的重要性由科学家传递给政府,政府的数据意识由“推进科学技术发展”到“推进经济社会发展”,把数据看作可与劳动、资本、土地、知识、技术、管理并列的生产要素。认识到数据的生产要素性质,人类就开始进入数据时代。

  语言数据主要包括:语言的符号系统;语言负载的信息;由语言延伸的各种符号与代码;生活、艺术与科学技术符号。这些类型无论是量上还是质上都是最为重要的数据,故而也是重要的生产要素。语言还与劳动、资本、知识、技术、管理等生产要素具有密切关系。语言及语言数据将成为数据时代的重要生产力。

  过去,语言为人类一个物种所独有。随着语言智能的发展,机器逐渐在获取人类的语言智能,“人—人”交际发展为“人—机—人”的混成交际,语言逐渐为人与机器两个“物种”所有。在人类形成之前,世界就只有物理空间。人类的形成与发展,在物理空间中生长出社会空间。而今,人类正在建造出第三空间——信息空间。语言过去只在社会空间中使用,现在是在社会空间、信息空间双空间中使用。随着语言智能和物联网的发展,语言还将跨入物理空间,在三元空间中发挥信息交互作用。数据时代,由于语言数据的数据性质,由于语言与劳动、资本、知识、技术、管理等生产要素的关系,语言产业会得到更大发展。首先发展的是对语言数据进行收集库存、管理经营、加工应用的语言数据产业,其他语言产业也会有更浓厚的语言数据意识,更好地获得语言数据,更好地利用自己产出的语言数据。当前的基本建设是“新基建”,为数据铺设通道,促进万物关联。但仅重视“联通”远远不够,还要让基建物具有“智能”,特别是应当具有语言智能,以便实现人与万物的关联对话,促进“人—机—物”三者的语言智能互动。这种新基建是智能新基建,是新基建的发展方向。

  语言学常常被看作是人文科学,而且与“文学”组成一个一级学科。严格来讲,语言学人才是在硕士阶段才开始进行专业培养的。在人工智能快速发展、语言数据成为重要生产要素的今天,在语言发展为人与机器“双物种”所有,将在社会、信息、物理三空间中运作的今天,为适应语言智能、语言产业和智能新基建的发展,语言学必须树立“新文科”意识,通过学科交叉培养数据时代所需要的人才。可以预测,语言产业、语言职业将能够创造更为显著的经济成果。语言学不仅要自觉适应新形势,新基建和知识经济的谋划者也应当加强语言意识,像重视数据那样重视语言和语言学问题。

  ①陆俭明:《顺应科技发展的大趋势语言研究必须逐步走上数字化之路》,《外国语》2020年第4期。

  ②《习近平主持中共中央政治局第二次集体学习》,中华人民共和国中央人民政府网站:http://www.gov.cn/guowuyuan/2017-12/09/content_5245520.htm。

  ③中共中央、国务院:《关于构建更加完善的要素市场化配置体制机制的意见》,中华人民共和国中央人民政府网站:http://www.gov.cn/zhengce/2020-04/09/content_5500622.htm。

  ④北京语言大学语言资源高精尖创新中心:《推进智能写作健康发展宣言》,第二届语言智能与社会发展论坛,2019年12月17日。

  ⑤李宇明:《语言数据是信息时代的生产要素》,《光明日报》2020年7月4日。

  ⑥张卫国:《作为人力资本、公共产品和制度的语言:语言经济学的一个基本分析框架》,《经济研究》2008年第2期;王海兰:《个体语言技能资本投资研究》,博士学位论文,山东大学,2012年;王海兰:《语言人力资本推动经济增长的作用机制研究》,《语言战略研究》2018年第2期;赵颖:《语言能力对劳动者收入贡献的测度分析》,《经济学动态》2016年第1期。

  ⑦李宇明:《中国语言资源的理论与实践》,《语言战略研究》2019年第3期。

  ⑧张振兴:《汉语方言资源应用随想》,世界语言资源保护大会会议报告,2018年9月19-20日。

  ⑨刘云、肖辛格:《中文信息处理发展简史》,北京:科学出版社,2019年。

  ⑩张俊:《中国智能写作产业联盟成立》,《中国新闻》2018年6月30日,https://baijiahao.baidu.com/s?id=1604702204279770381&wfr=spider&for=pc。

  (11)北京恒州博智国际信息咨询有限公司(QYResearch):《2020-2026中国人工智能写作辅助软件市场现状及未来发展趋势》,https://www.qyresearch.com.cn/reports/AI_Writing_Assistant_Software-p167680.html。

  (12)饶高琦:《给智能写作的快马套上科技伦理笼头》,《光明日报》2019年12月24日。

  (13)北京语言大学语言资源高精尖创新中心:《推进智能写作健康发展宣言》,第二届语言智能与社会发展论坛,2019年12月17日。

  (14)李宇明:《语言技术对语言生活及社会发展的影响》,《中国社会科学》2017年第2期。

  (15)李宇明:《语言产业研究的若干问题》,《江苏师范大学学报(哲学社会科学版》2019年第2期。

  (16)贺宏志、陈鹏:《语言产业导论》,北京:首都师范大学出版社,2012年。

  (17)李宇明:《语言学是一个学科群》,《语言战略研究》2018年第1期。

 

  

  

作者简介

姓名:李宇明 工作单位:

转载请注明来源:中国社会科学网 (责编:马云飞)
内容页广告位-中国与世界.jpg

回到频道首页
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们