内容摘要:质量是科学研究的内在规定性。科学研究质量既有包括问题选择、研究方法、理论运用、结论新颖性、推理过程、书写表达等内在要求,也有可以用被引次数等定量指标测量的外在表现。高校科研评价的定量指标具有质量属性。定量指标在使用中偏离质量属性的原因包括评价实践中允许用定量指标的数量标准替代质量标准的规则导向、定量指标对科学家科研行为的误导、容易定量评价的成果对不易定量评价成果的“挤出效应”和指标自身缺陷等。加强高校科研评价定量方法与质量导向的兼容性,需要实行以定量评价指标为参考的代表作同行评价制度;适当减少定量评价使用范围;实施定量指标质量标准对数量标准的单向替代;加强个性化数据平台建设,提高定量评价指标基础数据质量。
关键词:高校;科研评价;质量导向;定量指标
作者简介:
作者简介:朱军文,上海交通大学高等教育研究院副研究员,博士生导师;刘念才,上海交通大学高等教育研究院院长、教授,博士生导师,上海 200240
内容提要:质量是科学研究的内在规定性。科学研究质量既有包括问题选择、研究方法、理论运用、结论新颖性、推理过程、书写表达等内在要求,也有可以用被引次数等定量指标测量的外在表现。高校科研评价的定量指标具有质量属性。定量指标在使用中偏离质量属性的原因包括评价实践中允许用定量指标的数量标准替代质量标准的规则导向、定量指标对科学家科研行为的误导、容易定量评价的成果对不易定量评价成果的“挤出效应”和指标自身缺陷等。加强高校科研评价定量方法与质量导向的兼容性,需要实行以定量评价指标为参考的代表作同行评价制度;适当减少定量评价使用范围;实施定量指标质量标准对数量标准的单向替代;加强个性化数据平台建设,提高定量评价指标基础数据质量。
关 键 词:高校 科研评价 质量导向 定量指标
从数量扩张向质量提升转变是我国高校科技创新面临的阶段任务,也是加快内涵发展的题中之意。科研评价作为科研管理手段之一,在推动高校创新转型中具有重要导向作用。但是,我国的科研评价现状尚不令人满意。一方面,同行专家评价中的“黑幕”不时被揭开,引发对学术腐败的声讨;另一方面,定量评价方法被指责为科研泡沫的罪魁祸首。[1]以维护科学自主性和坚持科学自治理想为借口的同行评议,成为科研评价的主要方法具有天然合理性。[2]但是定量评价方法则遭遇是否还具有存在必要性的质疑。这种质疑主要基于对定量评价以数量为导向忽视质量的认识。目前高校科研评价中普遍运用的定量方法是否具有质量属性,偏离质量导向的原因在哪里,定量方法与质量导向之间如何兼容是科研评价改革无法回避的现实问题。
一、科学研究“质量”:内涵与外在表现
“质量”是各类管理活动的永恒主题。在古希腊哲学家苏格拉底、柏拉图和亚里士多德眼里,质量被理解为卓越(excellence)。18世纪中期,随着商品经济的发展,质量被界定为价值(value)。19世纪到20世纪20年代,在大规模工业生产蓬勃发展背景下,质量被定义为产品符合规格(conformance to specifications)。20世纪30年代,质量被加入统计学意义上技术标准稳定性的内涵。20世纪80年代,随着服务业在产业结构中占据主导地位,质量标准开始被理解为满足或超越客户的期望(meeting and/or exceeding customers' expectations)。[3]对于科学研究这一古老的创新活动,“质量”更是其本质规定性所在。对于科学研究质量,学术共同体和共同体外部的科学计量学专家,从截然不同的视角进行过界定。
在科学发展史上,科学家既是科研工作的主体,也始终是科研评价的主体。因此对于科研质量,科学家最有发言权。瑞典学者赫姆林(Hemlin, S. )曾就科研质量对224位不同领域科学家进行了问卷调查,结果显示科学家对此有广泛共识。科学家们认为,科研质量是对研究问题、研究方法、理论运用、结果、推理过程(逻辑)与书写表达等六个方面新颖性、严谨性、正确性、深度、广度、与学科内部和外部关联等属性的衡量。[4]当然,因学科特点与成果表达形式差异,自然科学、工程技术、医学、人文、社会等不同领域科学家对上述六个方面在本领域科研质量评价中重要性的排序略有差异。有学者认为,对质量的评价蕴含了科研工作者的个人价值判断,应将其放在特定的场域中去理解。对入职五年以内、主要是被评价对象的年轻科研人员,他们对科研质量的理解侧重研究问题的价值、对问题的揭示是否可以获得认同、论文发表期刊的影响力等,并希望这些有助于职业晋升;对于资深科学家,作为同行经常参与各类科研评价,他们对科研质量的理解根植于所在学科特点,看重研究者的能力、扎实的理论、反思的框架以及成果蕴含的思想,对科研工作的界定也更加宽泛。[5]科学家对质量概念的共识及差异,凸显了科学研究具有创新性和不确定性,应由学术共同体对重大科学发现优先权进行识别的传统,也可以看出作为学术同行在科研质量评价中不可避免的主观性以及由此衍生的一系列弊端。
科学计量学是运用数学和统计学方法对科学活动的产出(如论文数量、被引数量)和过程(如信息传播、交流网络的形成)进行定量分析,从中找出科学活动规律的一门学科。科学计量指标系统地运用于科研评价始于20世纪50年代普赖斯(Price, J. )和加菲尔德(Garfield, E. )的开创性工作。与研究领域内部的同行专家不同,科学计量学专家对科研质量的界定不是基于研究过程和研究内容,而是站在学术共同体外部对科学工作进行审视。科学引文索引(Science Citation Index, SCI)创办人加菲尔德认为,质量在性质上是难以捉摸的,人们在不同时间用不同名称来描述它,比如“重要性”(significance),“影响”(impact),“效用”(utility),“效力”(effectiveness)等。[6]莫伊(Moed, H. )认为,质量是研究工作的内在品质,是一个客观存在,但它并不是一个具有物理性质的客观实在物体。其客观存在可以从历史发展的角度来说明,即时间将证明某一研究工作的学术价值和持久性。他认为引用其他科研人员的文献是学术共同体成员之间的一种社会行为。经常被引用(高引用率)的研究成果显然会比很少被引用的研究成果更为有用。所以,一篇论文被引次数可以被认为是它的“影响”、“重要性”,或者说“质量”的精确测量。[7]从上述观点看,科学计量学的质量概念与学术共同体的同行共识是一致的。在共同体内,一篇论文被引次数被解释为影响力(influence)或者可见度(visibility)已经达成广泛共识。[8]由于被引次数需要在成果发表若干年后才能获得,因此评价实践中,论文发表期刊的影响因子往往成为代替被引次数的即时指标。在每一个专业,最好的期刊都是那些论文很难被其采用的期刊,也是高影响因子期刊,这些期刊在影响因子被发明之前已经存在。期刊影响因子运用于测量论文质量,正是因为它与观念中认同的学科最好期刊非常吻合。[9]
综上可见,学术共同体对科研质量的界定侧重从问题提出到结果呈现及应用的全过程,并以科学家个人的专业修养作为判断依据。科学计量学对科研质量的界定通过比较特定成果与其他成果获得同行引用数量差异来对质量进行间接判断。它以科学家在学术共同体内部的社会行为一致性为基础,超越了单个科学家的主观判断的局限性。二者均是以学术共同体的行为为判断基础,但一个立足学术共同体内部,一个立足学术共同体外部,一个侧重科学家个人主观的经验判断,一个侧重科学家群体行为的客观统计描述,一个是对科研质量进行直接判断,一个是对科研质量的间接判断,形成了良好的互补关系。由此可以得出,质量是学术共同体内外部专家一致公认的科学研究的内在规定性。科学研究质量既有包括问题选择、研究方法、理论运用、结论新颖性、推理过程、书写表达等内在的创新性与规范性要求,也有可以用被学术共同体内部同行引用次数多少等定量指标测量的外在影响力表现形式。内在的创新性与规范性要求与外在的影响力表现形式是两个相互补充、各有优势的衡量科学研究质量的方法体系。同行评价方法在科学研究内在质量判断上具有天然的合理性,定量评价方法通过科学研究外在影响力表现差异对其质量进行客观测量,也具有质量属性。
二、高校科研评价定量方法中的质量属性
在科学计量学出现之前,同行专家评价是判断科研质量的通用方法。但同行专家评价系统的好坏取决于被挑选出来承担评审的专家组成员,并且运转低效、代价昂贵。科学计量学基于对科研质量的独特界定,开发出了一系列简便可行的定量指标,迅速发展成为同行评价之外另一重要评价方式。
定量方法中使用最多的指标是基于一定时间窗口的出版物数量及其被引次数。在此基础上衍生出了整个定量评价指标体系,也开发出了一些新的经典指标。乌必科(Verbeek, A. )[10]、欧库布(Okuto, Y. )[11]和莫伊(Moed, H.)[12]等人分别从研究综述、经济合作与发展组织(OECD)科研评价应用和科学计量学理论探讨等角度对定量指标体系进行过系统梳理,对不同指标的性质及其缺陷进行过讨论。美国加州大学圣迭戈分校物理学教授赫希(Hirsch, J. )基于论文数量与被引次数关系提出用于评价科学家个人科研产出的h指数,[13]拓展了平衡产出数量与质量关系的新视角。
从我国高校科研评价实践看,目前广泛使用的定量指标主要有某一文献检索来源的论文数量、著作数量、授权专利数量、成果被引次数、论文发表期刊的影响因子或期刊在本学科所有期刊中的排序、科研成果获奖数、不同来源基金项目数等。它们不仅在我国广泛使用,在英国、意大利、澳大利亚等国家的科研评价实践中也被经常使用。根据指标类型,上述指标可以分为成果数量、成果影响力和科研能力与条件三类,分别具有不同程度的质量属性。(见表1)

论文数量是对评价对象科研工作原始、简化的测量,反映的是科研产量,但是它也具有质量属性。这一方面是因为学术期刊普遍实行同行专家审稿制度,在决定录用一篇论文之前,其质量已得到同行专家的基本认可;另一方面,在高校科研评价实践中普遍采用将某一检索系统收录的论文作为评价指标的做法,比如科学引文索引和中文社会科学引文索引(Chinese Social Sciences Citation Index, CSSCI)源期刊刊载的论文。相关引文索引数据库在遴选期刊时均依据其出版标准、规范性、被引用情况以及专家意见或国际多样性等指标。入选期刊总数占所在学科期刊总数比例较小,入选期刊办刊质量在各学科总体靠前。以这类引文索引收录的源期刊论文为指标,在测量产出数量的同时,显然包含了特定的质量属性。著作和授权专利等成果数量指标,也具有类似的质量属性。
被引次数、期刊影响因子及由此决定的期刊在所处领域所有期刊中的位次,是用来测量被引成果的影响或质量的主要指标,也是科学计量学界定论文质量的主要角度。但是某些领域的论文平均引用次数非常高,有些领域即使是高质量的论文,被引用的绝对次数也不高。期刊影响因子也一样,某些学科的期刊影响因子整体偏高,有些学科期刊影响因子整体都较低。因此,在不同学科领域比较论文的被引次数或刊文期刊的影响因子是不合适的。引用频次或期刊影响因子需要根据所属学科(包括属于多个学科的期刊及论文)进行正确的标准化。在被引次数指标中,总被引次数、平均被引次数、排除自引的平均被引次数等对数据的准确性要求不同,其体现的质量或影响力的准确性也不同。成果获奖是成果影响力的另一种体现,它由同行专家对其重要性或质量进行确认。基金项目是科研能力或支撑条件指标,虽在评价中被频繁使用,但其并不是成果本身,而是同行专家对申请人创新能力和可行性的确认,是对未来创新工作质量的一个预期。
从上述分析可以看出,科学计量学基于学术共同体社会行为一致性分析获得的定量评价指标本身具有质量属性,这也是其得以被广泛运用的重要原因。但在评价实践中,定量方法却往往被认为是导致我国高校科研产生重数量、轻质量现象的主要原因,是加剧学术浮躁和学术不端行为的罪魁祸首。也就是说,定量方法不仅偏离了其自身所具有的质量属性,而且催生了高校的科研泡沫。







