陈云伟、张志强：科技评价走出“破”与“立”困局的思考与建议

来源：
发布时间：: 2020年09月08日

摘要：本文在分析科技评价的“初心和使命”、对象体系复杂性、所面临的“破”与“立”困局以及从国际视角观察科技评价实践经验带来的启示的基础上，从科学理性认知各类评价指标（体系）、论文评价指标合理使用、不同科技评价指标的综合使用三个方面讨论了科技评价指标（体系）面临的关键问题；就如何走出科技评价困局，从科技评价治理的正确原则和理念、完善科技评价治理的政策制度体系、科学合理约束性使用科技评价指标（体系）三个方面提出了合理化建议。

关键词：科技评价；论文；定量指标；同行评议；政策

中共中央办公厅、国务院办公厅先后在2018年7月和2019年6月印发了《关于深化项目评审、人才评价、机构评估改革的意见》和《关于进一步弘扬科学家精神加强作风和学风建设的意见》，对涉及项目、人才、机构的评价改革提出了要求。为落实这两个文件要求，改进科技评价体系，破除科技评价中“唯论文”不良导向，按照分类评价、注重实效的原则，科技部在2020年2月17日发布了《关于破除科技评价中“唯论文”不良导向的若干措施（试行）》，教育部、科技部于2020年2月18日印发了《关于规范高等学校SCI论文相关指标使用树立正确评价导向的若干意见》的通知。两份最新文件的颁布，当即引起全国科技界的高度关注和全国范围内的大讨论，“破四唯”也正式开始从指导思想层面向实操层面推进。然而破易立难，科技评价工作要摒弃“唯论文”、“唯SCI”等不良导向还面临着相当艰巨的挑战，其中最大的难点在于“立”。

国家层面在不到两年的时间里出台上述“三个意见一个措施”，势必对我国未来科技评价工作、科技事业发展产生深远的影响。科技评价改革的目标非常清晰，就是要探索建立科学的评价体系，营造真正激励创新、追求科学真理的科研环境。不论是科技工作的管理者，还是科研人员，对进行科技评价改革的呼声都很高，大家普遍都认识到了当前科技评价体系存在种种弊端，也都意识到科技评价工作到了非改革不可的地步。为此，科技界有关开展科学的科技评价的讨论很多，也提出了很多的意见建议，但是在这些建议意见中，思想和理念层面居多，可操作的方案较少。科技评价工作的改革发展，既要“破”不符合科技规律特点的评价机制，更要“立”遵循科技发展规律特点和促进科技发展的评价机制。为此，本文在分析科技评价对象复杂性的基础上，重点讨论科技评价改革面临的困局及关键挑战，同时就如何客观认识科技评价指标、如何走出科技评价困局提出几点合理化建议，希望有助于完善科技评价管理机制。

1 科技评价的对象复杂性及问题分析

1.1 科技评价的“初心和使命”

只有正确认识科技评价的初衷，才能使科技评价回归到正确的轨道。科技评价工作的重点可以随着时代的变化和发展，特别是在我国科技发展的不同阶段而各有侧重，但科技评价工作的“初心和使命”是不变的，即，科技评价的根本目的是促进科学技术发展，强化原始创新，提升创新能力和水平，提高人才队伍能力，推动技术创新和产业发展，最终促进经济社会发展。因此，科技评价工作必须要回归科学研究本身来寻求理性的评价方案，真正通过科学的评价方案去发现和培养优秀的科学家，催生真正高水平的科技成果，培育真正前沿的科研项目，建设真正领先的科研机构。评价的导向应当是引导相应被评价的创新主体更好地发挥其科技创新生力军的作用，而不是去把科研机构、科研人员进行大排名。

1.2 科技评价的对象体系复杂性

科技评价的对象包括国家评价、区域评价、机构评价、项目评价与人才评价等，是对科技活动不同主体的评价。不同的评价主体，表现出独特的特点和评价问题，没有万能的评价方法和模式可以轻松应用。面对高度复杂的科技活动整体场景，科技评价工作也具有复杂性，不能简单化，要考量评价方法的有效性；面对具体科技活动过程、科技活动人物、科技活动成果，科技评价工作又是非常具体的、相对简单的，又不能过于复杂化。可见，科技评价是一个“既复杂、又简单”的科技活动，是针对人和事的“审计活动”，而且在“复杂”和“简单”之间没有明显的界线。因此，组织开展科学有效的科技评价工作是一项复杂的工程。

首先，创新主体维度存在层次性。针对复杂多样的评价对象需要开展分层次的评价，没有一个从上到下的通用评价标准来开展全部科技活动的评价，也不存在一刀切的、囊括一切的评价指标体系。

其次，领域维度存在特异性。一方面，不同领域的科研范式不尽相同，反映科研水平的可观测指标也存在差异，例如，在数学、理论物理等基础科学领域，成果主要通过研究人员发表的论文来观察；而在应用研究或工程技术开发领域，科研能力和水平则更多通过新技术、新工艺、新产品、新材料等来反映。另一方面，领域本身也存在学科层次性，从一级学科、二级学科到三级学科，具体到相应问题的评价指标体系也需要区别设计。

第三，科研类型维度存在多样性。从基础研究到应用研究，再到产品开发的科研全价值链中涉及多种类型的研究工作，这种研究类型的划分并不是刚性的链条，很难有国家统一标准来进行准确切分。因此，分类评价也面临如何对评价主体进行分类的挑战，归类不准确或太武断，不论多么有效的指标也可能会导致严重的错误或误导。

在如此复杂的问题面前，影响“研究质量”或“科研表现”的影响因素是多维度的，涉及研究过程、认知方面（研究的前沿性）、成果应用（社会和实际价值）等诸多方面。事实上，不论是管理者还是科研人员均深知论文只是科研活动的一个方面，只是将研究发现或成果发布和传播的一种形式和手段，对基础研究类科研活动来说相对重要一些。然而，还有大量的应用研究、技术开发与创新研究、临床研究及各种服务平台等基础支撑与条件保障类基地，它们的功能和作用发挥各有各的特点，论文普遍不是主要的贡献和影响，更不能完整体现成果或支撑保障作用的质量。但是，这种不论是带来经济效益的技术和产品，还是带来社会效益与服务价值的中心和平台，很难对其贡献和价值进行量化评估，特别是涉及这些机构里的研究人员的评价时，挑战则更大。

1.3 科技评价的问题分析及面临的“破”与“立”困局

当前的各类科技评价指标都不是万能的，评价结果的应用也要控制边界条件，很难出台一套或一揽子客观可行的科技评价实操方案。科技评价和科学体系的复杂性是构成现行评价体系不足的客观原因，在科技评价工作实践中需要尽量做到公平性、可操作性、达成共识性、简单易行性等，这些基本诉求都在不断地催生看似客观的评价体系、基于各类定量指标的形式上的公平性^[1]。因此，在项目评审、职称评审、职务职级晋升等对评价指标的现实需要面前，在没有更好的评价方案可选的情况下，最简单、最容易、相对客观的论文相关定量指标就成了首选，也更容易计算出所谓的质量优劣和能力高低。

正是这种困局导致了备受诟病的“唯论文、唯职称、唯学历、唯奖项”等简单易行的科技评价方法的运用在过去20多年间愈演愈烈，众多高校围绕SCI论文、高被引论文、ESI（Essential Science Indicators）、各种人才项目“帽子”设置了富有“创造性的”、甚至“复杂的”、看似“精准的”定量指标，直接作为相关项目评审、人才项目推荐甚至奖金测算的依据，进而直接将SCI推上了所谓的“神坛”。

从学术研究角度来说，评价指标总体可分为定量指标和定性指标两大类，在实际操作中通常这两大类指标会在一起使用。评价组织者在选取指标时通常坚持的基本原则是，针对宏观对象如国家、地区或机构的评价工作，定量指标的权重可大些；而在针对微观对象如科学家、工程师等个人的评价工作，定量指标的权重要低些，或者说更多地是作为同行评议的一种数据支撑。当前这些指标之所以备受诟病，原因在于这些丰富的指标常常被错误地、无约束地作为权威指标、全能指标加以使用。事实上，即使同行评议也不能被赋予权威的地位，否则科技评价工作很容易会从“唯论文”的极端走向“唯同行评议”的另一个极端。

2 科技评价的国际视角观察与启示

按科技评价主体区分，总体可以分为宏观层面（国家、地区或区域）、中观层面（科研机构、高校或企业等）和微观层面（科研团队、个人等）评价三大类，国际上有一些好的做法和经验值得借鉴。

2.1 宏观层面的科技评价

在国家和地区的宏观层面，许多国际组织机构周期性发布有关国家竞争力的评价指标体系。例如，世界经济论坛（WEF）发布的《全球竞争力报告》、瑞士洛桑国际管理学院（IMD）发布的《世界竞争力年鉴》、世界知识产权组织（WIPO）等联合发布的《全球创新指数（GII）》报告等，基本从政策制度、基础设施、科技研发、金融投入、人力资本、知识资产等评价维度设计指标体系^[2]。欧盟委员会发布的年度《欧洲创新记分牌》从驱动因素、投资、创新活动和影响4个指标以及10个细分维度对欧盟成员国和选定第三国的研究和创新绩效及体系的相对优劣势进行比较分析^[3]。这些宏观层面的评价工作大量地借助各类定量统计数据，是对一个国家在各指标方面综合水平或平均水平的揭示，可相对客观地多维度反映国家间的竞争力差异，定量指标的选用以及评价结果得到了广泛的认可，很多指标也成为各个国家观察自身科技发展的重要参考。

2.2 中观层面的科技评价

中观层面的评价通常涉及高校、科研机构、企业以及政府立项的科研计划或项目等层面的评价。从全球视角分析，中观层面的评价通常会采用定量指标进行全球大排名。例如，在大学评价方面，QS世界大学排名、英国泰晤士高等教育世界大学排名、US News世界大学排名等都有各自一套综合指标体系。在企业评价方面，通常倾向于采用与业绩或研发产出相关的有限定量指标进行排名。例如，欧盟发布的年度《欧盟工业研发投资记分牌》基于企业研发资金或专利数对全球2500家企业进行排名，这些企业的研发投入约占全球企业研发资金总量的90%，进而可以基于这些企业的数据对国家和地区的研发投资进行比较^[4]；科睿唯安发布的年度《德温特全球百强创新机构》报告中，采用专利总量、专利被引表征的影响力、授权成功率和四方专利表征的全球性4个量化指标对全球创新机构进行排名^[5]。

从国家视角分析，主要科技发达国家均围绕提升科技管理的质量在评价实践中建立适合本国的科技评估制度或法案。例如，美国负责组织开展科技评价工作的机构主要包括国会和联邦政府设置的科技评价部门、社会化独立咨询评价机构和综合学术组织。美国国家科学研究委员会（NRC）作为科技评价体系中最重要的组成部分，只接受国会或联邦政府委托展开对重大学科研究项目的评价，采用的评价指标通常包括文献计量、经济回报率、同行评议、案例分析、回顾性分析、指标分析等^[6]。英国从2014年开始实施全新的“卓越研究框架”（REF）系统来评估英国高教机构的研究质量，具体是由34个学科专家小组开展的专家评审。专家小组由资深学者、国际成员和研究用户组成，主要评估科研产出的质量、学术影响、研究条件^[7]。德国对马普学会等科研机构仅进行科研经费配置与预算的审批和监督，以及科研活动的系统评估^[8]，德国科学委员会在2011年出台了针对科研机构进行绩效评价的统领性框架建议，马普学会、亥姆霍兹联合会、弗劳恩霍夫协会、莱布尼茨学会四大研究机构则在各自职责范围内对其下属研究所进行有针对性的同行评议评价。评价指标体系通常包括项目质量、科研产出、内部控制、合作、成果转化等方面^[9]。法国HCéRES（High Council for the Evaluation of Research and Higher Education，高级研究与教学评估委员会）主要依据不同的指标体系负责对法国各类科研机构进行外部评价，以对跨学科研究单元和团队的评价为例，HCéRES设计了长短周期结合、宏观与微观结合、定性与定量结合的“三力”评价指标，“三力”即科研产出与影响能力、日常组织与管理能力、上一个五年科技规划的执行能力^[10]。挪威高等教育机构协会在2003—2004年提出了基于成果表现的挪威模型（Norwegian Model）作为资助政策工具，重新指导大约2%的挪威基础研究经费预算的分配，目前已有比利时、丹麦、芬兰、挪威和葡萄牙等多个欧洲国家利用或借鉴该模型开展实践应用^[11]。

全球视角的中观层面评价工作与宏观层面的评价类似，通常采用指标体系对评价对象进行综合排名，而国家视角的中观层面评价工作则更加重视评价工作的实践效果，围绕着促进科技创新这一目的来构建评价指标体系，并在科技政策实施中审慎使用定量评价结果。

2.3 微观层面的科技评价

微观层面的评价通常是指针对科研团队或科研人员的评价，主要科技发达国家科研机构的共性做法是，采用的评价指标既包含定量指标，又包含定性指标，且不断调整优化，评价过程公开透明。通常从科技贡献、发展潜力等方面对科研人员给出评估意见，短期内发表论文数量及相关指标、科研项目、奖励与荣誉、学生培养等量化指标作为基础数据支撑。例如，美国加利福尼亚大学伯克利分校计算机系的“科研重工业模式”以自由创新和集体主义作为核心价值观，以培养年轻人、激进式的集团作战和集体利益而非个人利益最大化为关键特点^[12]。德国马普学会评估机制的核心是高度透明的同行评议，要求在同一学科领域有显著成绩的科学家才有资格作为同行评议专家，与绩效有关的论著、经费、学生培养、奖励和荣誉等定量指标综合起来构成同行评议的补充，且多用于中期到长期的评估^[13]。法国国家科研中心（CNRS）对科研人员的内部评价工作由法国政府牵头组建的CoNRS负责，CoNRS利用包含科研产出能力、学术影响能力、团队协作与沟通能力、日常科研与行政管理能力、培训与教学能力的“五力”评价指标对CNRS科研人员进行内部评价^[10]。日本理化学研究所对基础研究团队的考核采取类似代表作的制度，要求在一个聘期内需要产出至少一篇解决了基本理论问题或关键技术难题的文章，负责团队建设的首席科学家的一个聘期是7年，一般聘任两届^[14]。

作为支撑同行评议的重要客观依据，微观层面针对科研人员个人的定量评价也得到了世界各国的高度重视，与宏观和中观层面的典型不同之处在于，微观层面的定量评价很少用于对科研人员进行大排名，而是用于观察其科研表现。

3 客观科学认识科技评价指标（体系）的关键问题

科技评价工作贯穿科研活动全程，为了不断优化评价指标，改善评价的公正性和客观性，学术界开发了丰富的评价指标，这些指标在一定边界范围内通常是能作为有效评价工具的，可以从某个角度来揭示或反映科学家影响力或科研能力，可以表征项目的水平以及科研机构的创新表现。但是，难点和挑战在于评价实践中如何合理地、有限地利用基于这些评价指标所获得的定量信息，在这个过程中很难做到对评价指标的合理使用，而是常常错误使用甚至滥用。

3.1 科学理性认识各类评价指标（体系）的问题

科技评价指标总体可划分为定性指标和定量指标两大类。

定性评价方法以同行评议为主，借助特定领域专家的专业知识对所在领域的机构、项目或人才进行定性判断^[15]。理想状态的同行评议应仅以人才的能力或项目的水平为依据，要求同行专家对相应领域都有准确的把握，对参与的评议工作负责。但是即便是在普遍采用同行评议的美欧等国家和地区，传统的同行评议依旧会受到主观性、马太效应、人情关系和利益关联的影响，也很难保障每位评审专家对特定领域具有同等的认知水平。

定量指标虽然不能作为科技评价的唯一依靠，但其在支撑定性评价方面的作用也是不可或缺的，定性评价需要定量指标的数据支撑，这样定性评价才有更充分的依据。定量指标以可计量或可计算的指数、算法或模型为主，常见的指标包括传统的基于论文、专利和引文数量的指标，基于网络链接的指标、替代计量学指标，以及多种指标综合在一起的复合类指标等^[16]。需要注意的是，即便这些都有客观数据支持的定量指标，有时也会得到不同的评价结论。例如，Wainer等^[17]对论文和专利数量、引用数量、h指数等常用计量评价指标与同行评议结果进行相关性研究发现，每个单一指标间相关性分布区间为0.29~0.95，且还存在学科差异，甚至结果截然相反，说明了采用单一评价指标开展评价工作的不确定性、不客观性与风险性。

随着社会网络分析方法在科学计量学领域应用的不断深化，利用基于链接的指标开展科技评价特别是科学家评价的工作越来越多，其理论基础是科学家的合作结构与其科研表现间存在正相关关系^[18]。例如，Whitfield^[19]早在2008年就指出，科研合作行为对一个团队的成功起到正面促进作用；Abbasi等^[20]指出，科学家的社会网络可用于预测他们未来的科研表现；McCarty等^[21]发现作者要想获得更高的h指数就需要拥有更多的合作者。

综合近年来针对科技评价指标的研究来看，没有任何一个单一指标或方法足以有效地支撑评价工作，科学计量学领域的学者们也在不断讨论和寻找有效的指标。最近十年，替代计量学^[22]指标引起学术界较多关注，但是替代计量学本质上依旧是定量指标，主要是利用科学家在线开展学术交流、获取与分享科研材料等行为所产生的记录性数据，当前在科学学领域利用该方面开展的探究多一些，而在科技评价实践工作中的应用还较少。

3.2 论文评价指标的合理使用问题

在破除“唯论文”、“SCI至上”的进程中，首要的是客观看待论文在科技评价工作中的作用，破除“唯论文”，并非不看论文^[23]，不能从一个极端走到另一个极端。这需要从论文定量评价产生的历史来分析。

美国科学计量学家尤金·加菲尔德在1963年创立了SCI数据库，其初衷是建立一个文献检索系统，以促进学术交流。加菲尔德一直强调，SCI的评价应用仅是其衍生功能，且只是作为评价科研影响力的一个方面，并不能代表全部。经过约半个世纪的发展，SCI数据库已经发展出期刊影响因子、论文被引频次、高被引论文、高被引科学家等多种定量统计指标，这些指标也被广泛用于论文、科学家乃至机构和国家的评价工作中。有大量科学计量学领域的学者基于SCI数据库的各种定量统计指标不断设计和优化各类评价指标，如h指数等^[24]；也有大量学者将社会网络分析方法^[25]、PageRank^[26]等用于分析论文数据，以期从更多角度开展基于论文数量及合作或引用关系的评价。

在20世纪80年代末，我国有高校开始奖励SCI论文，直接激发了其SCI论文数量的增长，为此国内高校纷纷效仿，很快就使SCI论文成为衡量我国高校、科研院所、科学家科研表现的最关键指标，与之相随的是我国SCI论文数量持续快速增长，显著提升了我国科研的国际影响力与国际参与度。通过检索Web of Science（WoS）数据库发现，截至2020年2月，过去10年间，中国SCI论文总数约276.7万篇，位居全球第2位，约为排在第1位的美国论文总数的2/3，同时也约为排在第3位的英国论文总数的2.6倍；而且中国与美国的差距在不断缩小，2019年我国发表SCI论文约54.8万篇，位居全球第2位，约为位居首位的美国（67.9万篇）SCI论文数的80.7%。同时，除了SCI论文数量，基于SCI论文的引用频次、期刊分区、影响因子、ESI高被引论文及高被引科学家等指标均被我国科技评价及相关活动广泛采用，在这样一种逐利背景下，形成了“SCI至上”的评价体系也是一种必然。

然而，我国科技创新已进入跟跑、并跑、领跑“三跑并存”新阶段^[27]，尽管重大突破性成就不断涌现，但是我国在诺贝尔科学奖、领域权威奖励、三方专利占比、知识产权收入、世界一流大学、世界一流研发机构和企业等方面与科技强国特别是美国相比还存在较大差距^[2,]。因此，越来越多的管理者和科研工作者都呼吁，我国科技发展要形成赶超优势，就必须要在这些关键指标上有“质”的突破和大的发展，科技成果产出必须逐步由量的积累向质的突变转型升级，而不仅仅看论文“量”。反过来说，仅以论文数量来评判自身科技水平的高低还很不客观，为此，科技界需要适应新时代科技创新需要的评价体系。

其实，针对定量评价指标不当使用的问题，早已在全球范围内引起了反思和讨论，2012年发表的《旧金山宣言》^[30]和2015年发表的《莱顿宣言》^[31]都提出了定量评价可以为支撑定性评价提供支撑服务，但不能替代，在评价科学家时一定要以学术实质贡献和质量为根本遵循。

发表论文的初衷是与学术同行进行学术交流，促进科学发现与新知识的传播。从这个角度而言，我国在20世纪80年代逐步开始鼓励科研人员发表论文，特别是发表SCI论文，对促进我国科学研究的国际交流、提升研究水平起到了积极的正面作用，需要给予客观的评判。也正是这种鼓励政策才带来了今天SCI论文在数量上的量变。正所谓量变是质变的前提，正是有了现在的量的积累，我们才有底气来争取更多的质变，即去更多地关注高水平论文质量的高低，而不再仅仅关注数量的多少。因此说，SCI论文被用于科技评价的备受诟病之处在于“SCI至上”，即过度片面依赖SCI，而不在于发表SCI论文，这一点需要各级科技管理部门和科研机构的管理者一定要明确，不能在“破四唯”的洪流中把发表高水平论文的正常学术交流活动本身也破坏了。在科技部的文件里，提出要对论文评价实行代表作制度，要鼓励发表“三类高质量论文”。可见，我们开展科技评价工作时，“三类高质量论文”将是代表作的重要来源，而业界公认的国际顶级或重要科技期刊的论文通常大多数都是SCI论文，因此，我们在选择代表作时通常绕不过SCI论文。此时在评判SCI论文代表作的质量时，如何正确利用期刊的影响因子、被引频次等数据，这是开展机构、学科、项目、人员评价时难以回避的问题。

科学计量学家Moed教授指出，研究成果和影响是多维概念，当用论文、引用、期刊影响因子、社交媒体等指标来评估个人和团队时，这些指标必须受到严格限制：针对科研人员个人的评价指标已被证明存在“虚假的精准性”；期刊影响因子的评价有效性尚缺乏足够的计量学证据；基于社交媒体的指标只能作为补充措施^[32]。

3.3 不同科技评价指标的综合使用问题

要破除“唯论文”，要强化分类考核评价导向，意味着需要多元的评价体系。

首先，需要解决的难题就是对评价对象进行“归类”的问题。我国实施创新驱动发展战略，强调要推动科技和经济紧密结合，增强科技进步对经济增长的支撑力和贡献度。基础研究特别是应用基础研究和应用研究存在紧密的联系，大量的基础研究突破是支撑新技术革新和新产品发明的重要前提，此时不能因为从事的是基础类研究就不考虑其对经济发展的贡献价值。自然在评价指标的设定上，也不能片面地仅以高水平论文或代表作作为评价指标，反之亦然，也要充分重视从事应用研究的人员和团队在基础研究层面作出的卓越贡献。

其次，每项科学研究相对都是独立于其他研究的，哪怕同样都是好奇心驱动的纯基础研究，受所在学科领域、学术影响、潜在经济社会影响的不同，不同研究项目的差异可能也相去甚远，取得的成果的影响也可能大相径庭，也不能仅简单地用一个标准去比较。

第三，指标综合运用的问题。综合用好指标的理想前提条件是了解每个指标的实际效果，然而当前科技界对各类评价指标的实际效果还知之甚少，还缺乏对这些评价影响进行系统的、基于证据的、学术性的解释^[32]。另外，也很难将某个或某几个特定评价指标或评价方案的影响与其他社会因素的影响区分开来。因此，综合运用指标依旧存在相当大的挑战，除了考虑分类评价的问题，还要考虑机构的性质、领域、发展阶段、所处的国际国内竞争地位、人员的岗位、年龄、发展潜力等众多因素。此时需要的综合指标既要有客观的数据做支撑，又不能仅靠数据模型进行简单量化；既要定性的综合评议，又不能出现主观印象的无限放大。

4 科技评价治理机制科学合理化发展建议

评价的理念正确、原则正确，才能引导工作方向正确，工作结果正确。科技评价是服务科技管理的重要手段，没有评价就没有管理，没有科学的评价就没有科学的管理。科技评价工作不同于科技创新工作，我们不能强调科技评价指标也要争取颠覆性创新、突破性创新，科技评价的改革不应是颠覆性的变革，应该避免矫枉过正，应该是一个循序渐进的优化过程。我们在审视现有评价体系各种不足的时候，一定还要正确对待其好的一面，而这好的一面曾经甚至现在还在一定程度上发挥着重大的正面激励作用，还是需要继续坚持的。为此，本文从以下三个方面对如何走出科技评价困局进行讨论。

4.1 把握科技评价治理的正确原则和理念

要想走出当前科技评价所面临的困局，首要的是要践行科技评价正本溯源，要坚持促进科技发展、服务于我国经济社会发展需求、促进知识传播的基本原则，实事求是地不断完善评价方法，使各类评价结果更具科学性，更具管理咨询价值。评价有评价的科学，评价有评价的局限。具体而言，科技评价工作应坚持以下原则。

第一，评价要讲目的性。评价是一种目标导向的工作，有其一定的目标和价值取向，目标越具体，评价越聚焦，评价结果才更具指导性。

第二，评价要讲层次性。评价没有放之四海而皆准的评价体系，无法做到一刀切、一盘棋，不能层次不一、大小不分，异质对象不能用一套生搬硬套的统一方案。

第三，评价要讲针对性。评价要分清评价对象，辨识洞察主体，要聚焦专门对象、针对性问题，具体问题具体分析，构建特定的评价体系。

第四，评价要讲特殊性。评价是对特定对象、特殊主体的定性与定量化测度，不能迷失特殊主体而泛化、发散。

第五，评价要讲科学性。评价必须严谨科学，要实事求是，设定有限目标，要认清局限性，评价结果不能夸大化、绝对化。

第六，评价要讲动态性。评价对象和主体的行为是时间的函数，以动态的、发展的、辩证的思维看问题，不足既是短板，也是发展空间，需要审慎研判。

第七，评价要讲适用性。评价是服务管理、服务决策、服务于认识所评价的特定对象和特定问题的一种手段，要强调适用性、有限性，评价结果才可能是有用的评价。

第八，评价要讲受限性。评价结果是利用特定定性和定量指标对科研表现的有限反映，必然有应用的边界条件和逻辑限定。

第九，评价要讲公平性。要让每位科研人员、每个科研项目都得到公平的对待和客观的评价，获得平等的机会和权利。

第十，评价要讲公正性。要采用相适应的科技评价指标体系，在管理层面让从事不同类型研究的科研人员、不同的科研项目得到公正合理的评价。

4.2 完善科技评价治理的政策制度体系

要想实现科技评价的改革目标，一个重要前提是根据新时代科技发展的特点对我国现行的科研评价管理体制机制进行深刻改革。前文提到评价体系不宜做颠覆性的改革，应循序渐进，但是对科技评价政策与体制机制而言，步子不妨迈大一些，彻底改变科技评价管理的理念，由“管理”向“服务”转变。摒弃一刀切、数量化的评价文化，营造有利于科技创新的政策体制机制环境。此方面需要重视以下几点。

1）政府管理部门的职能定位

当前评价工作出现的很多问题是由“过度评价”造成的，管理部门需要更多地关注指导层面的工作，制定宏观的指导性原则，通过政策和规章来提高科技评价工作的组织方式公平性，强化监督检查，这一点也是当前我国科技评价体系改革的重点之一。但要减少直接触及科技评价工作本身，要下放评价权限给科技活动的主体，要把具体决定采用哪些评价指标的决定权交给各领域的科研机构自主制定，下放人才评价权限。

政府管理部门需要在评价环境上为科技活动主体开展自主评价创造条件，在具体操作上，提出以下建议。首先，也是最关键的一点，要释放管理部门对科研经费的控制权和指挥棒，克服科研经费分配不公问题，解决科研经费与收入挂钩问题。要系统构建稳定支持与竞争性匹配有机结合的科研经费配置体系。其次，国家层面需要下大力气建设稳定均衡的工资体系，避免同领域、同行业在不同省份、不同城市间薪资水平的巨大差异，从根本上避免论文等指标与获取高收入的人才流动行为挂钩。第三，改革科研机构评价机制，根据机构不同类型特点和机构定位，减少考核频次，提升考核实效，探索研究机构调整或撤并机制，确保研究机构保持创新活力。在科研机构考核工作中，要充分认识到负责人对一个科研机构发展的决定性作用，提高对机构负责人管理成效的考核权重。第四，改革科技人才评价政策体系。逐步优化以能力为核心的人才评价政策体系，真正实施人才分类评价机制。完善领军型科技创新杰出人才的培养、使用和评价政策，减少对人才的评价频次，减少对科研人员个体的评价，取而代之的是将科研人员个体置于团队中进行考评。第五，引导中英文论文发表工作。践行“把论文写在祖国大地上”，处理好发表中英文论文的关系是重要前提。基本原则是与我国经济社会发展紧密相关的成果应首先及时在我国自主知识产权的中文期刊上发表，以满足我国科技工作者的迫切需求，为一线科技人员解决我国重大科学、技术或工程创新领域的关键技术问题提供知识供给；必须要在国际范围内与国际同行（含中国同行）开展讨论和分享的学术成果，则可以及时在国际期刊上发表。在实际工作中，可能很多研究既需要首先在自主知识产权的中文期刊发表，也需要与国际同行及时展开交流。解决这个问题的选项之一是抓住开放获取的发展契机，探索建立中英文双语学术期刊发展体系，研究制定中英文双语卓越期刊行动计划。当评价不再“唯论文”的时候，科研人员就可以投入更多精力打磨高水平论文，以双语发表。这样进入国际国内各大检索系统的中国期刊都拥有两种语言，既满足了国内科研人员学习的需要，践行了“把论文写在祖国大地上”，也保障了国际同行交流。

2）科技活动主体的职责作为

科技活动主体应根据自身研究领域、科研项目、国际国内竞争状况、人才队伍水平及未来发展目标等因素，制定灵活的、多样的、可操作的评价方法。鼓励涌现出各类与实际工作相符的评价体系和指标，让广大科研人员甩下被评价的包袱，减少对科科研人员非必要的约束，为科研人员松绑，形成宽松的氛围，由科研人员自己来把控科研过程。同时，科研机构的自主评价方法、过程和结果都要第一时间接受管理部门和社会监督，以防止科技评价工作成为一部分人的自娱自乐，造成新的不公平与学术腐败。也需要实事求是地遵循科学规律，动态的、发展的理念来指导评价工作，避免武断地设置诸如“过去3年”、“近5年”等类似的时间限定条件。

3）社会独立机构的第三方评价行为

鼓励由科研主体自主确定评价方法和实施方案，委托第三方独立科技评价专门机构或社会公益性机构负责评价的组织和服务工作，实现评价标准的制定者和考核实施者分开，全部考核对象均置于一个公平的框架下进行评价，最大限度保持各自独立性，在一定程度上保证评价的公平性和公正性。例如，美国国会委托世界技术评估中心等社会非盈利评估机构承担具体的评价活动。英国独立学校督导团是一个独立的、经政府批准的、但不受政府直接管理的非盈利性第三方教育评估机构，主要采用针对独立学校督导的标准、方法和报告体系，对独立学校、私立教育和海外学校开展督导工作^[33]。

4.3 科学合理约束性使用科技评价指标（体系）

当前不论是定量还是定性的评价体系，但凡指标是基于科研表现或绩效的，这些科技评价体系都增加了研究人员和科研机构为满足考核标准而产生的压力^[34]，科技评价要致力于把考核压力转化为发展的推动力，而不是人才和机构发展的阻力。科技界需要的是自下而上的符合特定科研群体特色的评价指标体系，而不是自上而下的普适的指标体系。科技评价指标的选择不仅取决于评价对象的类型，还取决于评估的目的及其更广泛的背景。不要将研究小组内的某个人孤立出来进行单独评价，应更多注重评价一个团队，更多地利用指标来定义最低标准，而不是确定由高到低的排名；基于新兴研究小组的数量来决定对机构的资助，使用适合于评价对象所处环境的量身定制的指标^[32]。

当评价权下放给科研主体时，每个科研机构都需要一个独立的评价框架，定量与定性相结合的是科技评价指标选用的基本前提，定量指标要与专家知识结合在一起使用。同时也要注意到的一点是，定量指标也并非任何时候都是作为定性评价的支撑，有研究认为，对于跨学科或学科交叉领域的评价容易产生偏见问题，对于跨学科的研究工作，引文指标可能比同行评审更合适^[34]。只要关系到资金和声誉，不论是定量评价还是定性评价，都会对研究人员的行为带来影响，一种影响是导致目标错位，使研究人员追求在特定评估框架下的高分，而不是考量是否通过研究实现了特定目标或绩效；另一种影响是为适应评估标准而使科学或学术过程本身发生更根本性的不宜察觉的转变^[34]。

每一项评价工作都应充分认识到这些问题，特别是当前对各指标有效性的判断多数都是基于个人经历和印象，每个指标的选用都应设定合理的边界条件，尽量降低评价指标对管理工作与科学研究本身带来的负面影响。同时，呼吁从事科技评价理论与方法研究的学者，直面科技评价工作所面临的困境和挑战，广泛开展相关理论、方法与实践的研究。

对科技评价实践操作而言，科学地利用各种指标开展科技评价工作，需要处理好以下几种关系：①宏观与微观的关系。越“宏观”的层次越适用计量指标，揭示的是大数据量的“集体性”、“趋势性”规律；越“微观”的层次越不适用计量指标，小数据量的规律，计量就失去了科学意义。②整体与局部的关系。要依据评价的整体性、局部性特点，选择应用合适的评价方法。科学计量更适宜于“整体/总体规律”的计量、大数据的统计计量（从大数据分析中发现总体性规律、关联性关系），而不适宜于“局部/个体”的计量，或者过小数据的计量。个体化（局部化）问题的研究，不适宜于计量分析，比较适合同行评价。③手段与目标的关系。科学计量与科技评价是手段，其服务的目标是科技管理、科技决策。“手段”和“目标”不能错位。“手段”不等于“目标”，“目标”不能被手段“奴役”。“手段”不能简单化应用，更不能直接等于“目标”。“手段”是实现目标的工具，既然是工具，就要恰当应用，不能“不择手段”，更不能使“手段”完全失控。④数量与质量的关系。科学计量指标主要揭示的是“数量趋势”，并不适宜于“质量观察”。在研究评价和资助评价中，过度使用“引文指标”等“数量评价”，会导致对“研究质量”方面（可靠性/合理性、原创性和社会价值）的关注减少。尽管“数量”是“质量”的基础，但“数量”不能代替“质量”。⑤计量与专家的关系。同行评价与引用计量各有利弊，不是相互替代的关系，而是需要将“计量评价”与“同行评议”有效结合使用。例如，计量指标在揭示科学影响力与相关性方面得心应手，但在评价与研究质量相关的关键方面力不从心。专家评价在期刊与出版社投稿评审方面作用独特，但受累于专业知识、认知偏见、高成本、科技大数据等限制。⑥研究与应用的关系。随着研究对象和研究手段的快速变化和增加，新的计量学方法、指标也在不断推出并很快被纳入科研管理应用之中。由于计量方法具有量化性、直观性、易用性、高效率的优势，使其日益受到科技管理部门、管理者的青睐。在应用过程中，管理部门要慎用计量方法指标与计量结果，要注意使用边界条件，更多地采用全面画像而非简单指标来开展科技评价工作^[35]。计量研究可以无禁区，但评价应用要讲条件。⑦计量与评价的关系。计量结果有其特殊性、特定条件、特定环境，要具体问题具体分析，不能将“引用指标”等的计量结果直接作为评价的刚性标准。评价一个研究主体或者领域主题，要分析其边界条件、发展状况、发展阶段等。计量结果不能简单等于评价结果。

总之，基于前文所述，科学地开展科技评价工作，需要认识到科技评价没有全能指标，更没有权威指标。科学的评价体系未必需要固定的评价模式和指标系统，但一定要符合科技评价的初心。能包容自由创新，激发团队和个人的创造性和积极性，能提升团队的凝聚力，能培育青年人才，能在实现集体利益最大化的同时而不淡化个人的贡献，能最大化地促进国家、机构和个人的进步，最终服务于科学发现、科技进步与经济社会发展。

参考文献：

[1] 侯剑华, 李旭彦. 让科技评价回归科学[N]. 中国科学报, 2020-03-31(7).

[2] 张志强, 田倩飞, 陈云伟. 科技强国主要科技指标体系比较研究[J]. 中国科学院院刊, 2018, 33(10): 1052-1063.

[3] European Commission. New: European Innovation Scoreboard 2019[EB/OL]. [2020-04-22]. http://www.iprhelpdesk.eu/news/new-european-innovation-scoreboard-2019.

[4] European Commission. The 2019 EU Industrial R&D Investment Scoreboard[EB/OL]. [2020-04-22]. https://iri.jrc.ec.europa.eu/sites/default/files/2020-01/SB2019_Final_online.pdf.

[5] Clarivate. Derwent Top 100 Global Innovators 2020[EB/OL]. [2020-04-22]. https://clarivate.com/derwent/top100innovators/.

[6] 陈宁. 美国的科技评价与科研事后评价概况[J]. 全球科技经济瞭望, 2007, 22(12): 25-31.

[7] REF. Research Excellence Framework[EB/OL]. [2020-04-23]. https://www.ref.ac.uk/.

[8] 郑久良, 叶晓文, 范琼, 等. 德国马普学会的科技创新机制研究[J]. 世界科技研究与发展, 2018, 40(6): 627-633.

[9] 章熙春, 柳一超. 德国科技创新能力评价的做法与借鉴[J]. 科技管理研究, 2017, 37(2): 77-83.

[10] 方晓东, 董瑜, 金瑛, 等. 法国科技评价发展及其对中国的启示——基于CoNRS和HCéRES评价指标的案例研究[J]. 世界科技研究与发展, 2019, 41(3): 294-306.

[11] 刘强, 陈云伟, 张志强. 用于科技评价的挪威模型方法与应用综述[J]. 数据分析与知识发现, 2019, 3(5): 41-50.

[12] 北京智源人工智能研究院. 如何破除“唯论文”? 详解伯克利“科研重工业模式”的成功经验[EB/OL]. [2020-04-24]. https://mp.weixin.qq.com/s/NI_ReqRxQDccHs0ZqqVpxg.

[13] 林豆豆, 田大山. MPG科研管理模式对创新我国基础研究机构的启示[J]. 自然辩证法通讯, 2006, 28(4): 53-60, 111.

[14] 仲志磊, 程正喜, 孙强, 等. 日本理化所人才政策对中科院工程类研究所人事制度改革的启示[J]. 才智, 2017(6): 230-231, 233.

[15] Zuckerman H, Merton R K. Patterns of evaluation in science: Institutionalization, structure and functions of the referee system[J]. Minerva, 1971, 9(1): 66-100.

[16] 刘强, 陈云伟. 科学家评价方法述评[J]. 情报杂志, 2019, 38(3): 80-86, 60.

[17] Wainer J, Vieira P. Correlations between bibliometrics and peer evaluation for all disciplines: The evaluation of Brazilian scientists[J]. Scientometrics, 2013, 96(2): 395-410.

[18] Lin L L, Xu Z M, Ding Y, et al. Finding topic-level experts in scholarly networks[J]. Scientometrics, 2013, 97(3): 797-819.

[19] Whitfield J. Collaboration: Group theory[J]. Nature, 2008, 455(7214): 720-723.

[20] Abbasi A, Altmann J, Hossain L. Identifying the effects of co-authorship networks on the performance of scholars: A correlation and regression analysis of performance measures and social network analysis measures[J]. Journal of Informetrics, 2011, 5(4): 594-607.

[21] McCarty C, Jawitz J W, Hopkins A, et al. Predicting author h-index using characteristics of the co-author network[J]. Scientometrics, 2013, 96(2): 467-483.

[22] Priem J, Taraborelli D, Groth P, et al. Altmetrics: A manifesto[EB/OL]. [2020-04-24]. http://altmetrics.org/manifesto/.

[23] 王志刚. 要写有价值高水平论文不唯论文并非不要论文[EB/OL]. [2020-03-17]. https://www.chinanews.com/gn/2020/03-17/9128444.shtml.

[24] Hirsch J E. An index to quantify an individual？？s scientific research output[J]. Proceedings of the National Academy of Sciences of the United States of America, 2005, 102(46): 16569-16572.

[25] Otte E, Rousseau R. Social network analysis: A powerful strategy, also for the information sciences[J]. Journal of Information Science, 2002, 28(6): 441-453.

[26] Yan E J, Ding Y. Discovering author impact: A PageRank perspective[J]. Information Processing and Management, 2011, 47(1): 125-134.

[27] 中国科协. 2016-2017中国科协学科发展研究系列报告[EB/OL]. [2020-02-14]. http://www.xinhuanet.com/2018-04/10/c_137100739.htm.

[28] 田倩飞, 张志强, 任晓亚, 等. 科技强国基础研究投入-产出-政策分析及其启示[J].中国科学院院刊, 2019, 34(12): 1406-1420.

[29] 任晓亚, 张志强. 主要科技领域国际权威奖项规律及其驱动因素分析[J]. 情报学报, 2019, 38(9): 881-893.

[30] DORA. San Francisco Declaration on Research Assessment[EB/OL]. [2020-02-24]. https://sfdora.org/read/.

[31] Hicks D, Wouters P, Waltman L, et al. Bibliometrics: The Leiden Manifesto for research metrics[J]. Nature, 2015, 520(7548): 429-431.

[32] Moed H F. Appropriate use of metrics in research assessment of autonomous academic institutions[J]. Scholarly Assessment Reports, 2020, 2(1): 1.

[33] 王璐, 王小栋. 英国第三方教育评估的发展与规范: 基于英国独立学校督导团的研究[J]. 外国教育研究, 2018, 45(2): 16-28.

[34] de Rijcke S, Wouters P F, Rushforth A D, et al. Evaluation practices and effects of indicator use—A literature review[J]. Research Evaluation, 2016, 25(2): 161-169.

[35] Adams J, McVeigh M, Pendlebury D, et al. 全面画像而非简单指标[J]. 科学观察, 2019, 14(4): 58-65.

原文链接：https://mp.weixin.qq.com/s/8OZTcrpFpGIF6or5yvc2sg

附件下载：