【张春霆】学术评价的评价
1引言
学术评价者学术界之大事也,事关国家科技的良性发展和原始创新能力的提高;也关乎科研人员的入职、职称的提升、资助和奖励的获取等切身利益,不可不察也。
2基于科研产出的评价指标
科学研究,尤其是基础研究其产出的主要形式就是发表学术研究论文。在一般情况下发表论文的数量就成为一项主要的评价指标。当然不排除历史上或现实中某些杰出的学者只发表了极少数的论文却取得了极高的学术成就,在这种情况下再数其发表了几篇论文就变得毫无意义。但是在一般情况下这个数字还是有意义的。论文总数这个评价指标在实际计算时存在着一个用什么样的论文来统计的问题。目前国际上存在三大文献检索数据库:WebofScience或WoS(Thomson-Reuters集团);Scopus(Elsevier集团)和GoogleScholar(Google集团)。前者从11500种杂志收录论文;中者从16500种刊物收录论文;而后者则包括了比前两者更多的工程学、社会科学和人文科学刊物所发表的论文以及专利。其中WoS又包括SCIE、SSCI等7个子库。对于一个给定的研究人员或一所大学(研究所或部门)统计出的论文总数取决于采用哪个数据库。对于自然科学方面的基础研究宜用SCIE数据库(约7000种刊物);对于工程技术研究除了用SCIE数据库以外,还应参考Scopus数据库加以补充;而GoogleScholar数据库对于两者都有参考价值,而且它是免费的。
3基于论文引用次数的评价指标
3.1篇均引用次数与影响因子
论文的引用具有重要的参考价值,因为它体现了在世界范围内的小同行的署名评议,具有广泛性、公开性、公平性和客观性等优点,历来受到国内外学术界的普遍认可。其中,篇均引用次数是一个极其重要的学术评价指标。统计在一个时间窗口中所发表论文的总数(分母),以及这些论文在另一个后续的时间窗口中所获得的引用次数(分子),两者之比即为篇均引用次数。若把前时间窗口取为前两年,而把后时间窗口取为今年,则一刊物所发表论文的篇均引用次数又称为该刊物在今年的影响因子。显然,某刊物的影响因子,即其篇均引用次数,与在该刊物所发表的某特定论文所获引用次数属于两个不同的概念,两者没有可比性。例如,据Nature统计,在2005年Nature的25%的论文获得的引用次数占总引用次数的89%。换言之,另外75%的论文只获得了11%的引用次数。也就是说即使在Nature这样的刊物上发表的论文,其中大部分所获得的引用次数相当有限。笔者遗憾地指出,在我国教育界和学术界有一种用刊物影响因子来评价在该刊物所发表论文及其作者学术水平的倾向。如有的管理者甚至要求其属下必须在影响因子多少点以上的刊物上发表论文。这种倾向不仅是十分错误的,因为它背离了科学研究的宗旨;而且也是十分荒唐的,因为它误用了刊物的评价指标。著名文献计量学家A.vanRaan指出:“如果有一个观点每一位文献计量学家都同意的话,那就是:你们永远不要用刊物的影响因子来评价一篇论文或某个研究人员的学术表现——因为那是一种不可饶恕的大罪(Thatisamortalsin)”。但愿文献计量学家的忠告能引起我国教育界和学术界的警觉。
3.2考虑作者贡献之不同的权重引用次数
无论是总引用次数或篇均引用次数都是针对论文而言的。如果该论文只有一位作者,那么全部引用次数理应归于作者本人。但是如果有多位作者(这是当前发表论文的普遍形式),国际上三大文献检索数据库的现行做法是把论文的引用次数归于每一位作者,导致了一篇论文的引用次被反复计数,这是十分错误的。为了解决这一问题,笔者定义了两个概念:针对论文的引用次数和针对作者的引用次数,而后者等于前者乘以作者的贡献权重系数。权重系数是介于0和1之间的一个实数,可以根据该作者在论文中的排名计算出来。为了计算权重系数,笔者提出了一个论文荣誉的三分原则:将一篇论文由引用次数获得的荣誉等分为三份:第一作者和通讯作者各得1份(他们的权重系数均为1),其他作者的权重系数之和等于1。而他们的权重系数原则上按作者排名的先后顺序递减,详情可参见文献,在这里不再介绍。为了给权重系数的计算提供方便,笔者建立了一个网站,免费提供权重系数和权重引用次数的在线计算,详见:http://www.wcitation.org/。
3.3按学科归一化的引用分数和皇冠指标(Crownindicator)
用引用次数作为评价指标的另一个大缺点是不具有学科可比性。例如,生物医学的引用次相对较多;而数学力学的相对较少。解决这一问题的方法之一是引入按学科归一化的引用分数。假设一个研究群体在某一学科领域发表了一批论文。首先计算其篇均引用次数;其次再计算世界范围内在同一学科领域和相同情况下的篇均引用次数,两者之比则成为按该学科归一化的引用分数。其值为1表示达到了世界平均水平;其值大于1(小于1)表示比世界平均水平高(低)。于是归一化的引用分数在不同学科间就有了可比性。若一研究群体同时从事多学科研究,则还要对所涉及学科求平均。在计算过程中可有不同的变化,于是就有多种不同的归一化方案。其中荷兰Leiden大学《科学与技术研究中心》(CWTS)所提出的皇冠指标就是其中的一种,被做为世界大学排行榜的评价指标使用,详见http://www.cwts.nl/ranking/。但是仔细一想这种做法也有问题。把科学划分为各种领域是一种粗粒化的做法。问题是,粗到多粗为宜?细到多细为好?“如果划分过宽就会抹刹细节;如果划分过细,就会导致毫无用处的结果”,最终使人处于两难的境地。到目前为止,这种指标只应用于对研究群体(大学或研究所等)的评价。
4基于引用网络(Citationnetwork)的评价指标
如果把每篇论文用平面上一个点(节点)来表示,而它们之间的引用用一条连接两点的线段来表示,则构成一个网络图。引用次数是一正整数,可用实轴上的一个点来表示。而引用网络是一个二维图,应比实轴上的一些点包含更多的信息。令人感兴趣的是互联网(Internet)的众多网页和它们之间的链接关系也可用类似的网络图来表示。这使人联想到能否用互联网的研究成果来研究引用网络。互联网的网页重要性排序算法的发明是一项重要的成果,其中由美
社会网络理论中所定义的一些参数在引用网络中可能有意义。其中有一个参数叫中介中心性(Betweennesscentrality),它正比于网络中任意两个节点通过被研究节点(对应一篇论文)的最短路径数目。另一个参数叫接近中心性(Closenesscentrality),它表示该节点到其他所有节点的最短路径的平均长度。“这些参数在学术评价中有何意义仍不清楚,可能是学科交叉性的一种指标”[1]。毫无疑问,引用网络是学术评价的重要研究领域,值得重视。
5基于将论文数与引用次数相结合的评价指标:h-指数
2005年美国物理学家Hirsch提出一种将论文数与引用次数相结合的新的评价指标,称之为h-指数。一个学者的h-指数为h意味着其至少发表了h篇论文,同时至少被累积引用了h2次。由于这个学术评价指标的新颖性和简单性,立即在全球范围内引起了广泛的注意,掀起了研究它的热潮。迄今为止,至少发表了100多篇研究h-指数的论文。为了克服其缺点至少提出了十几个h-指数的变种,又称为h-型指数。面对这种局面,澳大利亚著名学者Anne-WilHarzing说:“自2005年以来提出了一打以上的h-型指数,就连文献计量学专家也搞不清楚哪些是最好的。结果,大部分科学家坚持还是使用h-指数,尽管有种种缺点”。其实这种说法是不对的,h-型指数虽然为数众多,但是它们基本上反映了相同的信息,只是表述方式不同而已。结果它们之间呈强正相关,这提示用少数一、两个即可。其中e-指数是笔者提出来的,它被定义为在h篇论文所获引用次数中扣除h2之后多余部分的平方根。简言之,在使用h-指数的前提下,e-指数补充了其丢失的引用信息,故应该同时使用。美国学者Dodson就建议同时使用h-指数和e-指数来评价大学教师的学术表现。天津大学人事部门联合使用h-指数和e-指数作为主要评价指标建立了人才评价平台,取得了良好的效果。在许多h-型指数中,g-指数是一个重要的指数,它主要反映被h-指数忽略的高引用论文的引用信息。在这点上看,g-指数与e-指数是相互冗余的。因此,在使用h-指数的前提下,(h,e)组合或(h,g)组合皆可取得满意的效果。但是g-指数在若干重要的情况下没有定义[8]。笔者重新定义了g-指数彻底消除了这一缺陷,并推导出一个公式可以从h-指数和e-指数出发快速计算出g-指数。意大利学者A.Bee开发出一套计算机程序,当用火狐狸浏览器访问GoogleScholar时,会自动显示所查询作者的h-指数、g-指数和e-指数。该程序应下载到本地计算机中运行,详见https://addons.mozilla.org/en-US/firefox/addon/45283/。
Hirsch本人认为h-指数的最大缺陷是没有考虑多作者论文中的作者人数和荣誉分配。其实,笔者也注意到了这一问题,并提出了用w-指数来解决它[4]。所谓w-指数就是建立在权重引用次数上的h-指数。Hirsch在其论文中引用了文献,并提出另一种解决方案;即h-bar-指数。在使用h-指数的前提下,当出现多作者论文时,可选用w-指数或h-bar-指数。对前者已建立了网络平台(即前已提及的http://www.wcitation.org)提供w-指数的在线计算;对后者目前尚无此类服务。
6基于互联网(Internet)的评价指标
随着互联网的普及,越来越多的学术刊物将论文在线发表,变成一份纯电子刊物。另外一些则在保持其纸质印刷的传统形式下,先期在线发表。有一种趋势就是越来越多的论文,尤其是重要的论文在网上先期发表,免费阅读或下载。这就产生了一些新的学术评价指标,如在线阅读次数和下载次数等。有的刊物,如PLoSONE,就提供其论文的被阅读次数和下载次数,以及这些次数的总和随时间的变化曲线。例如文献自
7同行评议与使用指标评价之间的关系
同行评议的常用形式之一就是提供个人推荐信。对被评价的群体、个人或一项成果由同行专家提供一封或几封推荐信,对被评价对象进行定性的描述并做出结论。这种做法需要两个先决条件:(1)同行专家必须是真正的同行,即所谓小同行,应当对被评价内容相当熟悉和了解;(2)评价专家应该认真负责、能够本着“公平、公正和客观”的原则无个人偏见地进行评价。可是有时上述两个条件很难满足。随着科学技术的高度分化,产生了隔行如隔山的现象。对于一个项目、一个成果或某个人的学术表现很难找到真正的小同行来评价。如果只能找一些大同行甚至外行来评价,则往往会导致不公平和不准确的结果。同时由于复杂的人际关系(“互评网”的客观存在),上述第二个条件有时也难以满足。在这种情况下,虽然是干巴巴的、但却是定量的和客观的评价指标可以弥补同行评议之不足。在我国,有的管理者在批评片面使用某些评价指标的弊端后,正尝试用更科学的评价方法,比如,一个院系搞得好不好由国际专家来评估。那么请看国际专家是怎样进行学术评价的。针对Nature杂志的问题:“你们的院系在做出下列决定时,在某种程度上采用科学表现的评价指标吗?”,问卷调查表明[2]:在做出雇佣决定、转正(转为终身制副教授)决定、提职称决定和学术表现鉴定方面,回答“Yes”的占问卷的70%左右,而回答“No”的只占10%-20%。而在工资决定和研究经费分配两方面,回答“Yes”和“No”的大致相同。由此可见,国外的管理者或专家在对许多问题做决定时,学术评价指标起着重要的作用。针对Nature杂志的另一个问题:“对于评价指标的使用方式,一般说来你满意程度如何?”,约1/3的问卷回答“一点也不满意”;超过1/3的问卷反馈“不是非常满意”;而将近1/3的问卷说“极为满意或非常满意”。在我国,就有管理者不满意评价指标,说他们只看推荐信,不看什么指标。但是清华大学
(来源:《中国科学基金》.录入编辑:乾乾)