《教育评估的体制创新》作者袁益民先生在教育评估体制创新方面所做的这一研究是一项有益的尝试。《教育评估的体制创新》从我国教育评估的历史经验和现实问题出发,以比较开阔的视野,分析描述了教育评估体制的一种新的愿景。论述中既有一般性的介绍,也有深入的分析;既有心得体会,也有理论反思;既有现实感言,也有真知灼见;既有问题的探讨,也有具体的建议,相信该项研究将能引发更多对于教育评估方面的思考。
《教育评估的体制创新》作者袁益民先生在教育评估体制创新方面所做的这一研究是一项有益的尝试。《教育评估的体制创新》从我国教育评估的历史经验和现实问题出发,以比较开阔的视野,分析描述了教育评估体制的一种新的愿景。论述中既有一般性的介绍,也有深入的分析;既有心得体会,也有理论反思;既有现实感言,也有真知灼见;既有问题的探讨,也有具体的建议,相信该项研究将能引发更多对于教育评估方面的思考。
一、国外三类高等教育评估体制的异同
由于我国高等教育的国际化程度远高于基础教育,且国内外高等教育机构之间的课程与学历互认、资源和学分跨国转移越来越多,高等教育评估体制完全可以比较直接地借鉴国外的一些好的做法。这里概要介绍国外三类高等教育评估体制的异同,以期对我国教育评估体制的创新有所启发。
国外高等教育评估体制在评估基本功能定位、评估主体性质、评估基本程序等方面没有很大的区别,在评估的管理系统方面也只有集中化程度的相对不同,而且近年来也有向中间逐步趋同的趋势。可以说,在高等教育评估体制方面,各国之间相同多于不同。
按照管理模式的不同,主要发达国家的高等教育管理以及评估体制可以大致地分为相对集中化、集中与非集中化并存、非集中化三种类型。集中化的有如法国、俄罗斯等,相对集中与非集中化并存的有如日本、德国、英国和荷兰等,非集中化的有如美国、加拿大。法国的高等教育评估的集中化程度相对比较高,高等教育机构与项目的评估统一由全国评估委员会(CNE)负责,中央政府对评估的控制比较严格。俄罗斯同样也对高等教育评估系统实行集中化的控制。日、德、英、荷等国则官方与民间都有参与,政府与非政府组织都在高等教育评估中发挥一定的作用。美国的高等教育评估则由分地区的具有院校认证职能的机构、其他专业评估机构及州一级政府分头进行。高校在是否参加评估、请哪家(或哪几家)机构评估、如何评估和确定评估结论及公布方式等方面一般均有很大的自主权与发言权,全国性的高等教育认证理事会(CHEA)只是起到一种行业性协调的作用,联邦教育部只通过其所管理的联邦项目资金要求申请者参加指定机构认证和提供相关信息等间接方式提出质量要求。加拿大的高等教育评估体制也大体相当。
但是,这些国家的高等教育评估体制却有更多的相同之处。首先,它们均把高等教育评估作为质量保障和绩效问责的一种工具,外部评估的作用越来越得到强调。第二,普遍成立了负责高等教育质量保障的机构,这些质量保障(评估)机构均有较高的独立性,在专业判断方面一般不会受到直接来源于政府的压力。第三,高校评估均具有认证的性质,在评估过程中,强调学校自评程序的作用,学校的办学目标、自主权和特色得到外部评估者的尊重,也强调同行评估和各方利益相关人多元参与。评估结论的产生均有被评机构的参与,均强调保持适当程度的透明度,评估结果多少对政府拨款和争取各种资助有一定的影响。第四,评估机构多为非盈利组织,开展评估活动一般均签订协议。第五,机构评估的制度化程度比较高,评估周期相当固定,临时性项目评估的程序也都比较规范。第六,评估的专业性和技术性比较强。
二、“犈9”七国基教评估体制简介
考虑到各国在基础教育阶段教育评估体制方面的差别非常大,为了使国外的情况介绍对我国的体制创新有较多的参考价值,这里选择了与我国同属发展中国家的人口大国“全民教育九国”(被简称为“E9”)中除我国与埃及以外的其他七个国家的情况作一简要介绍。
(一)印度
印度的教育评估的发展历程与我国有许多相似之处。在英国人到来之前,学生评估强调问答形式的口头评估。后来书面考试被强调到了成为评估的同义词的不适当的程度。一直以来,考试内容主要是学科内容,早期评估所关注的其他学习内容被忽视了,考试变成了仅限于信息获取、没有其他能力评估的以记忆为基础的活动。独立后,印度的教育评估经历了较大的变革,正试图逐步向更加具有客观、综合和连续性的方向发展。印度的教育评估改革主要包括公共考试系统和其他方面的教育评估改革的内容。
20世纪40~50年代,考试系统的改革侧重于提高考试的客观性、信度和效度,建议考试中引入客观型问题,减少主观因素;公共考试只在就读结束时举办一次;设置分数以外的计分系统;给内部测试成绩记学分,与学生校内记录和外部考试结果一起反映在考试委员会颁发的证书中;为1门或1门以上科目不及格的学生提供分科考试。
在20世纪60年代,考试改革运动取得较大进展,评估开始被看作是一个连续的过程,看作是整个教育系统的一个不可分割的组成部分,学校对于学生的内部的综合性评估得到极大的重视,以便能够评估学生发展的所有方面,包括公共考试不能测量的那些方面。教育委员会建议通过提高出卷人的技术能力,将试题的性质转向知识的分析与综合,而不是信息的获取,以及采取科学的计分程序以保证学生表现评估的最大信度等途径来改进外部考试的质量。同时建议考试委员会基于外部考试颁发的证书,应该只反映学生已通过的科目的表现。尽管不少省采取了相应的技术改进措施,但是这些建议的精神尚未能实现,教育委员会关于取消及格不及格的建议也未能实现。考试委员会继续注明不及格的科目及记分单上分数,而不能承认学生个体在感兴趣的领域的天赋和能力倾向。
到了20世纪80~90年代,考试作为改进教育质量的手段得到了强调,引入等级制评分系统和对教育的学业与非学业方面进行连续的综合性评估(CCE)的建议得到重视。20世纪90年代初,学校评估实践中引入了最低学习水准(MLLs),作为学业成就的国家标准,促进教育公平并为成功提供均等的条件。除了对1~5年级最低学习水准的能力进行具体说明,相关方法的师资培训、认知与非认知领域的测试和测量工具的开发以及对学校实施情况的监控也同时跟上了。
印度的教育评估至今主要仍然局限于年度测试和学校科目考试,但是也有走向连续的综合性评估(CCE)的趋势,正在努力建立动态促进学生学习的评估系统,改革考试工具和评分方法。同时,有一些委员会和专家报告提出了许多评估改革建议,如减轻外部考试的压力;提供更加全面的评估报告;推理与创造性能力测试代替机械记忆;从内容为本的测试转向以问题解决和能力为本的测试;鼓励内部评估;从长远看将所有学科分成标准级和较高级两个层次;在纸笔测验以外鼓励口试和团组合作评估;以更加开放、灵活、具有创造性和更加人文的考试,代替工业流水线式的评估模式。
除了公共考试方面的改革、建立最低学习水准和改进评估政策以外,印度开展了其他方面的教育评估活动和研究。从20世纪90年代初期开始,印度在区级初等教育计划(DPEP)下开展了三项评估调查研究。1994年,在7个州的42个区围绕学生1年级和3~4年级末的语言和数学学业成就水平,对1742个学校的47688名学生和4908名教师开展了基线评估调查(BAS),为计划执行期间学生学业成就的比较研究提供了有价值的数据。后来基线评估调查也在其他区得到了开展。1997年,又在42个区针对2068个学校的64674名学生和6221名教师进行了中期评估调查(MAS),比较1994年基线评估调查测得的数据,对学生平均表现进行了评估。2001年,在49个区对2444个学校的80687名学生和7587名教师进行了终期评估调查(TAS),其目的是对整个区级初等教育计划达致目标的程度进行评估。
印度还在起草“全民教育世界大会报告──2000年评估”过程中围绕18个核心指标开展了教育质量评估。此外,还启动了涵盖全民教育各方面的23项研究。印度还从1995年起每两年举办1次区级初等教育计划的联合复核活动(JointReviewMission),为该计划的各级管理者和发展伙伴提供了有用信息。其他相关教育质量评估手段包括:初等教育年度评估活动(SSAAppraisalMisson)、以社区为基地的监测(Community BasedMonitoring)以及包括相关教育统计数据(SES)、地区教育信息系统(DISE)、户籍调查、全印学校教育调查等系统性评估程序在内的教育管理信息系统等。
总体而言,印度的教育评估仍有许多方面需要改进。考试和学生连续性、综合性评估还需要改进,教育管理信息系统仍需加强,评估作为学校效能改进手段的功能仍需强化,教育评估的质量视野仍需拓宽。与印度的大规模的评估研究取得的明显进展相比,以学生和学校为中心的评估仍需要进一步深入。
(二)巴基斯坦
巴基斯坦教育部根据1976课程、教科书监督和教育标准维持法负责教育标准的维持。对于教育质量的要求反映在“国家教育政策1998~2010”“教育部门改革2001~2006”以及其国际承诺中。“国家教育政策1998~ 2010”对于教育目标达成情况的监控和评估提出了一系列政策建议:国家教育发展理事会修订政策规定的实施、监控和评估;联邦监控和评估委员会开展详细的政策执行方面情况的总结评估,结果作为国家教育发展理事会的主要信息来源;省级教育发展理事会承担季度性的政策目标的综合总结评估,作为国家教育发展理事会的前期作业;省级政策执行委员会总结评估执行、物质和财政目标、质量、人力开发和其他关键问题;地区教育主管部门总结评估地区层次的政策执行,并负责社区动员和调配扫盲和教育发展的经费资源;联邦和省级的学校管理委员会保证主要政策规定的执行,并作为教育主管部门的信息主要提供者;联邦和省级的教育管理信息系统负责开发和维护涉及教育质量关键指标的数据库。
巴基斯坦的教育评估主要是通过学校内外的升学评估进行的,八年级以下实施内部评估,之后实施中等教育委员会、技术教育委员会和阿拉玛·伊克巴尔开放大学(AIOU)的外部考试。学生学习结果的评估近年来开始走向制度化。巴基斯坦在国家、省和地区成立了8个评估中心,整个系统被称作国家教育评估系统(NEAS)。该系统的目的是建设学校、省和国家层面的评估能力,更好地测量学习结果和改进项目干预的质量与有效性。作为联邦层面的政策协调单位的国家教育评估系统(NEAS)、省级教育评估中心(PEACES)、地区级教育评估中心(AEACS)和合作院所的评估培训中心,负责开发和执行国家级评估和向利益相关人分发评估信息。
2000年设立国家教育评估系统(NEAS),但2002年开始才正式启动全国性的学习成就评估,此前利用标准化测试工具提供学校教育质量的证据几乎是个空白。2005年,举办了首次国家级成就测试,随机抽取的784所学校的11977名4年级学生参加了测试。目前,国家教育评估系统(NEAS)的功能还很有限,但它在测试技术上借鉴了TIMSS、PISA、TOEFL和SAT等国际评估和考试的一些先进的做法,也已经在通过开展国家层次的大规模的测试找出影响教学过程和整个教育系统的因素等方面取得了一定的进展。
在教育质量评估方面,除了学习成就评估,国家教育部门改革指导委员会负责检查国家教育部门改革行动计划的政策执行,省级教育部长联席会议负责决定各种政策问题,并保证它们的执行。
(三)墨西哥
墨西哥把教育系统的评估作为教育管理改革的一大目标,具体包括:巩固国家教育评估体制,加强教育研究与革新,促进规划项目和项目评估文化,开发国家教育指标体系,建立国家教育信息系统。但是,制订评估教育的政策只是近40年的事,教育评估系统化、全国化和公开化更是当前的事,在最近10年内得到了强化。
墨西哥教育评估的发展经历了三个主要阶段。20世纪70~80年代,公立教育部开始系统建立反映全国教育概况的人口普查教育数据档案,并启动了初等教育的评估。
20世纪90年代,开发了初等及中等教育学习评估的一些工具,协调所有教育评估活动的全国教育评估系统(SNEE)建立起来了,并开展了一些国际性学习测试,如1995年国际教育成就评估协会(IEA)指导开展的第三届国际数学与科学趋势调查(TIMSS),1997年联合国教科文组织拉美地区办事处指导开展的拉美教育质量评估实验室(LLECE)计划,2000年经合组织指导开展的国际学生评估项目(PISA)。
2001年后,把教育评估看作教育主管部门规划和正式报告教育事项的战略性的根本要素,重组评估部门,并于2002年通过一项总统法令成立了国家教育评估学会(INEE)。这一进展是这个阶段的主要标志。
墨西哥的现代教育评估尽管发展历史不长,但是却取得了较大的进展,体制逐步健全,评估活动十分活跃,水平不断提高。墨西哥建立了教育政策评估系统(SEPE),作为教育系统绩效问责的长效机制,它协调不同机构的活动,开发指标体系,建立评估标准,其产生的信息供联邦和州一级主管部门、教育工作者和社会使用。