一场GRE机考共包括六个部分的题目:一个写作部分(共两篇作文,一篇 Issue,一篇 Argument),两个语文部分(每个包括20道题目,时间30分钟),两个数学部分(每个包括20道题目,时间35分钟),以及一个不算分的加试部分(有可能是语文或数学,形式及时间均与算分的语文和数学部分相同)。 在实际的GRE考试中,加试有可能出现在作文之后的任何位置,而且没有任何专门的标记,也就是说考生无从判断哪一个部分是加试,只能每个部分都全力以赴作答。于是经常会有人问:为什么GRE一定要有加试、导致考生在考场上要多做半个小时的题目? 早期GRE考试的加试只有一个目的,即对未来的考题进行预测试,保证题目质量。后来GRE的加试题多了一个功能:确认未来考题的难度以便为其设定专门的算分标准,从而保证不同场次考试成绩之间具有可比性。实际上,正是因为这一功能,如今GRE成绩五年之内有效的设计才得以实现,考生才可以选择在申请之前五年内的任何时间参加GRE考试。 成绩有效期背后的努力 包括GRE在内的众多国外标准化考试与国内的升学考试相比一个很大的区别在于,国外标准化考试的成绩有效期通常会覆盖多次考试,而国内升学考试成绩的有效期通常只包括一次考试。比如,我国的高考每年只举行一次,每次考试的成绩只能用于当年的高校招生;如果考生想参加下一年招生的话,只能复读一年去参加下一年的高考。但是GRE考试的成绩有效期长达五年,考生在取得成绩之后五年内的任何时间都可以用该成绩申请。而又因为GRE考试每年会举办多次,因此GRE成绩的有效期会覆盖数十场甚至更多考试。 其实最早的美国的标准化考试成绩有效期也只覆盖一次考试。美国高考SAT在1926年推出之初与我国现如今的升学考试一样,每年只举办一场考试,且成绩只能用于当年的申请。从1938年开始,为了方便考生,SAT改为每年举办两场考试,其中任何一场考试的成绩都可以用于当年的申请。 然而这种允许不同场次考生的考生同时进行申请的做法却对申请的公平性造成了巨大的威胁。因为不同场次考试题目的难度难以做到完全相同,因此如果考试成绩是根据考生答对的题目数量计算而来的话,成绩就会失去可比性,参加难度较高的一场考试的考生显然会吃亏一些。于是SAT从1940年逐步开始对每场考试的成绩进行等化(equating)计算,以保证不同场次考试成绩之间具有可比性。 这一过程具体的实现方法为,在两场不同的考试中设置一部分相同的题目作为参考基准(anchor),由此计算出两场考试考生水平的差异,然后进一步可以计算出考试题目难度的差异。 例如我们假定某项考试一共只有两道题,第一场考试的两道题目为A、X,考生在这两道题的平均正确率分别为40%、50%;第二场考试题目为B、X,正确率分别为45%,45%(如下表所示)。可以发现,第一场考试的考生在作为参考基准的X题上正确率高于第二场考试的考生,说明第一场的考生水平略高;然而第一场的考生在A题上的正确率却低于第二场考生在B题的正确率,说明A题比B题要难。 通过这些考试中的基准题目,出题人可以计算出每次考试题目的难度,然后据此为每次考试设置专门的算分标准:如果某次考试题目难度较低,则考生需要做对更多的题目才可以得到特定的分数,反之亦然。在SAT中,这部分用作参考基准的题目就是以加试形式出现的,不参与考生成绩的计算。GRE成绩的等化 早期GRE等化成绩时采用的是螺旋法(spiraling),不需要加试部分参与,加试唯一的目的是测试未来的考题。所谓螺旋法指的是每一场考试的考生都被随机分为两组,其中一组使用的考题是之前考过的旧题,另一组使用的是新题(当年美国考生不像中国考生那么热衷于将自己的考题违规分享给别人,因此考到旧题的考生并不会获得额外的优势)。由于每场考试考生的总数足够大,随机分配的两组考生在平均水平上可以被视为是相同的。根据这两组水平相同的考生在两套不同题目上的表现就可以计算出新题相对于之前旧题的难度 。而该次考试的新题在未来的考试中会作为旧题出现,成为计算更新题目的难度的基准。通过这样不断迭代下去,任何两场考试的成绩之间都是可比的。 螺旋等化法示意 然而GRE的螺旋法在上世纪70年代末却遭到了致命的打击。1979年7月13日,"考题公开法案"在纽约州正式签署生效。该法律规定,所有在纽约州举办的标准化考试在考试结束后要公开所有的考题以及正确答案,以供全州人民监督。同时其他各州也表现出了效仿的意愿(但实际上,后来只有加州推出了类似的法律,而且在要求上比纽约州的法律松懈得多)。 螺旋法最大的问题在于每套考题至少要使用两次,而"考题公开法"要求考题使用一次之后就要完全公开,导致题目无法继续使用。纽约州的法律相当于直接宣判了螺旋法的死刑。 直到今天,纽约州的GRE考生仍然可以享受到全世界独一无二的查看考题服务:考生可以在考试结束一个月后再次前往考场查看自己当初的考题。服务收费50美元,整个查看过程不允许考生记笔记和拍照。 好在立法者还是为各大标准化考试留了一条活路:考试中不算分的题目可以不公开。于是从1981年10月开始,GRE用预等化法(section pre-equating)取代了螺旋法。所谓预等化法指的是每场考试中将未来的新题设置在不算分(也就无需公开)的加试部分,将算分部分的题目作为计算未来考题难度的参考标准,然后在未来的考试中将这些的新题用于算分部分并计算更新题目的难度。用此方法不断迭代可以实现考试成绩之间永远具有可比性。 预等化法示意 今天的GRE考试虽然在成绩等化上虽然采用的是更加复杂的算法,但根本原理仍然与预等化法相同。这也是为什么GRE一定要有加试。 同时不难发现ETS为什么要把加试部分设计得和算分部分尽可能相像以至于让考生无法区分:如果可以明确区分出加试部分的话,很大一部分考生会选择直接跳过此部分;而即便是愿意作答的考生,答题时也不会像对待算分部分那样全力以赴。不管是哪一种情况,ETS都无法准确判断题目的难度,考试的可靠性也就无从保证。 可见,正是因为加试的存在,GRE才可以成绩有效期长达五年且仍然对每场考试的考生都保证公平。 实际上,GRE成绩五年有效期的设计是主要考虑到考生的认知能力超过五年后可能会有显著的变化;单纯从考试的角度来看,GRE只要考试内容不改革,成绩是可以无限有效的。