自动化评分系统:主观题评判的福音
2011/08/29
8月25日下午,一场题为“An automated scoring system for subjective items in large-scale EFL tests”的专题研讨会在北京外国语大学逸夫楼举行。三位来自中国的学者分别就自动评分系统对写作、汉译英和英译汉等主观题的评测作了精彩的讲解。
主持本次研讨会并发言的是来自教育部人文社会科学重点研究基地——北京外国语大学中国外语教育研究中心的梁茂成教授。本次研讨会的主要发言人还有来自扬州大学的王金铨教授与来自对外经济贸易大学的江进林博士。
自动化评分是大势所趋
|
梁茂成教授在发言
|
梁茂成教授首先就自动化评分系统的研发背景、历史、运行机制、可信度、易受攻击性和局限性进行了条理清晰的总体介绍。他提到目前国际上的标准大型考试如托福、GRE等考试除了人工评分外,同时包含机器评卷;与阅读理解等客观题相比,主观题的人工评分成本高,可信度也有待深究,评卷员通常需要在短时间内高强度作业,这更加突出了针对主观题的自动化评分系统的必要性。
自动化评分系统是该学术研究团队从2002年开始历时近十年进行研发,融合了多位学者辛勤劳动的重要研究成果。该系统的评分无论在可信度还是稳定度上都与人工评分不相上下,甚至有时表现更加优异,但该系统对于富有创造性的作品还暂时无能为力。梁茂成教授表示该系统未来将探究更多具有代表性的文本特征以提高其可信度和稳定性,并且要提供受试者及时具体的反馈意见,使其不但是评分专家,也是指导受试者语言学习的有益向导。
写作自动化评分
梁教授紧接着介绍了针对写作的自动化评分系统项目。他从国际国内相关研究成果出发,评析利弊,引出本系统的具体研发技术,如机器学习、自然语言处理、信息检索和统计学等。梁茂成教授又进一步介绍了写作评分中关注的三大文本特征:语言、内容与组织。
为了让与会者有更加深切地体验,梁教授现场为大家演示了应用动化评分系统的具体过程,让大家明晰了研发中两大模块的实际操作步骤:模型建构与训练,自动评分的实战演练。
翻译自动化评分
据梁茂成教授在专题研讨会开始时介绍,评判翻译题目的过程同样存在评分者标准不统一、匹配度不高的问题。而江进林博士在说明研究背景时称,翻译自动评分系统同样具有实践需求,但与此相关的研究并不多。因此学者们相继开始了翻译自动评分系统的模型建构。王金铨教授和江进林博士分别介绍了汉英翻译机器评分和英汉翻译机器评分的研究过程。
|
王金铨教授
|
王金铨教授详细介绍了汉英翻译机器评分研究的五大步骤,分别是:数据收集(data collection)、人工评分(human scoring)、模型建构(model building)、模型验证(model validation)、软件编程(software compilation)。这项研究使用的语料来自不同水平层次的高校英语专业三、四年级学生在规定时间内完成的笔译作业。数据采集完成之后,由三位专业评分员进行两次评分,间隔为十六个月,评分包括形式和语义两个方面。接着,对人工评分的匹配度进行分析,从而进行模型建构。模型验证过程证实机器评分系统在诊断性和选拔性考试评判中均发挥了卓越的作用。将来,研究的重点将是如何使评分系统的语料库拥有更多的文章体裁、更多的评分样本和更普遍的语言特征点。
|
江进林博士
|
江进林博士则介绍了英汉翻译机器评分的研究过程。这项研究使用的语料来自中国外语学习者平行语料库(PACCEL),最后收集译文310篇。此项研究中三位评分员两次评分的时间间隔为一年。语料被分为建构组(training sets)与验证组(validation sets)。建构组的语料先进行人工评分,随后进行文本分析,分析得出的标准被应用于验证组的机器评分。验证组也将接受人工评分,从而对系统的性能进行分析。实验结果证明机器评分的可信度已经达到很高水平。
英语考试中主观题(作文、翻译)的机器评分若能达到高水平并实际应用,就能够很好地解决人工评分时间、人力、精力、财力均耗费较大的问题。能够使机器评分系统最终投入使用并完全取代人工评分是研究者们的梦想,他们也正用不懈的努力朝这一梦想前进。