走近机器智能评阅——记梁茂成教授于ELT2017大会主旨发言
2017/10/25
第八届中国英语教学国际研讨会(ELT2017)于2017年10月20日正式开幕,在“国际化环境下的英语教学:新视角、新方法”的主题下,北京外国语大学中国外语与教育研究中心的梁茂成教授以Automated writing evaluation为切入点,为我们揭开了“新奥秘”的神秘面纱:
奥秘一:iRater--Automated Essay Scoring
关键词:大规模、同题作文、与人评相关
iRater是用于大规模考试作文评分的系统,采用有监督的机器学习方式(supervised machine learning),即机器需预先输入经专业评分员评分的作文样本作为训练集,用于机器学习,机器会根据每一个特定的作文题目,提取38种特征建立评分模型,并将该模型用于更多同题作文的评分。在评分过程中,程序会根据作文文体和要求的不同,智能选取其中预测能力最强的部分特征。
小骄傲:
经约11万“外研社杯”全国英语写作大赛作文的评分验证,iRater的评分信度不低于且常常高于人工评分的信度(r > 0.80),评分效果甚是良好!
PS. 除以上内容外,梁教授还介绍了利用人工神经网络(Artificial Neural Network)技术进行作文自动评分的最新成果哦!
奥秘二:iWrite--Automated Writing Evaluation
关键词:日常教学、分项评分、即时反馈
iWrite是用于日常教学作文智能反馈的系统,采用无监督的机器学习方式(unsupervised machine learning),机器按照语言、内容、篇章结构及技术规范四个评价构念,提取16种特征,实现对不同话题作文的分析型评分(analytic scoring),并根据各分项得分给出相应的诊断性反馈(diagnostic feedback)。
小骄傲:
尽管iWrite与iRater的评阅原理与应用场景不同,仍有不少研究者以iWrite的analytic score与人评进行了相关性研究,在未经任何特定调整与训练的情况下,iWrite的分数仍与人评分数达到了0.70的强相关!
奥秘三:Coherence Measurement
关键词:连贯性评价、联想词库、领域内首创
内容评价是机器智能评阅中的一大瓶颈与难题,梁茂成教授对此提出了领域内首创的基于联想词库的内容评价方法,并对其中的连贯性评价进行了详细的介绍。从概念上讲,连贯性(coherence)是相邻句子间的逻辑连接(logical connectedness);从操作上讲,连贯性是相邻句子意义间的重合(overlap of meaning)。而句义由组成句子的单词的意义而定,而单词的意义最终由基于大规模语料库提取的词语向量(vector)通过量化的方式表达。梁教授以grammar以及grammar school为例,基于联想词库为我们直观、生动地展现了其中的原理:
当输入grammar时,联想到的单词为syntax,vocabulary,linguist,linguistics等;而当再多输入一个school时,此时联想词就变成了pupil,education,teacher,student等。这一技术的应用,可以有效侦测与grammar和grammar school各自相关的话题,从而实现对语篇连贯性的测量。
基于联想词对语篇连贯性进行测量的创新理念与实践已成功运用在了iWrite 2.0英语写作教学与评阅系统(以下简称“iWrite 2.0”)中,欢迎各位老师在iWrite 2.0中体验梁教授的研究成果哦!
小骄傲:
由谷歌公司推出的Google Word2Vec也可以实现词向量技术,但因其所提取的相关词语大多为低频词,对学生作文的连贯性评判效果不尽人意。梁茂成教授提出的基于联想词的方法,以大规模语料库为资源,结合智能算法,可以更为有效地实现对语篇连贯性的测量。经学生作文大数据检验,基于联想词库测得的语篇连贯性与人工评判的连贯性高度相关,成为作文评价模型中最为稳定的变量之一。
梁茂成教授全面清晰地向参会教师展现了机器评阅的原理和成果,参会教师纷纷点赞,表现了对其应用成果iWrite 2.0及其创新内容评价的兴趣。现场不少教师踊跃体验试用iWrite 2.0,亲身感受机器智能评阅领域的新技术,新成果。教学实践离不开一定的理论指导,相信基于梁茂成教授的介绍,各位教师可以将机器评阅,将iWrite 2.0更加科学、合理地运用到实际教学中!
Tips:iWrite 2.0英语写作教学与评阅系统(http://iwrite.unipus.cn),支持自由注册和免费试用哦。点击链接或扫描下方二维码,点击“注册”即可开启机器智能评阅体验之旅!