2022暑期研修 | 以研促教:认识语料库语言学研究全貌,探究语料库与R语言应用创新
2022/08/26
8月14—15日,外研社2022年暑期全国高等学校外语学科中青年骨干教师高级研修班第十期——“语料库在外语教学与研究中的应用研修班”在线举办。本期研修班特邀北京外国语大学许家金教授、刘鼎甲博士和徐秀玲博士主讲,详细介绍了语料库语言学的基本概念、当前主流的语料库资源、语料库创建与加工的方法、通用语料库工具的核心功能、R语言在语料库研究中的应用、数据驱动学习的原则与方法等内容,并通过操作演示,帮助来自全国近300所院校的500余名参班教师和研究人员掌握语料分析与统计工具,精进语言研究与教学能力,提高科研效率。
北京外国语大学 许家金教授
北京外国语大学 刘鼎甲博士
北京外国语大学 徐秀玲博士
报名通道持续开放中
8月30日前可无限次观看视频、反复学习!
厘清语料库基本概念
认识语料库类型与功能
研修伊始,许家金教授为我们系统梳理了国内外不同类型的主流语料库,主要包括通用语料库、专用语料库、自建语料库、本族语语料库与非本族语语料库等。随后,许教授以Brown Corpora、CQPweb、DEAP Corpus为例,详细介绍了在线通用语料库的建设历程、代表人物及研究用途。
然后许教授演示了通用语料库工具的核心功能,主要包括列表(含词表、短语表及主题词表)和检索功能(简单检索、高级检索及搭配分析),用AntConc语料库工具分别展示了Crown美国英语语料库和DEAP学术英语语料库的使用方法,并以DEAP语料库中的AgriDEAP子库为例,分析了农业英语的词汇特色,为参班教师提供了相关研究的选题思路和建议。
许教授带领大家了解了当前具有代表性的语料库,并详细介绍了English-Corpora.org在线语料库平台,对该平台上的语料库,如NOW(News on the Web)、COCA(Corpus of Contemporary American English)、COHA(Corpus of Historical American English)、BNC(British National Corpus)等逐一进行了介绍,帮助参班教师了解这些语料库的研发背景、库容、更新情况、文体类型等方面的内容。除了在线语料库资源之外,许老师还展示了一些需要下载的语料库工具(WordSmith、AntConc、MonoConc、PowerConc)。
在回顾了语料库的类型和功能之后,许教授阐述了自己对于如何利用语料库资源进行数据驱动学习的理解,其中“数据”指的是语料数据,即大量真实语言使用实例,而“驱动”指的是概率驱动,即出现频数和共现频数。他认为数据驱动学习应遵循“四用原则”(真材实用、优选常用、单词连用、情境活用),为学生提供选材地道、语境典型的优质输入语料。
学习语料库创建
探究语料库应用实践
为帮助参班教师了解语料库的创建与加工过程,刘鼎甲老师先讲解了语料库的设计思路和语料的取样原则,之后介绍了TreeTagger、USAS English semantic tagger、Stanza等语料库加工工具,并带着参班教师分步进行元信息标记、词性标注、句法标注、文件转码和批量更改文件名等操作。
徐秀玲老师以当前一些主流的中英文在线语料库平台,如多语种在线语料库检索平台BFSU CQPweb、语料天涯(Corpora A-Z)、BCC语料库(北京语言大学现代汉语语料库)、绍兴文理学院开发的中国汉英平行语料大世界、COCA等为例,详细演示了如何通过正则表达式在语料库中进行词汇检索,以此来找到更常见、更地道的词汇表达,帮助参班教师更好地利用语料库资源开展语言研究和教学活动。
认识R语言统计方法
领悟数据解读与分析
针对R和RStudio的安装步骤,刘鼎甲老师做了一步步详细拆解,耐心解答参班教师在安装过程中出现频率较高的问题。为更好地将语言研究与R语言统计方法衔接起来,徐秀玲老师通过带领参班教师解读R语言在语料库研究领域的论文案例,帮助各位老师初步了解翻译语言研究中的条件推断树方法和语法研究中逻辑斯蒂回归建模方法。
随后,徐秀玲老师带领参班教师一步步地进行条件推断树和逻辑斯蒂回归建模的操作,包括用Rstudio打开代码、导入text文本、更改数据类型、数据汇总、加载程序包、绘图与图形解析、建模评估等步骤,详细解析了衡量模型拟合度的指标(模型的总体分类准确度和模型的C值),并结合案例中的固定效应和随机效应数据对模型评估结果进行解读。由于R语言的统计方法对于部分参班教师而言具有一定难度,徐秀玲老师还推荐了一些R语言入门书籍,并鼓励各位老师课后多阅读相关文献。
外研社高英分社 李晓雨
本次研修班由外研社高等英语教育出版社分社李晓雨主持。李老师在研修总结中介绍了由许教授主编的“外语学科核心话题前沿研究文库·应用语言学核心话题系列丛书·语料库语言学”系列图书、“外研社语料库研究系列”图书、《语料库语言学》集刊,以及其他和语料库、R语言相关的学术研究与教学资源。
为期两天的研修短暂而充实,三位老师详细介绍了主流语料库的资源及用途、演示了语料库的创建和加工方法,并细致解答了参班教师的提问,激发了参班教师深入学习语料库的兴趣,启发了大家应用语料库进行外语教学与科研的思路。希冀各位老师能够多阅读、多积累相关文献,夯实理论基础、提高实践能力,拓展语料库的教学科研思路,推动语料库在外语学科中的发展。
*包括本期研修班在内的“全国高等学校外语学科中青年骨干教师高级研修班”特别设置为期两周的回放,便于参班教师复习消化。
外研社将继续努力推动教师发展共同体建设,帮助教师切实提升教育教学能力,助力外语教师做好“经师”、善为“人师”,培养更多有家国情怀、有全球视野、有专业本领的复合型人才。
反思日志摘录
两天的研修班结束了,学到的知识很丰富。感谢三位老师的耐心指导,感谢外研社的组织,我们有机会接触到语料库语言学。两天的学习显然不足以让我们熟练掌握并使用语料库,但正如许老师所言,两天足以让老师们踏入语料库学习研究的大门,剩下的就是根据自己不同的研究方向和兴趣在实践中掌握并继续学习语料库的创建和使用。学习过程中,令人感动的是三位老师的匠师精神以及外研社工作人员的认真负责态度。他们都全程参与并关注学员们的学习情况,聊天框内学员的疑问总能及时得到解答,所需要的资料总是能及时得到满足。十分感谢,希望以后还能有机会参加这种精品研修班的学习!
——李老师 南京信息工程大学
本次研究班不仅详细介绍了语料库的基本概念和具体实操,还为老师们提供了丰富的语料库资源。其中我个人觉得收获最大的就是对R语言有了基本的认识。作为学科前沿的研究工具,R语言确实十分强大,很感谢老师的细致讲解。深感此次研修班的主要目的是为了调动老师们对语料库的兴趣和积极性,促进老师们能用语料库做更多的细化研究。我认为这一期望已经达到了,剩下的就是自己去琢磨和创新。再次感谢老师们的倾囊相授。
——莫老师 湖南大学
......这次培训的三位老师都是我国语料库语言学领域的领军人物,能够有幸听到三位老师耐心细致地讲解,深入浅出,将理论与实践操作融合展示,让我这个小白能更直观地了解到语料库语言学的研究步骤和过程,为我将来自己选题做科研有非常大的启发和帮助......也更激励我继续往语料库这个研究方向继续前进。最后,感谢培训班的全体老师,感谢三位主讲老师分享的各种网站、软件和学术资源。
——符老师 广西医科大学
本次研修是一场知识的盛宴,令我受益匪浅。语料库研究前景广阔,但内容庞杂,大量的术语、繁杂的操作让入门者望而却步。感谢许家金、刘鼎甲、徐秀玲三位老师从技术、理论和实践三个层面条分缕析地、手把手地耐心讲解与教学指导,将老师们引领进这座研究宝库,丰富和延伸了老师们的研究领域,提升了大家的研究能力。时间虽短,收获满满,感动于三位老师的博学、真诚和无私奉献,同时也要感谢外研社提供的这次宝贵的学习交流机会,希望再次能够参加研修活动。
——李老师 聊城大学
乐思奖获奖名单