高等英语教育出版分社

首页> 学术科研> 我来读文献>《外语教育研究前沿》“量化研究方法”专题文章|“我来读文献”【文章阅读】No.112

《外语教育研究前沿》“量化研究方法”专题文章|“我来读文献”【文章阅读】No.112

作者：文秋芳

书号：-

出版日期：

定价：¥-

出版社：-

领读专家

许宏晨

北京语言大学教授、博士生导师，北京语言大学教授，国际应用语言学协会会员，中国语言学会社会语言学分会会员，中国英汉语比较研究会二语习得研究专业委员会理事。研究方向：社会语言学与外语教学、应用语言学、量化研究方法等。主持并完成1项国家级项目和2项省部级项目。近几年出版《第二语言研究中的结构方程模型案例分析》等专著4部，发表论文40余篇，录制在线课程10余门。

研究方向：应用语言学量化研究方法、外语学习者个体差异、社会语言学、跨文化交际

导读

欢迎参加第112期“我来读文献”活动

本期活动关注话题：量化研究方法

在国内外的外语教育实证研究中，虽然近年来定量研究的比例有所下降，但总体上定量研究范式仍然占据主导地位。混合研究设计近年来也越来越受欢迎，这种范式可以充分整合定量研究和定性研究的优势，实现对定性和定量数据的三角验证（徐锦芬、杨嘉琪 2023）。由此可见，掌握量化研究方法对外语教育研究者而言至关重要。

在此背景下，第112期“我来读文献”活动关注C刊《外语教育研究前沿》上刊出的“量化研究方法”专题文章。本期活动的领读专家为《外语教育研究前沿》审稿编辑、北京语言大学许宏晨教授。

思考题及解答

思考题下载

第一阶段

第一篇论文中表6各年龄段考生成绩的总体差异都显著，意味着什么？是不是指年龄增加，成绩大幅度增加？这个“显著”指的是什么？

许老师：“显著”意味着就各个年龄段的平均分而言，至少有一对年龄段的平均分之差达到了统计学意义上的显著（即差值显著地不为零），也就是说平均分之差非常大。它的含义并不是随着年龄的增加学生的听力理解成绩也在大幅度增加。它仅仅表明各组之间有差异，而且差异很显著。

第一篇论文中表7事后检验是什么？

许老师：事后检验是指方差分析统计量F值达到显著水平之后，具体考察差异存在的位置时需要做的检验。以总分的F检验结果为例，表6显示，它达到了显著水平（F=106.588，p<0.01），说明就各个年龄段的总分平均分而言，至少有一对年龄段的平均分之差达到了统计学意义。这时就需要进行事后检验，看看差异到底在哪里。通过表7可以看出，10岁组与9岁组之间的总分之差（7.3）达到了显著水平，9岁组与8岁组之间的总分之差（12.4）也达到了显著水平。可是，11岁组与10岁组之间的总分之差（3.2）以及8岁组与7岁组之间的总分之差（2.9）并未达到显著水平。

第一篇论文中表6各栏除了显著性的数值有意义，其他各栏的数值都代表什么？

许老师：其他各栏都是为了能够计算出来F值所需要的数据，包括总平方和、组间平方和、组内平方和、组间自由度、组内自由度、组间均方和组内均方。表6中的平方和是指组间平方和，df是指组间自由度，均方是指组间均方。但是作者并未汇报其他统计量。其实，读者不必纠结于此，因为这些量统计软件都可以帮我们计算出来，它们的实用价值不大。需要注意的是，在方差分析的结果汇报中，我们最常需要汇报的量有F值、组间自由度、组内自由度以及显著水平。详细汇报样例可以参考许宏晨（2013）《第二语言研究中的统计案例分析》一书“单因素组间方差分析”一章。

第一篇论文讨论部分提出“以语音语调为主要指标的发音能力提高幅度最小”是根据哪个数据得出来的？从表7看，似乎是第一部分幅度最小，但第一部分似乎并不关乎发音能力。

许老师：我理解是根据表7第三部分的得分看出来的。因为第三部分相较于其他部分的差异而言变化是最小的。而第三部分考察的内容涉及到以语音语调为主要指标的发音能力。

第一篇文章说，测试评分采用双评的形式，考试过程全程录音。一评由考官根据考生的表现现场打分，考试结束后盈德测评专家对各考生第二到第五部分的表现再次评分。最终成绩取平均分。既然如此，那么为什么没有报告inter-rater reliability呢?

许老师：这个质疑是有道理的。作者应该报告这个指标以便增加研究的说服力。不过，作者采用了取平均分的方法，在一定意义上说也是一种努力，让主观性评分更加客观一些。

第一篇论文中京外考生142人里的一部分（比例不清楚）是从三年级才开始学习英语的，而绝大部分是一年级开始学习的，不知道作者为什么没有报告相应的比例呢？

许老师：我的理解是因为京外考生人数远远低于北京考生，比例分布对结果影响不大。所以作者没有报告。

第一篇论文讨论部分里谈到“第三部分主要考察语音语调和组构知识学习策略…中年级开始有所进步，但幅度不大…”这个幅度不大是怎么得出来的？我看第三部分得分中年级8-9岁事后检验两两比较是呈现显著水平啊？是因为作者的界定“中年级年龄在9-10岁之间”，就把第三部分8-9岁的显著性差异有选择地省略了吗？

许老师：我的理解是这个1.6的差距虽然达到了显著水平，但是较其他部分而言还是略少。第一、第二、第四、第五这些部分在9岁组和8岁组之间、10岁组和9岁组之间均有显著差异，而第三部分只有在9岁组和8岁组之间有差异，相比来说，幅度不大。

请问测试的Cronbach's α怎么计算呢？与问卷相似，输入各部分分数和总分，用SPSS做信度分析吗？（第一篇）

许老师：是的。只要输入原始数据，SPSS的信度检验模块（Analyze—Scale—Reliability）就可以计算得到。

研究对象的取样上有什么讲究吗？像本文（第一篇论文）是京内考生占94.3%可以吗？是否需要purposive sampling都选取京内考生，或者京内或京外各占一半这样结果会更有代表性以及generalizability呢？

许老师：这个质疑有一定的道理。本文研究对象过于集中在北京小学生，所得的结论可能更适用于北京的情况。如果样本分布比较均匀，各地都有一些，那么结果的推广性会更大一些。不过，从实际出发，研究者可能很难获得京外小学生的数据，因此北京的小学生占了绝大部分比例。这也是不得已。但这恰恰也给我们读者启示：我们不妨按照同样的思路，运用同样的测量工具去考查一下省会城市、中小城市的小学生的听说能力，这也是很有意义的。

请问五组学生人数差距较大（从200+到600+）会不会影响事后检验结果，需不需要在选样的时候特意控制各组人数呢？（第一篇）

许老师：人数相差过大有可能会影响统计检验结果，所以在抽样时最好能够让各组人数接近。当人数相差过于悬殊时，我们也可以通过考察方差齐性的方法来提高统计检验的可靠度。从本研究的表5来看，各年龄段在同一部分的标准差基本上比较接近，可以认为人数对统计检验结果影响有限。

对于讨论当中原因的解释，是否应该用其他研究工具（如观察、访谈等）来佐证这些原因？只用前人文献来支撑，会不会有主观臆断的可能？虽然论文本身应该是基于critical thinking。（第一篇）

许老师：这个建议很好。一般说来，我们应该通过多种来源的数据从不同角度来说明/解释同一问题。但是，访谈的方法对本文的研究对象不太适用：小学生对自己的听说能力这么抽象的概念很难有一个比较全面的认识，并用语言表达出来。出于这种客观条件限制，研究者没有加入对小学生的访谈也是可以理解的。至于观察，研究者其实在本研究的测试中就已经实现了，第一部分的测试可以算作观察。此外，作者在研究过程中还加入了以往对小学英语教师授课的课堂观察作为例证。

能否解释一下Cronbach's α系数的意义？如何计算？（第二篇）

许老师：Cronbach's α是量表内部一致性的指标，在本例中就是指量表中这27个题目之间的相似程度，它是测量量表可靠性的指标。该指标的取值范围在0到+1之间，越接近+1，就说明量表内题目的一致性越高。本研究中量表的一致性水平是0.93，很接近1了，这就说明该量表很可靠。关于如何计算Cronbach's α，详请参阅《第二语言研究中的问卷调查方法（第二版）》的第四章。

用扎根理论对评价和反思进行编码，不太清楚怎么操作，请老师帮忙解答。（第二篇）

许老师：鉴于本期活动聚焦量化研究方法，在此我不再详细解答质性研究方法相关问题。关于质性研究方法，我推荐一本经典书目——陈向明老师所著的《教师如何作质的研究》。

请老师帮忙解释一下该脚注内容：Shapiro-Wilk检验显示，本研究数据符合正态分布（p>0.05），因此全部采用参数检验。（第二篇）

许老师：这个其实是量化研究中的一个小前提：如果想要使用t检验、方差分析，以及回归分析等参数检验，研究者都需要做一个数据的正态性检验。当数据符合正态分布，才可以使用参数检验；否则需要采用非参数检验方法。

文章在使用配对样本t检验的同时也使用了独立样本t检验。同组的前后对比使用配对样本t检验，是否每次还需要独立样本t检验？（第二篇）

许老师：t检验包括两大类，一是独立样本t检验，二是配对样本t检验。本篇文章同时使用了两者。当自变量的水平将被试分为两个相互独立的组别时，若要比较两组的平均数是否有显著差异，就要使用独立样本t检验。在本文中，作者使用了独立样本t检验（见共读文献中的表2）比较实验组（使用TSCA的一组）和对照组（使用传统评价方法的一组）的平均分的差异。当自变量的水平将被试分为两个相互关联的组别时，若要比较两组的平均数是否有显著差异，就要使用配对样本t检验。在本文中，作者使用了配对样本t检验（见共读文献中的表3），旨在比较实验组的前测和后测的平均分的差异。关于t检验的具体操作流程及案例，详情参阅：许宏晨，2013，《第二语言研究中的统计案例分析》。北京：外语教学与研究出版社。

平均年龄19.57岁（SD=0.78）这里标明SD的意义是什么？（第二篇）

许老师：SD代表标准差，指的是样本中每一个体的得分与样本平均数的距离。以研究对象的平均年龄19.57岁（SD=0.78）这一数据为例： 19.57 ± SD*2 = 18.01~21.06 也就是说58个研究对象中，有95%左右的学生的年龄都处于上述数值区间，即在18~21岁内。

实验组和对照组的英语写作水平（p=0.540）是通过什么方式测的？文中提及的高中低三个组别具体是如何划分的？（第二篇）

许老师：英语写作水平是通过前测时让学生写作文来测的（但文中未报告具体写作任务）。三个水平的组别是通过三轮写作任务测出的（详见共读文献中的表1）。

对修改后的量表进行试测，应该用多少样本比较好呢？只要Cronbach's α系数比较好就可以了吗？（第二篇）

许老师：一般来说Cronbach's α系数比较不错就可以了。样本量一般来讲当然是越大越好，我做调查研究的话，样本量一般都在一百以上，因为样本量过小会导致检验结果不稳定。当然，如果你实在招募不到这么多受试，那么样本量最少30人也是可以的。

请问许老师，如果本文对照组前后测也有显著差异，这篇文章的结论还能得出吗？（第二篇）

许老师：即便对照组前后测也有显著差异，但如果实验班提高的幅度比对照班提高的幅度大，也能说明TSCA是有价值的。

我对论文最后部分提到的“教师在写作过程中的情感中介作用”比较感兴趣，能否请老师推荐几篇比较好的相关文献？（第二篇）

许老师：文中引用的Li（2015）本身及其所引文献大家可以进一步了解。另外，关于师生合作评价，大家可以关注孙曙光老师的研究成果。除了文末列出的那几篇论文，大家也可以关注：孙曙光，2021，《产出导向法中师生合作评价》。北京：外语教学与研究出版社。

您认为从这篇学术论文出发还可以进行哪些新的探索？（第二篇）

许老师：中分组只有在任务方面有显著差异，低分组只有在语法拼写有显著差异。这是否说明TSCA只适用于学习成绩较好的学生？沿着该思路，我们或许可以探究学习策略，尤其是写作策略在其中的中介作用。中分组和低分组在TSCA中没有显著性受益，很有可能是因为他们的学习策略有问题。策略运用得好的，即便是中分组的学生，他们可能也会有一些变化；策略运用得不好的，即便是中分组的学生，他们可能也不会有变化…… 此外，我们或许也可以探究对于不同水平的学生，TSCA是否存在不同的版本，比如1.0版本适用于高分组，2.0版本适用于中分组，3.0版本适用于低分组，等等。读者们也可以从其他多个角度来继续探索。

“且均值差值的95%置信区间不包括0”是什么意思，是证明显著性差异必须的条件吗？（第三篇）

许老师：它的含义与p<0.05或p<0.01相同，也就是说是等价的，只是另外一种说法而已，在汇报差异的显著性检验结果时不必写出来。不过，这种说法也有它的用场。在某些统计检验中，SPSS不输出p值，只给出置信区间。这时就要通过这个句子所表述的内容来判断检验结果是否显著了：如果置信区间里包括0，就说明检验结果不显著；如果置信区间里不包括0，就说明检验结果显著。

请老师帮忙解释一下这几句话“问卷KMO值为0.969，Bartlett球形检验显著性水平为0.000，数据适用因子分析”、“通过主成分分析法，删除因子载荷量小于0.5的题项”，载荷量小于0.5说明什么，既然删除了，为什么问卷最后的题项负荷量小于0.5却保留了？（第三篇）

许老师：仔细阅读表2之后，我觉得只有一个题（I39）的负荷量是0.468，稍微低于0.5。我的理解是，作者删除了那些远远低于0.5的题目，I39虽然负荷量也低，但是四舍五入还是可以视作0.5的，因此将它保留了下来。

研究问题2的数据来源是什么？图1的主要困难是怎么得出的？（第三篇）

许老师：作者在文中并未展示研究问题2的数据来源。不过，通过图1，我们推测，研究者在问卷中肯定是包含了诸如此类的题目：“您在信息化英语教学中的主要困难有____（可多选）。A 教师缺少技术支持 B 教师缺少合适的教学内容或素材 C D E F……”。这样，研究者就可以通过统计每个选项被选中的次数绘制图1了。

表3是验证问卷结构效度的，老师可以帮忙解释一下这个表里各数据的含义吗？（第三篇）

许老师：确切地说，是表2和表3共同来验证问卷的结构效度。表2通过因子分析，将问卷中的题项进行了归类。数据显示刚好归出了五个类别。表3根据前人给出的类别名称加上表2的数据结果，将这五个类别（或称因子）进行了命名，以此验证了问卷题目与理论归类是吻合的。表3中的数据是因子分析的重要统计量：特征值和解释方差含义类似，是指每个因子能够解释数据变异量的大小。以第一个因子“技能与熟练度”为例，它的特征值是6.756，解释方差为20.472。这表明这个因子能够解释全部33个题目20.472%的变异，简单来说就是，这个因子能够概括全部题目20%左右的情况。最后一列的累积解释方差就是把这五个因子能够解释的方差加起来。由表可知，这五个因子的累积解释方差是74.514%，也就是说，用这五个因子来概括原来的33个题目，可以代表它们全体的74%以上。这说明这五个因子的代表性很强，能够解释原始题目将近四分之三的情况。

请老师解释：Kolmogorov-Smirnov方法、配对样本Wilcoxon检验、秩平均值、表5的数值意义、Mann-Whitney U检验方法，以及这些检验方法的使用场景。（第三篇）

许老师：Kolmogorov-Smirnov方法是用来检验数据是否为正态分布的统计方法。如果检验结果显示p>0.05，那么数据就符合正态分布，研究者就可以使用参数检验；否则数据就不符合正态分布，研究者需要使用非参数检验。本文所用的统计方法绝大多数为非参数统计检验方法。参数检验方法与非参数检验方法的对应关系如下图所示：https://mp.weixin.qq.com/s/yFKGmzZqyadl-Nf_ElNlSg

为什么表7的秩平均值是千位数，表4的秩平均值是个位数，秩平均值大小提示什么？表6中的“Z”、表7/8中的“H(2)”分别是什么意思？（第三篇）

许老师：这些都是Kruskal-Wallis Test的统计量，它的作用与F统计量类似，所以我们不必深究它的含义，只需关注p值那一列即可。

3.2部分是使用了T-test和ANOVA进行检验吗？（第三篇）

许老师：不是。因为数据并非正态分布，所以作者使用了T-test和ANOVA相应的非参数检验方法。

图1中的内容是来自问卷调查还是其他参考文献呢？（第三篇）

许老师：来自问卷调查，详见第三题。

2.3研究工具中，高分组和低分组在所有变量上的t值的显著水平为0.000。这句话中，高分组和低分组的分数如何得出？（第三篇）

许老师：通常是按照总分或总分平均分由高到低排序，前27%的被试划为高分组，后27%的被试划为低分组。但是本文具体如何划分，作者并未详述。

本研究做了两个pilot study，一个做了项目分析，一个做了结构效度分析，这两个分析不能用一个大一点儿的样本只做一个pilot study 吗？（第三篇）

许老师：可以。但是我猜测因为研究者是大学教师，能接触到的中小学教师有限，所以就采用了小一点的样本来做pilot study。

本文作者的问卷收集是经过市区两级教研员及各校教研组长三手传递给问卷教师的，这是否会影响问卷的填答可靠性？是否可以借助全市的英语教研活动直接把问卷发放给教师？（第三篇）

许老师：这种层层下发的方法要更好，能够保证填答率。