2019高考英语全国卷词频分析答案(2019高考英语全国卷词频分析题)
在上一篇文章和大家分享了NGSL词汇的由来和用法后,我收到了一位读者的留言,质疑NGSL的科学性(因为这位读者的话太激烈了,我就不放在这里了,请大家拿定主意))。
虽然我第一次收到这样的信息时很不高兴,但他的问题也让我反思这个词汇表是否那么科学?
因此,在2019年高考的第一天,我拿着最新的全国英语高考题,想客观地分析一下NGSL词汇表是否能够很大程度上覆盖全国英语试卷中出现的单词。
方法数据来源:2019年高考英语国卷IIIIII
步骤:将试卷中的阅读、完形填空、七选五、论文填空转换为txt格式(删除选项,只保留文字)
使用软件AntWordProfiler将转换后的txt文本与NGSL列表进行比较,分为三个级别(如下图):
1:个出现频率在前1-1000的单词;
级别2:个单词,频率1000-2000;
级别3:个单词,频率2000-2800;
0:级是一个没有出现在2800词汇表中的单词。
(注:这2800个单词只包含基础词,是最基本的形式。比如下面提到的open的变体openness就不在此列表中)
2.结果
全国第一卷
级别列表词:87.1%注:红色级别1;绿色等级2;蓝色等级3;黑电平0,下同
非级别列表单词:12.9%如果只看数字,出现的频率是相当高的,但是如果仔细分析的话,你会发现这些单词中包含了人名(MitchPrinstein)以及txt中出现的乱码转换过程(xD3)。但有一些明显非常简单的单词(两个、玫瑰、青少年、更好)没有包含在2800中?这是因为首先,NGSL只包含基本词(better的基本词应该是good)。其次,它也可能意味着一个单词(rose)的简单拼写并不意味着它被常用。
2.国家卷二
级别列表词:89.6%,其中级别1,即前1000个高频词占80.9%。
非级别列表词:10.4%可见,国卷二中低频词较多的阅读(D)涉及专业领域词汇(细菌、微生物、零重力)。幸运的是,试卷中文翻译中给出了一些单词,但这也从侧面反映出高考阅读涉及的话题越来越向专业领域靠拢。
3.国家第三卷
级别列表字数:86.8%非级别列表字数:13.3%可以看到,大部分人的名字都被标记为红色。
让我们用下表来总结一下
一些灵感
这个小分析通过对比国家卷一二三的文本,在一定程度上证明了NGSL词汇的科学性。三份试卷中出现的单词与NGSL词汇的重叠度达到了85%以上。如果文字处理更精细,删除那些特殊符号,这个比例应该会更高(接近90%)。
从对比结果可以看出,试卷中出现的低频词大部分是人名和一些基本词的变形。几句话涉及专业领域。因此,教师可以培养学生在词汇学习中养成分析词缀和词根的习惯。
最后,认识单词并不意味着能够理解文本。即使你掌握了NGSL上的所有单词(甚至记住了字典),也不能保证你能理解一篇文章。因为阅读是一个非常复杂的过程,它要求学生不仅要掌握最基本的认字能力,还要有一定的语法知识,了解英语写作的结构,熟悉题目的背景知识,有一定的推理能力。但认字能力必须是阅读的基础,为1,其他能力为1后为0。