トップページ -> 大学入試共通テストの英単語出現回数を調べる

大学入試共通テストの英単語出現回数を調べる

皆さん,英語の試験は好きでしょうか?私は嫌いです.
今回は英語の試験における英単語の出現頻度について調べてみようと思います. 具体的には2004年から2023年に出題された20年分の大学入試共通テスト(センター試験)における英単語の出現頻度を調べました.
文章の解析にはPythonを利用しました.
使用したコードはこちら
単語出現回数カウントのサンプルはこちら→単語出現回数カウンター
英語の試験対策に役立つような情報は特にないと思いますので,試験勉強の合間の息抜き程度にご覧ください.

【関連ページ】大学入試共通テストの英単語出現回数を調べる (自然言語処理ライブラリ使用版)
Spacyによる自然言語を利用したバージョンはこちら
【関連ページ】大学受験に必要な英単語数を調べてみた
二次試験に関して調べたものはこちら

  1. 単語のカウント方法について
  2. 出現した単語の数
  3. 出現回数の多い単語たち
  4. 出現回数の分布
  5. 出現した年度のカウント
  6. 特定の単語との遭遇確率
  7. 覚えた単語の数と文章の理解度の関係

単語のカウント方法について

以上のように粗い集計方法となっています.
大学入試共通テストの英単語出現回数を調べる (自然言語処理ライブラリ使用版)では品詞判定や見出し語に修正して集計していますので,併せてご覧ください.

出現した単語の数

過去20年分の大学入試共通テストにおいて出現した単語の数は5053単語. 最近10年で出現した単語は3812単語,最近5年では2632単語でした.

出現回数の多い単語たち

出現回数の多い単語トップ100の表が以下の通りです. to, of, in などの前置詞や the, a, anのような冠詞,I, You, Weなどの人称代名詞が特に多く目立ちます.

前置詞の出現頻度

こちらのサイトで紹介されている70の前置詞について出現頻度を表にしました. 頻繁に出現する100位までに18個の前置詞がランクインしています. 頻出する前置詞についてしっかりと理解していないと文章の理解に支障をきたしそうです. 分かりやすそうな前置詞の一覧があったのでついでに紹介しておきます.
前置詞とは?35種類をイラストで徹底解説!使い分け方も伝授【中学英語】

助動詞の出現頻度

11の助動詞の出現頻度の表です. shall以外の10個の助動詞は出現頻度が高く300位以内にランクインしています. used to, have to, ought to なども含めてよく出てきそうです.

その他の単語の出現頻度

助動詞,前置詞に加えて冠詞,人称代名詞を取り除いた単語の出現頻度が以下の表です. 基本的な単語や過去形などの被りが多い気がします. 今回はやりませんが,品詞の解析をして動詞,名詞で分けて表にしたほうが面白そうです.

出現回数の分布

出現頻度上位200位までの単語の出現回数をグラフにしたのが以下のグラフです. 単語の出現頻度は指数関数的に減少するようです.

出現頻度のグラフ
出現回数が20回以上の単語は235,10回以上の単語は541,5回以上の単語は1167単語でした.

出現した年度のカウント

一度出現した単語は同一年度,特に同じ文中に複数回出現することが考えられます. 単語が出現した年を数えることで出現頻度を調べたのが以下のグラフです. 出現頻度2回以上が2200語程度,3回以上が1400語程度,6回以上が550語程度でした.

出現頻度のグラフ(年度別)

単語との遭遇確率

今回,分析に使用した長文の語数は36159語でした. 1回の試験で2000語の英文を読むとすると,出現回数がn回の単語と遭遇する確率は 1-(1-(n/36159))**2000 です. 出現数30回以上の頻繁に出現する単語との遭遇確率は約80%,20回で約67%,10回で約42%でした. 出現頻度の少ないほうでは1, 2, 3, 4回でそれぞれ約 5, 10, 15, 20%となります.

覚えた単語の数と文章の理解度の関係

出現頻度の多い単語から順番に覚えていく場合にどの程度 英文が読めるようになるかを考えます. 実際は文章の理解度を考えるには,文中における単語の重要度や英文法・構文理解が必要となりますが, 今回は単純に,文中に占める知っている単語の割合を文章の理解率として考えます. 1単語ずつ読んでいった場合,その単語を知っている確率と暗記している単語の数のグラフが以下です.

暗記した単語数と単語を知っている確率のグラフ
これを踏まえて理解率90%,95%,98%を目指すのに必要な単語数が以下のグラフから分かります. それぞれX軸が覚えている単語数,Y軸が2000語の長文を読んだときに理解度90%,95%,98%を達成することができる確率です.

90%の理解度を達成するためにはだいたい2000語程度必要なようです. 10語に1回知らない単語に遭遇するペースです. 10語に1回知らない単語に遭遇する状態が望ましいとは思えないのでもう少し頑張る必要がありそうです.
暗記した単語数と理解度90%を達成できる確率

95%の理解度を達成するためにはだいたい3500語程度必要なようです. 20語に1回知らない単語に遭遇するペースです.
暗記した単語数と理解度95%を達成できる確率

98%の理解度を達成するためにはだいたい4500語程度必要なようです. 50語に1回知らない単語が出てくる程度ならそこそこ読めてるんじゃないでしょうか(?)
暗記した単語数と理解度98%を達成できる確率

4500語というと深刻な数字に見えますが,中学卒業程度で約2500語を学習済みらしいので, 大学入試共通テストの理解度98%を達成しようとしても新たに覚えるべき単語は2000語程度です. また,今回の分析では動詞の時制,名詞の複数形を別々にカウントしていることや,数字・人名・地名の他に文中で説明されている覚える必要のない単語もカウントしています. 実際に覚えるべき単語はもう少し少なくなると考えられます.

おわりに

今後は品詞の解析をして単数・複数を区別しない,動詞の時制の変化を区別しないことでより正確に文章の分析をしてみたいと思います. 機会があればTOEICや二次試験に関しても調べてみたいと思います.

追記

大学入試共通テストの英単語出現回数を調べる (自然言語処理ライブラリ使用版)で品詞判定や見出し語に修正して集計しました.

大学受験に必要な英単語数を調べてみたで二次試験に関して調べました.