Guide — What is evidence?

エビデンス入門

「エビデンスに基づく教育」の基本を、研究の読み方が分からなくても理解できるように解説します。

エビデンスとは何か

教育における「エビデンス」とは、研究で確かめられた知見のことです。

現場教員は日々、自分の経験と直感で判断を下しています。これは極めて重要であり、エビデンスがそれに取って代わるものではありません。エビデンスは、「経験と直感に、もう一つの判断材料を加える」ためのものです。

たとえば医療では、医師の経験と患者の状態に加えて、研究で確かめられた治療法の効果を参考にする「エビデンスに基づく医療（EBM）」が確立しています。教育でも同じ考え方を取り入れたのが「エビデンスに基づく教育（EBE）」です。

研究にはレベルがある

「研究で確かめた」と一口に言っても、研究の質はさまざまです。以下のように、エビデンスの信頼性には段階があります。

最も強い

Level 5

メタ分析・システマティックレビュー

複数の研究を統合し、全体的な傾向を分析したもの。本サイトのデータは主にここから来ています。

強い

Level 4

ランダム化比較試験(RCT)

対象者をランダムに2グループに分け、介入あり・なしの結果を比較する研究。因果関係を最も厳密に示せる。

中程度

Level 3

準実験研究

RCTほど厳密ではないが、介入群と比較群を設けた研究。現実的な制約の中で行われることが多い。

弱い

Level 2

観察研究・相関研究

介入は行わず、既存のデータの関連を分析する。因果関係の主張は難しい。

最も弱い

Level 1

個人の経験・事例報告・専門家の意見

参考にはなるが、一般化はできない。多くの「教育実践報告」はここに位置する。

02-b

研究の質を決める3つの要素

では、上のレベルを分けているのは何でしょうか。研究の質を決めるのは、主に以下の3つです。

① 比較対象があるか

質が低い

「フィードバックをやったら成績が上がった」
→ 他の要因(季節・成長・別の指導)かもしれない

質が高い

「やった学級と、やらなかった学級を比べた」
→ 差があれば、介入が原因だと言いやすい

② グループの分け方が公平か

質が低い

教師が「やりたい学級」を選んで介入
→ やる気のある学級だけが選ばれ、結果が歪む

質が高い(RCT)

コイン投げやくじ引きでランダムに分ける
→ 両グループの条件がほぼ同じになる

これがRCTが「最も強い研究デザイン」とされる理由です。

③ 結果が繰り返されているか

1本の研究「効果あり」→ まだ分からない。たまたまかもしれない

10本の研究全て「効果あり」→ かなり確からしい

メタ分析(50本統合) 「効果あり」→ 強い確信が持てる

日本の教育現場でよくある例

校内研究や研究紀要で発表される「本校で◯◯を実践したら、子どもの◯◯が向上した」は、上のピラミッドでは最下層(Level 1)に位置します。比較対象がなく、ランダム化もされておらず、サンプルが1校だけだからです。

これが貴重な実践報告であることは間違いありません。しかし、それだけでは「この方法が効く」とは言えません。「うまくいった感覚」と「研究で確かめられた知見」を区別すること—— それがエビデンスリテラシーの出発点です。

効果量とは

「効果があった」だけでは、どのくらい効いたのかが分かりません。 効果量（effect size）は、その「どのくらい」を数値化した指標です。

研究の世界では「コーエンのd」という指標がよく使われ、おおよそ以下のように解釈されます。

d = 0.2

小さい効果

d = 0.5

中程度の効果

d = 0.8

大きい効果

本サイトでは、効果量を「学習月数」に変換して表示しています。おおよそ d = 0.1 が 1ヶ月に相当します（学年や教科によってやや異なります）。

メタ分析とは

本サイトの数値の多くは「メタ分析」と呼ばれる研究手法から得られています。

メタ分析とは、同じテーマについて行われた多数の研究を統合し、全体的な傾向を統計的に分析する手法です。

1本の研究だけでは「たまたま」の可能性が排除できません。しかし、数十〜数百本の研究を統合すれば、個別の偏りが薄れ、より信頼できる全体像が浮かび上がります。

EEF Toolkitの数値は、こうしたメタ分析の結果を元にしています。たとえば「フィードバックは+6ヶ月」という数値の背後には、世界中で行われたフィードバック研究の集合知があります。

エビデンスの限界

エビデンスは万能ではありません。以下の限界を知った上で活用することが大切です。

平均は個人ではない —— メタ分析の数値は多くの子どもの平均です。目の前のこの子に同じ効果が出るとは限りません。
文脈が違えば結果も変わる —— 多くの研究は英語圏で行われています。日本の学校・学級の文化に直接当てはまらない場合があります。
「何を」は分かるが「どうやって」は足りない —— 「フィードバックは効く」は分かっても、「明日の算数で具体的にどう声をかけるか」まではエビデンスだけでは決められません。そこは教師の専門性と判断の領域です。
測れないものは見えにくい —— エビデンスはテストの点数で測れる学力に偏りがちです。子どもの意欲、創造性、幸福感など、数値化しにくい価値は見えにくくなります。
研究にもバイアスがある —— 「効果がなかった」研究は発表されにくいという出版バイアスが知られています。ポジティブな結果が過大評価されている可能性があります。

エビデンスとの付き合い方

エビデンスに基づく教育は「数字に従え」ということではありません。

より正確には、3つの要素を組み合わせて判断するという考え方です。

① 研究のエビデンス

このサイトが提供する「研究ではこう言われている」という情報

② 教師の専門的判断

目の前の子ども・教室の状況を踏まえた、教師としての経験と直感

③ 学校・地域の文脈

自校の子どもの特性、地域の教育課題、学校の方針やリソース

この3つを重ね合わせて、「うちの教室では、今、何が最も良い選択か」を考えるための材料がエビデンスです。

最終的な判断の主体は、常に教師自身です。

もっと深く知るための参考図書

エビデンスの読み方や、教育経済学の考え方をもう一歩踏み込んで学びたいときに参考になる書籍を紹介します。本サイトでも繰り返し引用しています。

『「学力」の経済学』 — 中室牧子(2015)、ディスカヴァー・トゥエンティワン. 教育経済学の入門書として 30 万部超のベストセラー。非認知能力・少人数学級の費用対効果・行動への報酬など、「何に予算を使うべきか」を実証研究をもとに解説。
『「原因と結果」の経済学 — データから真実を見抜く思考法』 — 中室牧子・津川友介(2017)、ダイヤモンド社. 因果関係と相関関係の違い、ランダム化比較試験(RCT)・差の差分析・操作変数法などの因果推論の考え方を、医療・教育・経済の例を通して平易に解説。エビデンスを読むときの基本姿勢を学べる。
『科学的根拠(エビデンス)で子育て — 教育経済学の最前線』 — 中室牧子(2024)、ダイヤモンド社. 『「学力」の経済学』から 9 年ぶりの単著。最新のエビデンスを厳選して紹介し、保護者・教育関係者向けに「研究で確かめられている知見」を整理。
『マンガでわかる統計学』 — 高橋信著、トレンド・プロ漫画制作 (2004)、オーム社. 統計学の基礎(平均・分散・検定・回帰など)をマンガ形式で導入する入門書。エビデンスを読むときに登場する用語を物語の中で掴める。
『米国最強経済学者にして 2 児の母が読み解く子どもの育て方ベスト』 — エミリー・オスター著、堀内久美子訳 (2022)、サンマーク出版. ブラウン大学経済学部教授で 2 児の母である著者が、就学前期の子育てをめぐる通説を経済学・統計の手法でデータに基づき再検討した一般書。エビデンスを家庭の意思決定にどう生かすかの実例として読みやすい。
『教育政策をめぐるエビデンス — 学力格差・学級規模・教師多忙とデータサイエンス』 — 中西啓喜(2023)、勁草書房. なぜエビデンスに基づく教育政策の議論は難しいのかを、少人数学級などを補助線に検討した教育社会学の一冊。エビデンスを「教育政策」と「教育実践」の 2 つの領域に整理し、階層の高いエビデンスに限らず、学校現場の意見を政策目的の発見に活かす方向を提起する。

準備ができたら、具体的な指導法を見てみましょう。

← 指導法一覧へ戻る