【最新の教育評価入門講座(5)】評価の質を考える…妥当性と信頼性

教育評価総合研究所代表理事 鈴木秀幸
この連載の一覧

評価の目的により重視する

よいテストとは何かと問われた場合、どう答えるでしょうか。「学習した範囲を満遍なく出題したテスト」などの解答があるでしょうか。また「客観的な評価」などという言い方も聞いたことがあるかもしれません。

テストや評価の良し悪しについて、厳密な議論をする場合には、信頼性と妥当性という2つの概念を用いることが必要です。

信頼性とは、同じテストを2回実施した場合、同じような結果となるかを問うものです。同じような結果が出れば信頼性が高いとなり、結果が違えば信頼性が低いこととなります。信頼性が高いのが望ましいこととなるでしょう。実際には、生徒に同じテストを2回受けさせるのは非現実的な設定ですので、1つのテストを2つに分割して、両者の一致具合を見る方法が用いられるのが普通です。このような信頼性の検証方法をテスト折半法と言います。

信頼性にはいろいろな種類がありますが、先に述べた「客観的な評価」と言われるのは、評価者間信頼性というのが正確な表現です。これは同じ生徒の解答やパフォーマンス評価について、異なった評価者が同じような評価結果を出すかを問う概念です。多肢選択式のテストの採点ではこの評価者間信頼性が高いのは当然のことですが、記述式テストの採点や、パフォーマンス評価などでは、この評価者間信頼性を高めるいろいろな工夫が必要となります。

一方で妥当性とは、評価しようとしている能力や技能などを正確に反映している評価方法を用いているかを問う概念です。例えて言えば、体重を測るのに身長計ではなく体重計を用いているかを問うものです。先の信頼性の場合は、用いる体重計の正確さを問うものです。パフォーマンス評価が必要だと考えられるようになったのは、妥当性を高めることが必要だと考えられるようになったためです。第3回で述べたように、例えば理科の実験・観察能力をペーパーテストで実験道具の図を示して問題に解答させて正解しても、実際に実験や観察ができるとは限らないことが分かっています。最も妥当性が高くなるのは、実際に実験・観察活動をする中で評価すること、つまりパフォーマンス評価を用いることです。

しかしながら、記述式テストやパフォーマンス評価を用いれば妥当性は高くなりますが、その一方で信頼性は低くなるという問題があります。つまり信頼性を高めると妥当性が低くなり、妥当性を高めると信頼性が低くなるということになってしまいます。

そこでどちらを重視するかは、評価を用いる目的により変わってきます。入試など生徒の将来に影響するテストや評価の場合、つまりハイ・ステイクスな場合は、信頼性を妥当性よりも重視するのが普通です。これに対して、形成的評価の場合には、妥当性を信頼性よりも重視することになります。もちろんどちらの場合も、片方を重視すると言っても、他方もできるだけ高くする工夫は必要です。


この連載の一覧
関連記事