【最新の教育評価入門講座(11)】採用試験で問われること…信頼性と妥当性

教育評価総合研究所代表理事 鈴木秀幸
この連載の一覧

評価者間信頼性が問題となる

評価の質を示す場合、信頼性と妥当性の2つを用いて示すことを知っていなければなりません。これは基本中の基本です。次にそれぞれの内容を簡単に説明できるようにしてください。信頼性の基本的な考え方は、同じテストを同一人物が2回受けた場合、同じ結果(点数)が出るかを問題とするものです。結果が大きく異なれば、信頼性が低いということになります。

妥当性は、意図した能力や技能を実際にテストしているかを示すものです。思考力をテストしているつもりが、実際には知識をテストしていれば、妥当性は低くなります。

ここまでが基本的な問題です。これよりやや難しい問いを考えてみます。信頼性に関しては、信頼性を調べる方法を問われることがあります。代表的なものはテスト折半法です。これは同一人物が同じテストを2回受けることは実際のところ難しいので、1つのテストを2つに分割して、半分同士の得点の一致の程度を調べる方法です。

妥当性に関しては、幾つかの種類があるのでこれを問われることも考えられます。この問題の難易度は高いものとなります。まず内容妥当性です。これはテストしようとしている学習内容をテストの問題が正しく反映しているかを問うものです。例えば、日本国憲法について問うつもりで作成したテストの問題が、そのような目的にかなっているかを問うものです。もう1つは構成妥当性です。これはテストしようとしている能力や技能、これを構成概念といいますが、問題が実際に目的とする構成概念をテストできるかを問うものです。

さて、ここまでの説明で評価という言葉の代わりに、テストという言葉を用いていたのには理由があります。それは信頼性や妥当性がもともとペーパーテスト、それも多数の問題から構成されるペーパーテストを前提として考えられてきたものだからです。しかし、現在ではペーパーテストだけが評価に用いられるわけではありません。パフォーマンス評価やポートフォリオ評価など新しい評価手段が用いられるようになってきました。これらの評価方法には、ペーパーテストを前提に考えられた信頼性や妥当性を用いることができない場合が出てきました。例えばテスト折半法はパフォーマンス評価には適用できません。パフォーマンス評価の場合、多数の問題を出題することはできないからです。ここまで答えられれば、優秀な回答となります。

さらに最近になって注目されているのが、信頼性の一種と考えられる評価者間信頼性です。大学入学共通テストで導入予定であった記述式ですが、同じような生徒の解答について異なった採点者が同じ採点をできるか問題となりました。これは評価者間信頼性を問題にしていることになります。多肢選択式のテストならこのような問題は起こりませんが、記述式やパフォーマンス評価の場合には、評価者間信頼性が問題となる場合が出てきたなどと答えられれば、非常に優秀な回答です。


この連載の一覧