2008年11月16日
試験問題の評価の難しさ
PBL-tutorial教育でアチーブメントテストとして、ペーパーテストを積極的に実施しています。
PBL-tutorial教育は、もともと、事前に課題を提示し、小グループでの討論と、それを見守るTutorと呼ばれる教員により、学生たちの内発的な学習行動を引き出して、個々の学生の学習行動の変容を促すとともに、具体的な学習成果も期待される、ということですが、欧米の医学部で積極的に導入されて、我が国でも幅広く実施されるようになった教育方法です。
教育カリキュラムですから、評価をしなければならないわけですが、そこが大変微妙なニュアンスを持っていると思っています。うちの大学では、教員からの日常の学習行動の評価を中心にして、PBL-tutorial教育の成績としています。テストの成績は、あくまでも補助的なものとして位置づけています。
しかし、テストというものがもつ、客観性(信頼性)は捨て難いものであり、テストをうまく工夫して利用することで、PBL-tutorial教育や学生たちの成長につながらないかと模索してきました。
教育カリキュラムの目的と内容からは、妥当性のある評価対象としては、学生たちの学習行動変容と具体的な学習成果を評価することとなります。ただ、同じPBL-tutorial教育といっても、その目的が学習行動変容を重視している場合と、具体的な学習成果を求める場合があり、大学によっては、1年生を中心に実施しているところや、うちの大学のように3年生から4年生にかけて実施している大学など、多様性に富んでいます。そして、そのカリキュラムの実施方法も、学生に提示される課題の内容も、異なって来ていますし、評価方法も考え方も違って来ています。ということから、大学によっては、PBL-tutorial教育では、ペーパーテストをしない、という大学もあったりします。それはおそらく、学生の学習行動の変容を目的としていることから、ペーパーテストの実施による悪影響を考えてのことかとも思っています。
ペーパーテストでの評価は、認知面での評価が中心となりやすいのですが、特に、具体的な知識についての記憶(想起)については、最も客観性(信頼性)を持って評価できる方法と考えられます。さらに、出題方法を工夫することにより、同等の客観性をもって、解釈能力や問題解決能力を評価することができると考えられています。
ということから、ペーパーテストによる評価の実施が、かえって、PBl-tutorial教育やそれを受けている学生に悪影響をもたらす可能性がある、ということが考えられるわけです。
以下のような例をあげてみます。
課題をもとに問題解決能力、学習能力を育成することが目的であるのに、具体的な学習項目の想起能力だけを評価するような試験を実施し、そのような試験による評価結果を、この教育カリキュラムの評価として重みを大きくすると、教育の目的と評価方法との解離が大きすぎて、学生たちの具体的な学習行動に改善がもたらされず、結局、学生たちは、試験直前の「一夜漬け」に走ってしまうようなことになりかねない。しかも、テストで80%が落ちる、なんてことになれば、もう、PBL-tutorial教育ではなくなってしまう危険すらあります。学生は、もう、課題をもとに、真摯に学習を展開しないかもしれません。これでは「PBL-tutorial教育の崩壊」となります。
これは、「評価方法で学習行動が変容する」ということの証明ともいえますが。
つまり、評価方法の内容と、その利用方法をしっかりとしないと、かえって、教育効果をスポイルしてしまう、ということになる危険があるのですね。
アチーブメントテストで出題される問題には、工夫をしています。
課題症例をもとに学習を展開する上で、必ず会得することになるであろう単純知識については、想起方式での出題を積極的に行っています。PBL-tutorial教育では、個々の学生の学習方向は、かなり多様性に富んでいると考えられますが、課題症例を、具体的な患者症例を用いることにより、臨床上の問題解決のプロセスをトレースすることになりますし、また、グループでの討論やTutorの存在により、ある程度の方向づけをする効果を期待しています。
基礎知識の想起問題は、場合によっては、無回答や誤回答の場合には減点されてしまう「地雷問題」として出題し、必須の基礎知識であることを明示しています。もちろん、減点目的の問題は多くならないように、出題の調整をしています。
ということから、もし、適切に学習を展開しなかった学生がいた場合には、試験会場で、このような知識が重要だとということに改めて気付いて、その後の学習方法を改善するかもしれないと期待しています。試験の形成的評価、の効果を期待しています「あ、あのこと、勉強していなかったなあ、勉強しておけば良かったなあ」って、感じてもらうために。そのために、テスト答案も採点後、返却しています。
問題は、想起レベル、解釈レベル、問題解決レベルの種別にわけて出題し、それぞれを別個に集計して、個々の学生自身にも提示しています。患者さんの症状や所見、血液検査データ、心電図、CT画像や病理組織画像の提示なども積極的に行い、解釈能力の評価が信頼性をもってできるように、と工夫しているのです。
結果、「あなたは想起の問題はよい点だが、解釈の点はよくない」などと提示することで、学生たちに深い理解が必要なのだと気付かせたいと考えています。そして、「病理がわかっていない」、「画像診断能力を高めたい」と学生が自己評価、今後の学習目標の方向付けが容易になるようにと、期待しています。これも、形成的評価の効果ともいえます。
実は、解釈や問題解決能力の評価のためには、カリキュラムで使用した課題症例からの出題だけでは、たとえ、レントゲン写真の解釈や、治療法を問うような出題をして、問題の形式としては、「解釈」「問題解決能力」を評価しているようであっても、実は、単純な暗記力「想起」レベルの問題になってしまう可能性があります。
というのは、事前に課題症例を暗記しておけばよいわけですから、解釈能力、問題解決能力を適切に評価することにつながらない危険があります。医学部医学科に入学するような学生の中には、すさまじい記憶力の学生もいまして、課題症例を丸暗記、なんて学生が実在するのです。もちろん、記憶力も大事ですが、記憶した知識をきちんと利用して、新たな問題解決ができる、という能力を育成したいと考えていますので、知識の有効利用ができるかどうか、を、形成的に評価することで、その能力の育成につながれば、と思っているわけです。
そこで、課題症例での知識を必要とするけれども、別の症例を出題することにより、適切に「解釈」「問題解決能力」の評価になるようにしています。なかなか、難しいのですが。
何年も試験問題を構成する中で、さらに工夫を重ね、問題の種別、それによる評価軸の区分を増やしてきました。通常なら、認知面は、想起、解釈、問題解決、の3つのレベルになりますが、想起レベルをその知識の理解の深さで、2つのレベルにわけています。簡単にいえば、単純に思い出せるかどうか、と、思い出した知識をもとに知恵を展開できるかどうか、です。
そして、認知面だけでなくて、記述問題の回答をもとに論理性を評価する「論理性」という評価軸を加え、さらに、さきほど例をあげた、学習行動の成果としての知識量を達成度別(学習深度別)に出題することで、「PBL学習能力」という評価軸も作ってています。計6項目で、学生のテストの採点、評価を行っています。
実際、テストの成績が不十分であると、もういちど勉強してもらわなければなりませんが、そういう学生は3割以下です。通常1−2割程度。
逆に、もし、8割もの学生が点が伸びない場合は、そのテストが不適切だったか、あるいは、課題症例やtutorも含めてPBL-tutorial教育そのものが学習効果がなかったのかもしれないと考えねばならないでしょう。
こうやって、各学生の評価を1ヶ月ごとに繰り返していくと、やはり、個々の学生の個性が見えてきます。想起の点はいいが、論理性はうまくない、あるいは、学習能力はあまりよくない、という特質や、解釈が点が伸びない、というような感じですね。
そして、一番、気持ちがいいのは、当初、学習能力の点がよくなかった学生が、形成的なテストを繰り返していくと、次第に、解釈能力や学習能力の評価軸の点が改善していく学生が出て来たときです。こうやって複雑な評価方法を行っている効果があったとうれしく思うのです。
PBL-tutorial教育において、学生の学習行動の改善を引き出すために、ペーパーテストが有効に機能すればって、祈るような気持ちです。いろいろ、試行錯誤を繰り返しながら、次第に固まった形で試験を構成することができるようになってきました。
ちなみに、医師国家試験の模擬試験の成績と、さきほどの6項目の評価軸との相関は、やはり、浅い単純想起レベルが一番相関が高く、それと同じぐらいで学習能力でした。相関係数は0.6ぐらいあります。いずれも、基礎的な知識についての評価でもあるので、当然かもしれません。深い想起、解釈、論理性がその次につづき、0.45ぐらいです。問題解決能力は相関係数が0.3ぐらいになります。いろいろ、工夫はされているのですが、医師国家試験というテストがそういう性格なのだ、ということでしょうか。
実は、学生たちを継続的にみることができる立場にいるので、6年生が、5年生、4年生、3年生のとき、どうだったのか、を後ろ向きコホートできるのですが、医師国家試験の模擬テストの点数という切り口でみてみると、実は、あまり年次的変化はないのです。時間経過よりも、問題の種別による相違の方が大きいのです。つまり、6年生の医師国家試験の模擬テストでよい点をマークする学生というのは、3年生や4年生のときから、そういう特性を持った学生であって、ということですね。これは、我々がやっている医学教育が不適切だから、とは結論づけたくないので(笑)、医師国家試験というテストがそういう性格なのだ、ということになってしまうのかもしれません。
実際に医師国家試験の問題をみていて、医学生の能力のどの部分を評価しているのか、と考えると、医学教育担当の教員としては、やや残念な部分もあります。
究極の総括評価としての医師国家試験は、厳密な客観性が求められるので、その前には、妥当性がやや劣ってしまうのはしかたないのでしょうか。(妥当性があるのかどうか、ということについても、個々の教員の信念になってしまうかもしれませんが)
医師国家試験合格は、医学教育の最低限の目標であり、もっと高い目標をめざしていきたいと思っています。無視すればよいというのでは、目の前の学生たちがかわいそうです。(当然、医師国家試験合格率は100%でないといけません)
がんばるのは一義的には学生自身だけれど、教員としても、がんばっていきましょう。
PBL-tutorial教育は、もともと、事前に課題を提示し、小グループでの討論と、それを見守るTutorと呼ばれる教員により、学生たちの内発的な学習行動を引き出して、個々の学生の学習行動の変容を促すとともに、具体的な学習成果も期待される、ということですが、欧米の医学部で積極的に導入されて、我が国でも幅広く実施されるようになった教育方法です。
教育カリキュラムですから、評価をしなければならないわけですが、そこが大変微妙なニュアンスを持っていると思っています。うちの大学では、教員からの日常の学習行動の評価を中心にして、PBL-tutorial教育の成績としています。テストの成績は、あくまでも補助的なものとして位置づけています。
しかし、テストというものがもつ、客観性(信頼性)は捨て難いものであり、テストをうまく工夫して利用することで、PBL-tutorial教育や学生たちの成長につながらないかと模索してきました。
教育カリキュラムの目的と内容からは、妥当性のある評価対象としては、学生たちの学習行動変容と具体的な学習成果を評価することとなります。ただ、同じPBL-tutorial教育といっても、その目的が学習行動変容を重視している場合と、具体的な学習成果を求める場合があり、大学によっては、1年生を中心に実施しているところや、うちの大学のように3年生から4年生にかけて実施している大学など、多様性に富んでいます。そして、そのカリキュラムの実施方法も、学生に提示される課題の内容も、異なって来ていますし、評価方法も考え方も違って来ています。ということから、大学によっては、PBL-tutorial教育では、ペーパーテストをしない、という大学もあったりします。それはおそらく、学生の学習行動の変容を目的としていることから、ペーパーテストの実施による悪影響を考えてのことかとも思っています。
ペーパーテストでの評価は、認知面での評価が中心となりやすいのですが、特に、具体的な知識についての記憶(想起)については、最も客観性(信頼性)を持って評価できる方法と考えられます。さらに、出題方法を工夫することにより、同等の客観性をもって、解釈能力や問題解決能力を評価することができると考えられています。
ということから、ペーパーテストによる評価の実施が、かえって、PBl-tutorial教育やそれを受けている学生に悪影響をもたらす可能性がある、ということが考えられるわけです。
以下のような例をあげてみます。
課題をもとに問題解決能力、学習能力を育成することが目的であるのに、具体的な学習項目の想起能力だけを評価するような試験を実施し、そのような試験による評価結果を、この教育カリキュラムの評価として重みを大きくすると、教育の目的と評価方法との解離が大きすぎて、学生たちの具体的な学習行動に改善がもたらされず、結局、学生たちは、試験直前の「一夜漬け」に走ってしまうようなことになりかねない。しかも、テストで80%が落ちる、なんてことになれば、もう、PBL-tutorial教育ではなくなってしまう危険すらあります。学生は、もう、課題をもとに、真摯に学習を展開しないかもしれません。これでは「PBL-tutorial教育の崩壊」となります。
これは、「評価方法で学習行動が変容する」ということの証明ともいえますが。
つまり、評価方法の内容と、その利用方法をしっかりとしないと、かえって、教育効果をスポイルしてしまう、ということになる危険があるのですね。
アチーブメントテストで出題される問題には、工夫をしています。
課題症例をもとに学習を展開する上で、必ず会得することになるであろう単純知識については、想起方式での出題を積極的に行っています。PBL-tutorial教育では、個々の学生の学習方向は、かなり多様性に富んでいると考えられますが、課題症例を、具体的な患者症例を用いることにより、臨床上の問題解決のプロセスをトレースすることになりますし、また、グループでの討論やTutorの存在により、ある程度の方向づけをする効果を期待しています。
基礎知識の想起問題は、場合によっては、無回答や誤回答の場合には減点されてしまう「地雷問題」として出題し、必須の基礎知識であることを明示しています。もちろん、減点目的の問題は多くならないように、出題の調整をしています。
ということから、もし、適切に学習を展開しなかった学生がいた場合には、試験会場で、このような知識が重要だとということに改めて気付いて、その後の学習方法を改善するかもしれないと期待しています。試験の形成的評価、の効果を期待しています「あ、あのこと、勉強していなかったなあ、勉強しておけば良かったなあ」って、感じてもらうために。そのために、テスト答案も採点後、返却しています。
問題は、想起レベル、解釈レベル、問題解決レベルの種別にわけて出題し、それぞれを別個に集計して、個々の学生自身にも提示しています。患者さんの症状や所見、血液検査データ、心電図、CT画像や病理組織画像の提示なども積極的に行い、解釈能力の評価が信頼性をもってできるように、と工夫しているのです。
結果、「あなたは想起の問題はよい点だが、解釈の点はよくない」などと提示することで、学生たちに深い理解が必要なのだと気付かせたいと考えています。そして、「病理がわかっていない」、「画像診断能力を高めたい」と学生が自己評価、今後の学習目標の方向付けが容易になるようにと、期待しています。これも、形成的評価の効果ともいえます。
実は、解釈や問題解決能力の評価のためには、カリキュラムで使用した課題症例からの出題だけでは、たとえ、レントゲン写真の解釈や、治療法を問うような出題をして、問題の形式としては、「解釈」「問題解決能力」を評価しているようであっても、実は、単純な暗記力「想起」レベルの問題になってしまう可能性があります。
というのは、事前に課題症例を暗記しておけばよいわけですから、解釈能力、問題解決能力を適切に評価することにつながらない危険があります。医学部医学科に入学するような学生の中には、すさまじい記憶力の学生もいまして、課題症例を丸暗記、なんて学生が実在するのです。もちろん、記憶力も大事ですが、記憶した知識をきちんと利用して、新たな問題解決ができる、という能力を育成したいと考えていますので、知識の有効利用ができるかどうか、を、形成的に評価することで、その能力の育成につながれば、と思っているわけです。
そこで、課題症例での知識を必要とするけれども、別の症例を出題することにより、適切に「解釈」「問題解決能力」の評価になるようにしています。なかなか、難しいのですが。
何年も試験問題を構成する中で、さらに工夫を重ね、問題の種別、それによる評価軸の区分を増やしてきました。通常なら、認知面は、想起、解釈、問題解決、の3つのレベルになりますが、想起レベルをその知識の理解の深さで、2つのレベルにわけています。簡単にいえば、単純に思い出せるかどうか、と、思い出した知識をもとに知恵を展開できるかどうか、です。
そして、認知面だけでなくて、記述問題の回答をもとに論理性を評価する「論理性」という評価軸を加え、さらに、さきほど例をあげた、学習行動の成果としての知識量を達成度別(学習深度別)に出題することで、「PBL学習能力」という評価軸も作ってています。計6項目で、学生のテストの採点、評価を行っています。
実際、テストの成績が不十分であると、もういちど勉強してもらわなければなりませんが、そういう学生は3割以下です。通常1−2割程度。
逆に、もし、8割もの学生が点が伸びない場合は、そのテストが不適切だったか、あるいは、課題症例やtutorも含めてPBL-tutorial教育そのものが学習効果がなかったのかもしれないと考えねばならないでしょう。
こうやって、各学生の評価を1ヶ月ごとに繰り返していくと、やはり、個々の学生の個性が見えてきます。想起の点はいいが、論理性はうまくない、あるいは、学習能力はあまりよくない、という特質や、解釈が点が伸びない、というような感じですね。
そして、一番、気持ちがいいのは、当初、学習能力の点がよくなかった学生が、形成的なテストを繰り返していくと、次第に、解釈能力や学習能力の評価軸の点が改善していく学生が出て来たときです。こうやって複雑な評価方法を行っている効果があったとうれしく思うのです。
PBL-tutorial教育において、学生の学習行動の改善を引き出すために、ペーパーテストが有効に機能すればって、祈るような気持ちです。いろいろ、試行錯誤を繰り返しながら、次第に固まった形で試験を構成することができるようになってきました。
ちなみに、医師国家試験の模擬試験の成績と、さきほどの6項目の評価軸との相関は、やはり、浅い単純想起レベルが一番相関が高く、それと同じぐらいで学習能力でした。相関係数は0.6ぐらいあります。いずれも、基礎的な知識についての評価でもあるので、当然かもしれません。深い想起、解釈、論理性がその次につづき、0.45ぐらいです。問題解決能力は相関係数が0.3ぐらいになります。いろいろ、工夫はされているのですが、医師国家試験というテストがそういう性格なのだ、ということでしょうか。
実は、学生たちを継続的にみることができる立場にいるので、6年生が、5年生、4年生、3年生のとき、どうだったのか、を後ろ向きコホートできるのですが、医師国家試験の模擬テストの点数という切り口でみてみると、実は、あまり年次的変化はないのです。時間経過よりも、問題の種別による相違の方が大きいのです。つまり、6年生の医師国家試験の模擬テストでよい点をマークする学生というのは、3年生や4年生のときから、そういう特性を持った学生であって、ということですね。これは、我々がやっている医学教育が不適切だから、とは結論づけたくないので(笑)、医師国家試験というテストがそういう性格なのだ、ということになってしまうのかもしれません。
実際に医師国家試験の問題をみていて、医学生の能力のどの部分を評価しているのか、と考えると、医学教育担当の教員としては、やや残念な部分もあります。
究極の総括評価としての医師国家試験は、厳密な客観性が求められるので、その前には、妥当性がやや劣ってしまうのはしかたないのでしょうか。(妥当性があるのかどうか、ということについても、個々の教員の信念になってしまうかもしれませんが)
医師国家試験合格は、医学教育の最低限の目標であり、もっと高い目標をめざしていきたいと思っています。無視すればよいというのでは、目の前の学生たちがかわいそうです。(当然、医師国家試験合格率は100%でないといけません)
がんばるのは一義的には学生自身だけれど、教員としても、がんばっていきましょう。

