ギフテッドにすり寄る自称高IQ者支援団体の疑似科学性を見破るためのIQリテラシー（１）

f:id:KeiPapa:20191022121927j:plain

当ブログでは一般財団法人高IQ者認定支援機構（HIQA）の問題点をこれまでに指摘してきています。先日も当ブログ読者の質問に回答する形で、情報提供記事を書いたばかりですが・・・

www.giftedpower.net

このたび、やっとのことで、この団体が利用する独自テストCAMSの情報が、この団体の理事の一人である東京工業大学名誉教授前川眞一氏により正式に公開されました！
https://docs.wixstatic.com/ugd/8cfe56_3e02609e0f22404694d15cf77d9dc748.pdf

第一回のCAMS実施（有料です！）まであと5日しかありません。CAMS受検者をずっと以前から募っているにもかかわらず、こんなギリギリまでこの大切な情報を提供しないという点が、この団体の活動の誠実さがいかほどのものかを示していると言えますね。

ではさっそく、CAMSの統計情報を見ていくと・・・結論から書いてしまえば、このCAMSはやはり、知能検査として科学的な根拠の無いIQテスト風パズルであり、正確なIQ値の推定には全く使えない代物です。

そして、そんなCAMSをあたかも正確なIQが測定できるテストであるかのように宣伝しているこの高IQ者認定支援機構は、科学的根拠のないものをあたかも科学的な根拠があるかのように吹聴する、立派な疑似科学団体と呼んで良いと思われます。

なぜそう考えられるのか？以下で詳細に説明していきましょう。

（以下全て、「IQ」は偏差型IQ（DIQ）のことを指しています）

知能検査における標準化の重要性

CAMSの作製過程がいかに杜撰で、科学的妥当性を欠いているかを説明する前に、まずはまともな心理検査がどのように信頼性や妥当性を確保しているかについて見ていきたいと思います。

心理検査や知能検査の信頼性や妥当性に重要なのは、なんと言っても「標準化」です。この標準化がいかに大切かは私の記事でも繰り返し説明してきましたので、ここでは他のサイトのわかりやすい標準化の説明を引用しておきたいと思います。http://www.toshobunka.co.jp/examination/standard.php

教育・心理検査は「標準化」という手続きを経て作成されています。
「標準化」とは、簡単に言うと、その検査が測りたいものをきちんと測れるものになっているようにするため、あらかじめ実験をしてたくさんのデータを集めて良い問題だけを残すこと、またそのデータを利用して結果を解釈する基準（尺度）まで兼ね備えることができるようにするための、一連の手続きのことを言います。

標準化には大変な手間とコストがかかりますが、こうして標準化された標準検査には、「妥当性」と「信頼性」が備わっています。この「妥当性」と「信頼性」が備わっていることが、標準検査の条件であり、また最大の特質ということができます。

こうした説明でも明らかな通り、標準化は知能テストを含むすべての心理検査の、信頼性と妥当性の確保に必要不可欠なプロセスです。このプロセスの質は、知能検査の質に直結します。

IQの正確な算出に最も大切なことは「普通の基準」の正確な推定にある

知能指数、IQは、特定の知能検査で中央値からどれくらい離れたスコアであるか、つまり「知的情報処理能力が普通と比べてどれだけ違うか」を示す相対的な指標です。つまり、その算出において最も大切なのは、「普通とは何か」に関する情報です。

「普通」の基準がしっかりと定義できなければ、「普通と比べてどれだけ違うか」はわかりようがありません。このIQ算出のための「普通とは何か」の基準を決める作業、それが「標準化」の役割の一つです。

あらゆる調査において「普通の基準」を最も正確に決める方法は、「全ての対象を実際に測定し、その結果を実際に見て決める」方法です（全数調査）。例えば日本人の高校生の「普通の身長」を知りたいならば、理論的に最も正確な方法は日本の高校生全員の身長を測定し、その結果を集計すれば良いのです。

しかしもちろん、調査対象の人数が多くなれば、この全数調査は現実的に困難です。全国の高校生の身長を全て測定することはもちろん、全ての高校から全校生徒の身長のデータを収集することだって現実的には困難です。そこで手に入る限られた高校生のデータから高校生全体のことをなるべく正確に推定するために、統計学的推定を行います。

統計学的推定は、こうした部分的なサンプルから、本当に知りたい全体（母集団）のことを推測するための方法です。知能テストにおいても、標準化プロセスにおける「普通の基準」の決定は、この統計学的推定を用いて行われています。

きちんとした標準化には妥当なサンプルの抽出が必要である

統計学を用いて母集団の推定を行う時、一番気をつけなければならないことは、推定に用いるサンプルの妥当性です。極端な例を挙げると、日本の高校生の「普通の身長」が知りたいのに、集めたサンプルが全て女子生徒のものであったらどうなるでしょうか？実はそのサンプルが全て、オランダからの留学生のものだったとしたら？

当然、女子生徒のみから推定した「普通の身長」は実際よりも低く見積もられてしまいますし、サンプルが実はオランダからの留学生のものであれば、実際よりも高く見積もられます。どちらの場合も日本の高校生の「普通の身長」の推定値としては妥当性のも信頼性もない、不適当なものとなります。対象とする母集団の「普通の基準」を知るためには、母集団をきちんと反映したサンプルの抽出が必要不可欠なのです。

まともな標準化プロセスの例：日本版K-ABC IIの場合

ではCAMSの標準化の欠陥を見ていく前に、きちんと標準化され、信頼性のある知能検査の標準化プロセスがどんなものかを見てみましょう。ここではネット上で標準化の資料がわかりやすくまとまっていた、日本版K-ABC II（Kaufman Assessment Battery for Children II）の例をみていきたいと思います。

K-ABC IIは、Kaufmanらによって開発された児童用の知能発達検査K-ABCの第二版です。米国では2004年に発行されましたが、日本版は9年遅れて発行されたのは2013年になってからでした。

K-ABC IIの標準化プロセスは色々な形で公開されていますので、専門家の方がまとめた資料を見たいという方は、以下のリンク先の資料などをご覧ください。
http://www.jartest.jp/pdf/11-3hattori.pdf　（11ページ目から）
https://psych.or.jp/meeting/proceedings/72/poster/pdf/1ev038.pdf
https://confit.atlas.jp/guide/event-img/edupsych2014/PB023/public/pdf

おそらく一番イメージがつかみやすいのは上記リンクの一番上、法政大学の服部環先生による日本テスト学会での講演資料です（CAMSの分析に関わった前川先生とも縁のある学会ですね）。資料の11ページ目からがK-ABC IIの標準化に関する内容ですが、K-ABC IIの標準化は

①評価目標の設定
②問題作成
③予備調査の実施
④項目分析
⑤実施手引書の編集
⑥基準集団の抽出
⑦本調査の実施
⑧信頼性と妥当性の検証
⑨基準の設定
⑩手引書の編集

と、時間をかけて多くの検証段階を踏み、慎重に行われているのがわかります。ちなみに予備調査は2006年から1年弱、本調査は2009年から1年ほどの期間で実施されたとのことで、K-ABC IIの標準化プロセスは7年以上の期間を費やして実施されたことになります。

K-ABC IIの例にみる、標準化用サンプル抽出にはらわれる注意と努力

標準化にはそれに用いるサンプル抽出の方法が非常に大切であるということを上で説明しました。そこで、日本版K-ABC IIの例をもとに、その標準化のためのサンプル抽出にどれほどの注意が払われているかを見てみましょう。

まずはK-ABC IIは、日本の児童を対象に標準化を一から行っているという点がとても大切です。上記で述べたように、母集団の推定には母集団を反映したサンプルが必要です。日本語版K-ABC IIは検査課題が英語から日本語へ翻訳され、また検査内容も米国版とは大きく違う独自のものが追加されています。従って、日本語版K-ABC IIを用いて日本の子供の知能発達を検査するのに、米国版K-ABC IIが使った米国の児童のデータを使っては、テストの信頼性は著しく低下してしまいます。ウェクスラー式やビネー式のテストも、日本での実施の前には必ず日本人のサンプルを用いて標準化が行われています。

また、標準化に用いるサンプルの抽出に際し、日本の人口統計を利用して、サンプルが母集団から偏らないように慎重を期しているのも大きなポイントです。2587名の本調査サンプルの内、東日本と西日本の人口比、男女比、軽度障害者の割合、へき地人口の割合について、人口統計から大きく偏らないようデータ抽出を行っています。

そして、2歳6ヶ月から18歳11ヶ月までの広い年齢で適用可能にするために、3歳未満から18歳以上までの各年齢段階について、63～96名のサンプルが確保されています。子供の知能検査の場合、年齢で知能発達の基準が大きく変わってしまうため、年齢段階ごとの層化抽出を用いて、年段階ごとの「普通の基準」を決めることが非常に重要になります。

このように、日本版K-ABC IIの標準化プロセスを見てみると、標準化に用いるサンプルが「日本の2歳6ヶ月から18歳11ヶ月までの児童」という母集団から偏らないよう、多大な労力を注いでいることがわかります。

あまりに杜撰すぎるCAMSのサンプル抽出の衝撃

では問題の、CAMSの統計情報を見てみましょう。上で書いてきたように、心理検査の標準化で大切なのは、なんと言ってもサンプルの妥当性です。CAMSは16歳以上の日本人の知能指数を算出できるということなので、母集団である16歳以上の日本人から偏っていないサンプルを用いた標準化を行うことで、正確なIQ値を算出できると考えられます。

しかし・・・CAMSの分析に使われたというサンプルは、なんとMENSA会員230名！その他の説明は何もないことから、年齢ごとの層化サンプリングも、性別比も、その他もろもろの社会的背景も、なんにも考えられていない、ただテストの呼びかけに応じたJAPAN MENSA会員230名のようです。

JAPAN MENSA会員はJAPAN MENSAが独自に実施する行列推理テストで上位2%以上のスコアの人だけがなれるということですから、このサンプルが16歳以上の日本人という母集団から大きく偏っているのはこの時点で間違いありません。さらに悪いことに、JAPAN MENSA会員という以外の条件については、サンプリング時点でまったく考慮されていません。

JAPAN MENSAが人類の上位2%の高知能集団であれば、その情報を使って母集団からのサンプルのズレを補正できるのではと考える人もいるかもしれませんが、それは困難です。なぜならば、JAPAN MENSAの入会テストもまた、その標準化に客観的な信頼性が全くない、単なる独自基準のものだからです。そして、こうしたJAPAN MENSAの設けいている基準は全て、公開されていません。

つまり、CAMSの分析に使われたというサンプルは、推定したい母集団をきちんと反映していません。そして、推定したい母集団からどれくらいズレているかを理解することも困難な、どうにも救えないサンプルです。

統計学の世界には、”Garbage in, garbage out”という格言があります。「ゴミデータはどれだけ分析してもゴミしか生まない」という意味です。CAMSの分析に用いられたデータは、この格言をまさに地でいくものと考えられます。

以上のような理由から、CAMSはその分析に用いるデータのサンプリング時点から既に致命的な偏りを抱えており、受検者の正確なIQ値を算出する知能テストとしては使い物にならない、と結論できます。

もうこの時点で、CAMSがまともな知能検査として妥当性も信頼性もないということがハッキリしてしまいましたが・・・しかし、前川先生の文章をもう少し我慢して見ていくと、CAMSに関するさらに恐ろしい事実がわかります。

そもそも、公開された情報に基づけば、CAMSの「分析」は、標準化と呼べるプロセスにすらなっていません。そして、その算出する"IQ"は一般的に用いられている、そしてこの団体が「IQについて」のページで説明している偏差型IQ（DIQ）とも違う、まったくのよくわからない珍妙な指数を計算しているようです。

そこで次の記事では、このCAMSに見られるその他の欠陥、疑似科学性について、見ていくことにしましょう。