https://tamakino.hatenablog.com/entry/2026/02/24/080000

北京大学で、AIが苦手とする思考問題を収集するプロジェクトSUPERChemが進められている。AIが苦手とする問題は、AIのさらなる進化の指標となり、同時に人間の学生の思考力も測ることができるからだ。AIと人間が対決したところ、最初の軍配は人間にあがったと上観新聞が報じた。

AIはもはや試験では満点が取れる

入学試験や資格試験の問題を対話型生成AIに解かせて、ほぼ満点を取ったというニュースはよく見かける。しかし、それは当たり前の話なのだ。AIは知識や類似問題を学習しているため、参考書や辞書持ち込みの試験と同じであり、人間も同じ条件で時間が与えられれば満点が取れる。

本来は、試験には学習だけでは解けない問題＝AIが初めて見る問題を出題しなければならない。それでこそ、思考力などの本質的な学力が測定できる。

AIに解けない思考問題を集めるプロジェクトSUPERChem

では、どんな問題であれば、思考力を測定することができ、AIには解けないのか。その試みが、北京大学化学学院で行われている。

化学学院は、計算センター、計算機学院などと共同して、SUPERChemプロジェクト（https://superchem.pku.edu.cn/home）を進めている。これは、AIには解けない問題を収集するプロジェクトだ。一般的な暗記に頼った問題ではAIは満点を取ってしまうために、AIの性能を測ることができなくなっている。そこで思考力を試す問題を収集することで、AIの性能を測ることができるようになり、同時に人間に対して出力すれば思考力を試すことができる。

▲AIが苦手とする思考問題を人間が考え、それを人間がレビューして、収集していく。AIの思考力進化の指標となるだけでなく、人間の学生の思考力を測ることにも利用できる。

人間がつくり、人間がレビューする

約100名の教員と学生が問題を作成する。これをメンバー同士がレビューし合い、ポイントをつけていく。これを繰り返すことで、AIが見たこともないような問題を収集しようという試みだ。

例えば、次のような問題が収集された。

メンデレーエフが元素周期律を発見した150周年を記念し、国際純粋応用化学連合は2019年を「国際化学元素周期表年」と定めました。メンデレーエフは当時未知であった多くの元素を予言し、Mはそのひとつです。

Mは銀白色の金属で、質感は柔らかく、濃硫酸、硝酸、塩酸、希アルカリ溶液に溶解します。Mは酸素と250 °Cに加熱して反応させ、淡黄色の固体Aが得られます。AはSOCl2処理により明るい黄色の固体Bを得ることができ、BはMと黄緑色の気体Cと直接加熱反応させて得られます。Bを単体気体Dと200°Cに加熱して反応させると、赤色固体Eに変換されます。Mを直希塩酸に溶解すれば、Eの溶液を得ることもできますが、Mでコーティングされたマグネシウムシートを希塩酸に溶解すると、少量の二元化合物Fを得ることができます。Fは常温で液体であり不安定であり、その水溶液は酸性を示します。Fは金属カリウムと反応して淡灰色の固体Gを生成し、単体気体Dを放出します。

上記の情報に基づき、以下の選択肢から正しい表現を選んでください。

A：物質Mの原子番号と族数の奇偶性が異なる

B：Mがコーティングされたマグネシウムシートが希塩酸と反応し、生成物中のMgの化合価はA中のMの化合価と同じです。

C：Gは反蛍石構造を有しています

D：空気酸化のため、E溶液を長時間放置するとBを含む溶液に変化します。

▲各種AIモデルと学生174人が対決をした。最も成績のよかったGPT-5も、人間の平均点を超えることはできなかった。

AIと人間が対決。軍配は人間に

このような問題を収集し、主要なAIモデルと北京大学の学生174名に対して、試験が実施された。人間とAIの対決だ。

その結果、人間の平均正解率は40.3%だった。AIはどうだったのか。最も成績のよかったGPT-5（High）ですら39.6%で、人間を超えることはできなかった。つまり、AIはまだまだ賢くならなければならず、それは言い換えれば賢くなる余地があるということだ。

▲人間の平均点は40.3%の正答率。各種AIモデルはそれ以下の正答率しかあげられなかった。

視覚情報を使うとAIの正答率が下がるという意外な事実

この研究では意外な結果も報告されている。それは、AIモデルが視覚情報を使った場合と使わなかった場合で、視覚情報を使った場合の方が成績が悪かったのだ。

有機化学の問題を解くのに、人間にとっては視覚情報はきわめて重要だ。化学式や分子模型の図を見ることで、頭が整理され、理解しやすくなる。しかし、AIにとってはこのような視覚情報がむしろ混乱を起こさせることになっている。

つまり、AIはいまだにテキストベースであり、文字情報から得た知識と現実世界の図を結びつけることができていない。AIは現実世界を認知するマルチモーダル理解の点ではまだまだ人間よりも劣っている。

この領域での新たなAIの性能競争が始まっている。同時に、暗記のようなものはAIに任せればいいのだから、人間が学ぶべきことも変化していくことになる。学校での学び、試験問題の内容も今後大きく変わっていくことになる。

▲非常に面白いことに、AIは視覚情報を使うマルチモーダルモードでは正答率が下がる傾向にあった。視覚から得られる現実と、学習している知識の結び付けがまだうまくいっていないようだ。

バックナンバーポッドキャスト放送中！

apple.co

ビデオ版バックナンバーも放送中！

www.youtube.com

LINKTOR