AIでTRPGをやってみたら、いつの間にか終わりのないマラソンを走らされていた。
序盤はいい感じで進んでた。
ちゃんとAIがGMをやってくれて、ストーリー通り進んでる気がする。
だが、しばらくするとなにがか変だ。なーんか進まないのである。
進んだ気がしない。あちこちで新要素が見つかる。たくさん情報が手に入る。
けれど、なにが核心かわからない。近づけない感じがする、永遠に。
なにかがおかしいと思って聞いてみると、
ストーリーを脱線してオリジナルになっていた。答えがない。
私の反応に合わせてそれらしい反応を返しているだけで、
ストーリーの終わりを作るのは自分になっていた。なんてやつ!
Level-K 理論
こういうことがあったので、AIに対してメタ認知を与えたかった。
問いに対しての反応だけでなく、
ストーリーとしてオチを与えられるよう全体を統括するような思考だ。
仕事でも同じ。AIはほとんど一問一答は完璧。一つのタスクに良い回答を返す。
だけど「良いアイディア」は驚くほどでてこない。
人間が見た瞬間にこりゃだめだとわかるのに、
AI自身ではそれを自分で判断しようとしない。自己チェックができない。
この抽象的な思考、メタ認知スキルについて、
個人的には Level-K 理論を当てはめたい。
(拡大解釈なのはわかってますけど、わかりやすいんで)
Level-Kは要は対戦ゲームとかで相手がどれくらい深く裏の裏を読んでるか、という話。
Kというのは、相手の戦略を何段階まで読んだ上で
自分の戦略を決めるかという数を示す
ただ純粋に目の前の合理性だけを見て戦略を決めるのがK=0の思考。
相手(あるいは自分以外の皆)がK=0で思考していることを読んだ上で、
それなら自分はこうした方が得策だと決めるのがK=1の思考。
さらに、皆がK=1の思考くらいはしてくるだろうと踏んで、
さらにその上で自分はどうするか決めるのがK=2の思考このコンテストで読者は、0~100の間の整数を1つ選ぶように求められ、
全参加者が選択した数字の平均値に3分の2をかけた値に最も近い数字を書いた人が
勝者であると決められました。
たとえば、全員が書いた数字の平均が60だった場合、40を書いた人が勝者ということです。
コンテストは1,000人以上の人が参加しましたが、
選ばれた数の平均は18.91であり、勝者は13を選んだ人でした。
他に選ばれた数字で多かったのは0、1、22、33でした。
先ほど申し上げた通り、0と1は[ナッシュ均衡]の値であり、
22はK=1の思考レベル、33はK=0の思考レベルの人が選ぶ数字であり、
一方でwinning numberであった13はK=2の思考レベルで選ぶ数字に近いものです。
このコンテストにおける勝者は、
Kレベル思考を極限まで重ねてナッシュ均衡に到達した人ではなく、
K=1くらいの思考をする人が多いであろうことを察し、
K=2くらいの思考レベルで立ち止まるセンスを持った人だった
AIの思考レベルは?
こうして考えると AI は Lv0 はほぼ完璧だろう。
問いと答えがセットなので。
問題は Lv1 からだ。AIに対しての仕事やタスクの依頼について
「それがなぜ発生したのか」「前提条件の罠はなにか」
「本当に求められていることはなにか」を考える必要がある。
顧客がドリルがほしいと言ったとき、
ドリルを探すのではなく、穴を開けてやれという話だ。
これはある程度は成長してきて、たまにできていることもある。
プログラミングならセキュリティに配慮したり。
ちょっとしたサービスみたいな気遣いだ。
Lv2はさらに違う問題になる。Lv1をうまく設計する方法を考え始める。
要は新入社員教育を考え始めるわけだ。メタ認知用の学習を考える。
なにがあると新入社員はうまくやれるだろうか?
どうやったらメタスキルを身につけてより良い回答ができるだろう?
Lv3 はまあ組織的に考えれば部長とか社長とかのスキルに近いだろう。
分業した専門家の意見をとりまとめたり、改善したり、運用するようなものだ。
メタ認知スキルの学習の難しさ=評価しにくさ
高いLvのメタ認知スキルの学習は難しいはずだ。
なぜなら、評価がしにくいから。
Lv0は質問と答えがセットであたりがある。
だがメタ認知スキルを定義し、Lv1,Lv2を評価しようとすると問題が起きる。
本当にそのメタ認知スキルで出力は良くなったのだろうか?
組織的に考えるならプログラマーが書いたコード自体は評価しやすい。
バグもテストもできるから。速度もわかるし、読みやすさも人間同士評価できる。
問題は、リーダーやマネージャが指導した内容が適切だったかどうか。
良いアドバイスやレビューができていたか?
なにを教えたことがよかったのか?なにが改善に繋がったのか?
答えがでずらい、評価に時間がかかる、評価がブレる、変数が多い。
プログラマーが休んで回復したから良いコードが書けたのなら、メタ認知関係ない。
実はいい本があってそのとおりに書いたから良いコードがかけたり。
人間だってマネジメントスキルが上手い人って評価できないでしょう?
良いアイディアを出力する評判の人がいる…その人のスキルは言語化できるのか?
第二のその人を作れるだろうか?その人はなにが原因で良い出力がだせるのか?
結局のところ、メタ認知を必要とするLv1,2スキルは評価が難しいから成長しづらい。
これは人間も相当大差ないし、難しさがわかるはず。
評価が難しいもの、時間がかかるものは成長しづらい
さらに物理世界でも同じ。料理やら建築やら。AIは局所的な問題は解ける。
たぶんカツ丼のカロリー計算やら、建築の構造壁の計算とか…できるはずだ。
一方で、なにがおいしい料理なのか?どういった建築が美しいのか?それは難しい。
なぜなら評価が曖昧だし、なにより試行回数が足りない!
IT系はシミュレーションコストがあまりに低く、失敗もたくさんできて、試行できる。
だが、物理世界はそうもいかない。コストもあるし、シミュレーションは限定的。
さらにメタ認知スキルも言語化しづらいだろう。
要は美味しい料理を見つけるコツ、美しさを導くコツは定義しづらい。
そしてそれがうまく作用するかの評価も全然足りるわけがない。
よってほとんど成長できない。新人が成長しづらい。
ある一定までは真面目な人なら成長できるかもしれない。
ただそれは限定的なメタスキルであり、多くの人が身につけられるならAIも可能。
だが、より上位のスキル「職人の勘」であれば、たぶん試行回数が足りなくなる。
なんでAIに疲れるのか
あとはAI疲れの話。これは結局はLv0ばっかりやられてしまい、
Lv1もちょっとあるけど、人間が上位レベルばかり考えさせられることの疲れだ。
たぶんだが、Lv1,2を考えるにはLv0を参考にしないといけない。
だが、そこに自分でやった経験とか実感がないと、たぶん進んでない感じがする。
なんていうか自律的に見せかけて、有能に見せかけて完璧な指示待ちなのだ。
これは本当にメタ認知が足りてない。なーんかたりない=メタが足りない。
ある意味でイレギュラーケースの想定とか、仕事の幅を広げることが必要とされる。
AI側が人間に対して求めてくるようなもの。そりゃあ疲れる。
しかも成長していかないのである。
もちろん自分で自分を成長させるように仕向けることもできる…
だが、その評価が正しくないなら、成長できない。間違う。補正できない。
要は新人に対してミスしたら改善案書いて?といったところで大したものがでない。
本質的に全然足りてないんだよな~と思って指導するのに疲れるわけだ。
じゃあ本でも読んで学んでこいって?それでうまくいった試しありますかね?
何がいい本かまず教えて、10冊読ませて…え?全部適用しなくていい?
このときはこっちがよくて…こっち忘れてた?経験が足りない!
そんなにメタ認知スキルを上げられる本があるのなら、
なんで私たちは仕事がうまくいってないんでしょうか。つらい。
そこらへんが今のAIの限界であり、
なんで疲れるのかという説明にもなると思っている。




