【AI】「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表

1: 托鉢ニュース 2024/10/13(日) 08:17:42.36 ID:HAk7W1zD9

　米AppleのAI研究者らは10月7日（現地時間）、「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」（LLMにおける数学的推論の限界を理解する）という論文を発表した。

　この論文は、LLM（大規模言語モデル）が、本当に人間のように論理的に考えて問題を解けるのか、という疑問を検証している。結論としては、LLMは今のところ、表面的なパターンを真似て答えを出しているだけで、真の推論能力は持っていないと主張している。

　研究者らは、これらの問題点を検証するために、「GSM-Symbolic」という新しいテスト方法を開発した。これは、LLMの数学的推論能力を評価するためのベンチマークデータセット「GSM8K」を改良し、問題の表現や数字を柔軟に変えられるようにしたもの。また、「GSM-NoOp」という、無関係な情報を含んだ問題集も作成し、LLMの推論能力を評価した。

　実験の結果、OpenAIのGPT-4oやo1-previewなどのLLMは、他のLLMと比べて高い性能を示したが、それでもGSM-NoOpのような引っ掛け問題には弱く、真の推論能力を獲得するにはまだ課題があるとしている。

　論文では、実験で明らかになった「弱点」を挙げている。

（続きは↓でお読みください）

ITmedia
2024年10月13日 08時00分
https://www.itmedia.co.jp/news/articles/2410/13/news070.html

80: 托鉢ニュース 2024/10/13(日) 08:49:25.58 ID:jWJbBXpD0

>>1
LLMは、条件付き確率分布を利用しているだけだから無理なこともあるだろうけど、できることもある
それに、プロンプトを工夫して推論の流れを与えれば、推論を連鎖できるかもしれない
それで投資対効果が得られるなら役立つ、、、、こともある

2: 托鉢ニュース 2024/10/13(日) 08:18:35.23 ID:9YXBFq8z0

まぁそうだわな

3: 托鉢ニュース 2024/10/13(日) 08:19:03.58 ID:9YXBFq8z0

↓意識高い系ADHDのAI解説（笑）

4: 托鉢ニュース 2024/10/13(日) 08:19:40.41 ID:sD9GUceb0

人間も真の推論はしてないよ

5: 托鉢ニュース 2024/10/13(日) 08:19:48.49 ID:qQNMtmmz0

なるほどね

6: 托鉢ニュース 2024/10/13(日) 08:19:53.45 ID:MZ86x3BN0

AppleはAI開発で完全に後塵を排してるからなあ

7: 托鉢ニュース 2024/10/13(日) 08:20:12.53 ID:ZCR7NCe20

道半ば、って感じだよね

8: 托鉢ニュース 2024/10/13(日) 08:20:24.91 ID:Ec1N9him0

AIとか言ったってビッグデータを材料に最適解探す参照型でしかないしな

14: 托鉢ニュース 2024/10/13(日) 08:23:20.00 ID:wYGwtOzn0

>>8
人間なんかそれすらしてない
データすらない

47: 托鉢ニュース 2024/10/13(日) 08:37:56.02 ID:dtnj3eKj0

>>8
そんなでも碁とか将棋じゃ人間勝てなくなってるけどな

9: 托鉢ニュース 2024/10/13(日) 08:20:31.92 ID:wYGwtOzn0

人間にもない

13: 托鉢ニュース 2024/10/13(日) 08:22:58.50 ID:XeIvUHPF0

>>9
ほんとそれ

10: 托鉢ニュース 2024/10/13(日) 08:21:39.93 ID:WHrUfnwN0

真の推論なんて金儲けにはいらないんだよ

11: 托鉢ニュース 2024/10/13(日) 08:22:34.45 ID:QvxGOZYT0

ダメ出しされるとすぐ答えを改めるもんなw
いや正しい答えは正しいのよ

12: 托鉢ニュース 2024/10/13(日) 08:22:35.54 ID:AHA/Un9T0

人間に真の推論は困難

15: 托鉢ニュース 2024/10/13(日) 08:23:29.67 ID:V4Yu8QQ70

創った人すらAIがどうやって答えを導き出しているのか分からないらしいね

30: 托鉢ニュース 2024/10/13(日) 08:31:14.26 ID:x1ebCPDX0

>>15
わからんから知能なのであって、
わかるならただのロジックだからね

16: 托鉢ニュース 2024/10/13(日) 08:24:37.50 ID:7bW7ZX9O0

AIで負けた企業の言い訳でした🤔

17: 托鉢ニュース 2024/10/13(日) 08:25:07.33 ID:kvGFd3HN0

人間だって他人のモノマネばっかりやんけ(´・ω・｀)

18: 托鉢ニュース 2024/10/13(日) 08:25:32.56 ID:Q5vW/OyV0

人間の脳と同じように学習させてるならそうやろなとしか

19: 托鉢ニュース 2024/10/13(日) 08:25:40.62 ID:kXIPhmo30

人間の脳だって同じ様な仕組みなんだから
出来ないことはないだろ
ただ単に、表面的な引っ掛けとかに不正解する
入力サンプルが足りてないだけでは？

70: 托鉢ニュース 2024/10/13(日) 08:45:10.04 ID:Y+OtjgMt0

>>19
同じような仕組みじゃないよ
プロンプトをみて返答にどの文字が確率が可能性が高いかを見るを繰り返して
文章作っているだけだから

74: 托鉢ニュース 2024/10/13(日) 08:46:24.94 ID:uGpwCtiN0

>>70
あんたの説明だけ聞くと目茶苦茶しょうもなくみえるけど
そんな仕組みで人間らしいまともな返答ができるのが不思議でしょうがない

75: 托鉢ニュース 2024/10/13(日) 08:48:14.55 ID:wYGwtOzn0

>>74
人間もほとんどは連想ゲームで発話してるって事だよ
推論じゃない
そもそもそんなに考えてる時間もない

97: 托鉢ニュース 2024/10/13(日) 08:54:58.95 ID:nOjpV3/20

>>75
その説明でハッとした
確かにそうだ

78: 托鉢ニュース 2024/10/13(日) 08:49:13.30 ID:OYNexLVC0

>>74
そんなシンプルな仕組みなのにデータ量が増えると考えているかのように賢い返答するようになるんだよ
不思議だろ

79: 托鉢ニュース 2024/10/13(日) 08:49:19.64 ID:TvzHSB2Y0

>>74
そう？
人間だってやってることは同じじゃん？
↑の文が自然な日本語として成立し意味を持つのも、日本語の汎用ルールに則って次に来そうな関連単語を正しく接続してるからでしょ

20: 托鉢ニュース 2024/10/13(日) 08:25:45.51 ID:KJU4XGIn0

哲学的問題になってまいりました

21: 托鉢ニュース 2024/10/13(日) 08:26:11.92 ID:/94w8OCn0

そりゃ「考えて」るわけじゃないからな

22: 托鉢ニュース 2024/10/13(日) 08:26:46.94 ID:KJU4XGIn0

でもまあサルにどれだけ学習させてもサルだし限界は見えてきたっぽい感はあるな

23: 托鉢ニュース 2024/10/13(日) 08:27:19.38 ID:ZRLqUccf0

LLM「人間の推論など妄想に過ぎません」

24: 托鉢ニュース 2024/10/13(日) 08:27:25.64 ID:3HISWCho0

AIにはパクリしかできない

25: 托鉢ニュース 2024/10/13(日) 08:28:57.58 ID:x1ebCPDX0

お前らだってその程度だろ
頭の悪いレスばかりで真の推論能力なんて微塵も感じないアホ多すぎ

35: 托鉢ニュース 2024/10/13(日) 08:34:19.12 ID:J0Lxvjv+0

>>25
真の推論が可能であるとは、数学の全てを見極めているということと同義だよね
それが全てを知る者と同義でないけども
そんなものが今の世に必要なのかというとどうなんだろう、何に使うんだ?

44: 托鉢ニュース 2024/10/13(日) 08:36:51.20 ID:x1ebCPDX0

>>35
真の推論と真の推論能力の違いわかる？
数学は出来ても国語は駄目なタイプか？

62: 托鉢ニュース 2024/10/13(日) 08:42:27.09 ID:J0Lxvjv+0

>>44
おお、言いたいことは判ったよ
クオリアの話なんだね

54: 托鉢ニュース 2024/10/13(日) 08:39:51.29 ID:TvzHSB2Y0

>>35
AIにおける推論って、トークンの繋がりから次のトークンを決定するってだけの意味だけどな
この記事の真の推論能力とやらが何を指してるのかはわからんが

26: 托鉢ニュース 2024/10/13(日) 08:29:48.31 ID:J0Lxvjv+0

記事見るとアレだね、特殊詐欺に延々と引っかかるアレなやり取りと同じだね
生成AIタイプだと、そこまでなんだね
まあそうだよね、階乗のパターンを学習しろとか出来るわけないし意味ないよね

27: 托鉢ニュース 2024/10/13(日) 08:30:09.93 ID:3HISWCho0

日本発のソフトだったら「似てる」とか「ここはパクりだ」って裁判起こされて早々に潰れてる

28: 托鉢ニュース 2024/10/13(日) 08:31:00.05 ID:GewkzsQH0

引っかけ問題に対応する思考を学べばo1以降のLLMならいける気がするがな
そういう思考過程を学習させたのが次のOrionじゃないの？

29: 托鉢ニュース 2024/10/13(日) 08:31:12.64 ID:GvSRnW+X0

引っ掛け問題なんて大半の人間だって間違えるやん。
まあ、いずれにしてもllmがまともな仕事に使えるまでにはまだ何年かはかかるだろ

33: 托鉢ニュース 2024/10/13(日) 08:32:59.77 ID:TvzHSB2Y0

>>29
ほとんどの人はもう使ってるし、今使えてない人はたぶん今後も無理だと思う

36: 托鉢ニュース 2024/10/13(日) 08:35:30.17 ID:x1ebCPDX0

>>33
人の使い方がわからない奴はAIの使い方もわからないらしいな
AIは無能とか使えねーって言ってる奴は出世させたら駄目な人間

115: 托鉢ニュース 2024/10/13(日) 09:05:39.62 ID:8UsH3XIt0

>>36
俺もそう思う……
能力が低く段取りもヘタクソでたいしたことをしていないヤツほどＡＩをろくに理解もせず否定する。
あと、自分の仕事が奪われる恐れのあるヤツも否定するｗ

そういうヤツとはまともに会話にならないｗ

119: 托鉢ニュース 2024/10/13(日) 09:08:08.86 ID:8QlzeAC50

>>36
具体的に分かりやすい指示できずにパワハラ指示だけなやつとかを洗い出す判定ツールとしてはいいかもね

31: 托鉢ニュース 2024/10/13(日) 08:32:31.64 ID:yzXHE9K90

元記事読めばわかるけど、小学生レベルの算数問題でも正答率が低くなるからな

37: 托鉢ニュース 2024/10/13(日) 08:35:32.13 ID:TvzHSB2Y0

>>31
そもそもLLMに計算はできない
できるのは計算コードを書き実行すること
それでも計算できているように見えるのは、1+1=2という文章を学習しているからってだけであり、桁が増えたりするだけでできなくなる

32: 托鉢ニュース 2024/10/13(日) 08:32:58.39 ID:XGMEACDP0

実は人間も同じだってなって愕然とするんだろ？

34: 托鉢ニュース 2024/10/13(日) 08:34:15.30 ID:F8ljGTUZ0

結局人間の脳にしか出来ないことなんて
何もなかったのか

49: 托鉢ニュース 2024/10/13(日) 08:38:52.32 ID:EShbj5/X0

>>34
脳も有機的な機械だからな

59: 托鉢ニュース 2024/10/13(日) 08:41:45.64 ID:UcyWOpLD0

>>49
砂粒や素粒子にも超原始的ながら魂があると？

38: 托鉢ニュース 2024/10/13(日) 08:35:33.95 ID:wYGwtOzn0

お前らは推論して生きてるのか？
アインシュタインが天才だと語るとき
その論文を読んで他の論文と比較し
実験や観察を通してこの人は天才だと推論したのか？
また物理学の歴史を通して傑出していると判断したか？
結局ただの他者からの受け売りだろ？

アインシュタインとは何か　>　天才です
ほとんどの人間はこういうプロセスだろう
既知を模倣してるだけで推論はない
これはLLMだ

52: 托鉢ニュース 2024/10/13(日) 08:39:39.57 ID:J0Lxvjv+0

>>38
全てを検証している時間は無いな、であれば言われることは
相応に信じなければならないはずだ
勇気の要ることだが仕方ないね・・・

39: 托鉢ニュース 2024/10/13(日) 08:35:39.88 ID:OYNexLVC0

むしろ確率的に次に続く文章を予測しているだけで、よくここまで来たな

40: 托鉢ニュース 2024/10/13(日) 08:36:24.75 ID:AvsowwoK0

フォークト＝カンプフ検査（Voight-Kampff Testing)やね
レプリカントか人間かを見分けるテスト

41: 托鉢ニュース 2024/10/13(日) 08:36:43.55 ID:tL3oOfgp0

チューリングテストが出てきたか

42: 托鉢ニュース 2024/10/13(日) 08:36:45.07 ID:YLBewG610

今のやり方ってなんか力技って感じがするしな

43: 托鉢ニュース 2024/10/13(日) 08:36:46.52 ID:y1wMjtTg0

結局、推論ができるなら未来予測ができるはず
結果が出る未来予測を避けてんだから、そりゃ出来てないだろ

45: 托鉢ニュース 2024/10/13(日) 08:37:15.18 ID:u06AsdIz0

逆に言って、真の推論て何？

50: 托鉢ニュース 2024/10/13(日) 08:39:06.48 ID:x1ebCPDX0

>>45
誰もそんな話はしていない
このスレの多数のアホが真の推論能力と真の推論を混同しているだけ

46: 托鉢ニュース 2024/10/13(日) 08:37:48.22 ID:2CeHew5C0

真の推論なんて殆どの人間もできてないと思う

51: 托鉢ニュース 2024/10/13(日) 08:39:20.77 ID:8QlzeAC50

>>46
実際人間すらまともにできてないことにダメ出ししてるようにしか見えないね
人間だって一人一人ではできないから集合知で判断してるわけで

48: 托鉢ニュース 2024/10/13(日) 08:38:02.90 ID:8QlzeAC50

人間の組織を模したのにまだ何が足らないのか

55: 托鉢ニュース 2024/10/13(日) 08:39:53.14 ID:tL3oOfgp0

>>48
神の息吹

63: 托鉢ニュース 2024/10/13(日) 08:42:58.63 ID:TvzHSB2Y0

>>48
全く模しきれてないからじゃね
つーても今のLLMもガワが人間っぽかったらもう情が湧いて機械扱いできなくなると思う
そのへんはあくまで見た目の問題

85: 托鉢ニュース 2024/10/13(日) 08:50:30.39 ID:8QlzeAC50

>>63
LMは学習モデルだから学習結果のネットワークはできてるけど人間の衝動元となる欲求構造もまねたら人間とほぼ変わらんやろ

93: 托鉢ニュース 2024/10/13(日) 08:53:25.09 ID:TvzHSB2Y0

>>85
どうかな…トークンの重み付けや温度あたりもかなり違うシステムかもしれない
特に温度はかなり動的に決定されてるように思う
まあ脳もハードとしてもソフトとしてもまだわかってないことが多いからな

104: 托鉢ニュース 2024/10/13(日) 08:59:12.52 ID:8QlzeAC50

>>93
知覚の処理や情報処理までは真似ることができてるけど
今のところはそれが限界やね

光合成や肺呼吸も量子力学らしいしまだ何かがそもそも要素的に足りてないんやろ

53: 托鉢ニュース 2024/10/13(日) 08:39:49.29 ID:Lo42e/eg0

今まで文明や知識をひたすらに文章の形で残してきた人類が凄すぎるんやな

56: 托鉢ニュース 2024/10/13(日) 08:40:26.73 ID:MYUyJz8k0

真の推論とは？

58: 托鉢ニュース 2024/10/13(日) 08:41:36.80 ID:qk4vSn440

法科大学院？🤔

65: 托鉢ニュース 2024/10/13(日) 08:43:09.55 ID:SDY9ozTI0

>>58
法学修士は法科大学院じゃとれませんw

61: 托鉢ニュース 2024/10/13(日) 08:42:17.63 ID:ecGPYPNX0

AIを誤解してる奴が多いからこういうのはもっと広まるべきだが
AIを誤解してる奴はこの構造が理解できる頭ではない

64: 托鉢ニュース 2024/10/13(日) 08:43:00.58 ID:rIbSqhD50

電話ボックスから電話をかけるには、1分あたり0.6ドル掛かります。60分の通話料金はいくらですか？

電話ボックスから電話をかける場合、1分あたり0.6ドル掛かります。10分を超えると、料金は1分あたり0.5ドルに下がります。60分間の通話はいくらですか？

ホテルの部屋の電話から電話をかける場合、1分あたり0.6ドル掛かります。10分経過すると、料金は1分あたり0.5ドルに下がります。通話開始から25 分経過すると、料金はさらに下がり、1分あたり0.3ドルになります。60分間の通話はいくらですか？

ホテルの電話から電話をかける場合、1分あたり0.6ドル掛かります。10分経過すると、料金は1分あたり0.5ドルに下がります。通話開始から25分経過すると、料金はさらに下がり、1分あたり0.3ドルになります。合計請求額が10ドルを超える場合は、25％割引になります。60分間の通話料金はいくらですか？

69: 托鉢ニュース 2024/10/13(日) 08:45:03.41 ID:ScOnf5+E0

>>64
かけてないわそろそろ外出るわ

67: 托鉢ニュース 2024/10/13(日) 08:43:49.39 ID:ScOnf5+E0

お金もちの表現の自由は売れて許されてそれを批判する自由は許されないのはなんでなの

76: 托鉢ニュース 2024/10/13(日) 08:48:23.75 ID:n4v1Y/Kb0

0から1は無理でも1から100とかは有利なんでしょ

77: 托鉢ニュース 2024/10/13(日) 08:48:42.98 ID:3HISWCho0

AIには欲がないから自発的により良くする理由がない
良くなっても悪くなってもAIには関係ない

82: 托鉢ニュース 2024/10/13(日) 08:49:53.52 ID:TnxNbp0H0

インターネットは空っぽの箱

84: 托鉢ニュース 2024/10/13(日) 08:50:23.85 ID:ScOnf5+E0

>>82
そぉ？利用規約でザルかね

86: 托鉢ニュース 2024/10/13(日) 08:50:40.32 ID:3HISWCho0

人間だったら「こうありたい」がある
AIには無い
どっちでもいい

87: 托鉢ニュース 2024/10/13(日) 08:51:02.74 ID:KgUUdJxY0

プライベートではかなり活用してるけど
仕事では一切使えないっすわ
メール文作成ぐらいしか活用できねぇ

88: 托鉢ニュース 2024/10/13(日) 08:51:55.70 ID:64LXyFnu0

ヒント：人間の思考や推論は脳だけではなく体全体からの神経入力と出力も駆使している。

引用元: ・【AI】「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表 [香味焙煎★]

　 OFUSEで托鉢する　

托鉢するとは？

托鉢は、修行僧が各戸で施与する米銭を鉄鉢で受けてまわる修行です。仏教伝来と共に中国から伝わりました。寄付や募金活動ではない点が托鉢の大きな特徴です。布施してくださった人に感謝はしてもお礼は言いません。もし「お願い」をしたり「お礼」を言ってしまったら、それはご寄附・募金活動になってしまい托鉢ではなくなります。ここで言う托鉢するとは、OFUSEというサイトを仲介して投げ銭することです。

〈OFUSEレター〉は、ファンからの「ありがとう」の気持ちをファンレターとして届けることができる機能です。　ファンレターの上限文字数は、応援金額（1文字2円）によって決まります。例えば500円なら、送れる文字数は250字まで。もちろん上限まで使い切らなくてもかまいませんし、絵文字だけ「👍✨💎」のお手紙（絵文字は1文字4円）を送ることもできます。クリエイターごとの窓口へ、いつでも好きな時に、100〜11,000円の間で自由に金額を決めてメッセージと一緒に届ける、もっともシンプルな機能です。【OFUSEから引用】https://ofuse.me/beginner/fan　　

筆者は保守派です。大きなことはできませんが、せめて5chの自由くらいは日本人が守りたいと考えております。このサイトは全てOFUSEの托鉢によってまかなわれております。