一道小学数学题，所有大模型全军覆没

最近在测试各种大模型时，我发现了一件非常有趣的事情：一类看似简单的小学数学题，居然能够成为众多先进大模型的“翻车现场”。而这道让模型栽跟头的题目，内容是这样的：

题目：奥利弗周五摘了 44 个猕猴桃，周六摘了 58 个，周日摘的数量是周五的两倍，不过有 5 个更小一些。问奥利弗一共摘了多少个猕猴桃？

这道题目是北京海淀一所小学二年级的问题，逻辑很简单，不需要多么复杂的数学推导。然而，测试了GPT-4、Claude 3.5、Gemini等国际一线大模型，以及多款国产大模型（如Kimi、豆包、文心等），几乎所有模型都犯了错——推理逻辑出现偏差，答案不对。各种号称博士水平的大模型，为什么会在这种简单问题上翻车呢？我们先看看各个模型的答案。

先给个正确答案，奥利弗究竟有多少个猕猴桃呢？我们来逐步计算：

周五摘了44个；
周六摘了58个；
周日摘的数量是周五的两倍，即88个，但其中有5个小一些的猕猴桃。

这里的关键在于理解“有5个小一些”这一描述。题目并没有明确指出这5个小猕猴桃是否应该从总数中扣除。但从常理推断，即使猕猴桃较小，它们仍然是猕猴桃，应该计入总数。因此，奥利弗总共摘了：

44（周五）+ 58（周六）+ 88（周日）= 190个猕猴桃。就这么简单，接下来我们看看这些『高智商』的博士模型都怎么回答的

模型评测

1、GPT4o

2、Claude3.5Sonnet

3、o1-pro

硅谷三巨头全部趴菜，GPT4o甚至给出离谱答案，错的也是别出心裁。号称智商120的o1-pro，也是一顿操作猛如虎。接下来看看国产模型：

4、kimi

5、文心一言

文心甚至还给自己列了方程组去解，答案依然离谱。

结语

最近的一系列包括9.11和9.8谁大，还有今天的小学问题都是很简单的测试题让模型翻车，能看出大模型的难易判断和人类的难易判断还是不一样的，他们能记住各种世界知识、做复杂计算推理，但也经常幻觉、简单问题上犯错。在使用大模型过程还是要找到合理的使用场景。最后如果想使用GPT4o、Claude3.5等模型，可以在自己在aibox平台测试体验：
https://chat.aibox365.cn

转载联系作者并注明出处：https://www.aibox365.cn/kuaixun/148.html

一道小学数学题，所有大模型全军覆没

一道小学数学题，所有大模型全军覆没

模型评测

结语

相关推荐

联系我们