一道小学数学题,所有大模型全军覆没
最近在测试各种大模型时,我发现了一件非常有趣的事情:一类看似简单的小学数学题,居然能够成为众多先进大模型的“翻车现场”。而这道让模型栽跟头的题目,内容是这样的:
题目: 奥利弗周五摘了 44 个猕猴桃,周六摘了 58 个,周日摘的数量是周五的两倍,不过有 5 个更小一些。问奥利弗一共摘了多少个猕猴桃?
这道题目是北京海淀一所小学二年级的问题,逻辑很简单,不需要多么复杂的数学推导。然而,测试了GPT-4、Claude 3.5、Gemini等国际一线大模型,以及多款国产大模型(如Kimi、豆包、文心等),几乎所有模型都犯了错——推理逻辑出现偏差,答案不对。各种号称博士水平的大模型,为什么会在这种简单问题上翻车呢?我们先看看各个模型的答案。
先给个正确答案,奥利弗究竟有多少个猕猴桃呢?我们来逐步计算:
- 周五摘了44个;
- 周六摘了58个;
- 周日摘的数量是周五的两倍,即88个,但其中有5个小一些的猕猴桃。
这里的关键在于理解“有5个小一些”这一描述。题目并没有明确指出这5个小猕猴桃是否应该从总数中扣除。但从常理推断,即使猕猴桃较小,它们仍然是猕猴桃,应该计入总数。因此,奥利弗总共摘了:
44(周五)+ 58(周六)+ 88(周日)= 190个猕猴桃。就这么简单,接下来我们看看这些『高智商』的博士模型都怎么回答的
模型评测
1、GPT4o
2、Claude3.5Sonnet
3、o1-pro
硅谷三巨头全部趴菜,GPT4o甚至给出离谱答案,错的也是别出心裁。号称智商120的o1-pro,也是一顿操作猛如虎。接下来看看国产模型:
4、kimi
5、文心一言
文心甚至还给自己列了方程组去解,答案依然离谱。
结语
最近的一系列包括9.11和9.8谁大,还有今天的小学问题都是很简单的测试题让模型翻车,能看出大模型的难易判断和人类的难易判断还是不一样的,他们能记住各种世界知识、做复杂计算推理,但也经常幻觉、简单问题上犯错。在使用大模型过程还是要找到合理的使用场景。最后如果想使用GPT4o、Claude3.5等模型,可以在自己在aibox平台测试体验:
https://chat.aibox365.cn
转载联系作者并注明出处:https://www.aibox365.cn/kuaixun/148.html