OpenAI推出了一个全新的模型系列,称为“OpenAI o1”,其架构不同于之前的GPT(生成式预训练变换器)。因此,将其称为GPT o1是不准确的。o1模型专为复杂的推理和问题解决任务而设计,特别是在代码生成方面表现出色。与其前辈GPT-4o和GPT-4o mini不同,o1在生成输出之前会花费更多时间进行链式思维(Chain of Thoughts)的推理和输入处理,这对需要深入理解上下文和逻辑的编码挑战尤其有利。根据OpenAI的说法,该模型在应对具有挑战性的基准任务时表现得如同博士生一般。
该模型的运行方式与前几代有所不同,它可能需要长达30秒的时间进行推理,因此在对话交互中可能没有那么高效。在提示中给予全面的上下文和指示可能比后续提示效果更佳。
当谈到OpenAI o1的编程能力时,早期用户在Reddit和Twitter(X)上的反馈好坏参半。许多用户报告称,相较于GPT-4o,o1在推理能力上有相当不错的提升,而一些人则认为这种热度不会持续超过几周。GitHub Copilot的博客指出,o1-preview的推理能力使其能够更深入地理解代码的约束和边缘情况,从而产生更高效、更高质量的结果。我们还需要等待全面发布后才能得出最终的结论。下面可以看下早期用户给出的投票结果:
性能指标
以下是基于独立(和非正式)的评估,对各AI模型在推理能力、上下文处理、速度和错误纠正方面的性能指标(感谢:Aider、GitHub、Reddit)的总结。
技术规格
下表展示了不同模型在各项推理基准测试中的表现,o1mini遥遥领先。
从上述表格可以看出,o1相较于GPT-4o在推理和偏见检测能力上有了明显的提升。特别是在需要复杂推理和上下文处理的编码任务中,o1表现出色,推理深度和代码质量得到了众多用户的好评。然而,由于这是早期用户的反馈,完整的结论还需等待更广泛的测试和评估。
到具体的编程方面,三个模型的差距有多大呢?从具体的编程例子看下几个主流模型GPT4o、O1、Claude3.5的差别
示例 1:生成简单函数
提示:“编写一个 Python 函数,该函数接受一个整数列表并返回列表中所有偶数的总和。该函数应处理空列表和仅包含一个元素的列表。”
OpenAI o1:模型生成了一个简洁高效的函数,符合提示中指定的所有要求。它优雅地处理了边缘情况,并为变量提供了清晰的名称,便于理解。
GPT-4o:生成的函数正确,但包含了不必要的注释和验证检查,使代码比必要的更长。尽管该函数正常工作,但冗余的代码可能会让用户感到困惑。
Claude 3.5 Sonnet:模型生成了一个简单且结构良好的函数,有效地满足了提示要求。它使用了清晰的变量名称、最少的注释,并通过简单循环遍历列表,使代码易于阅读和理解。
示例 2:调试代码
提示:“调试此 JavaScript 函数,以从字符串中移除所有元音 function removeVowels(str) {
return str.replace(/[aeiou]/gi, ”);
}”
OpenAI o1:在仔细分析提供的代码后,o1迅速识别出问题并建议了一个完美的修正版本。解决方案简洁高效,直接解决了问题。
GPT-4o:虽然模型正确地识别了代码中的错误,但建议的修复过于复杂,并包含不必要的更改。尽管修正的版本功能正常,但可能会让寻找简单解决方案的用户感到困惑。
Claude 3.5 Sonnet:模型准确找出了代码中的错误,并提供了清晰简洁的修正建议。所建议的解决方案易于理解和实施,使其用户友好且有效。
示例 3:编写单元测试
提示:“为一个接受字符串列表作为输入并返回一个新列表(只包含那些回文字符串)的函数开发一系列单元测试。该函数应处理空列表和仅包含一个元素的列表。”
OpenAI o1:模型生成了一套综合的单元测试,涵盖了各种场景,包括边缘情况。这些测试结构良好,易于阅读,并确保函数的健壮性和可靠性。
GPT-4o:虽然生成的测试涵盖了一些基本情况,但它们缺乏全面性,并且遗漏了关键的边缘情况。这些测试虽然足够,但可能无法提供足够的信心,以保证函数在某些条件下的行为。
Claude 3.5 Sonnet:模型生成了一套结构良好且详尽的单元测试,有效地满足了提示要求。这些测试涵盖了广泛的场景,包括边缘情况,确保了函数的可靠性,使用户更容易信任该实现。
可以看出,三轮的测试里,GPT4o是明显落败的,对于o1和claude3.5,都给出了不错的答案。可以看出Claude 3.5 Sonnet 仍然是 OpenAI o1 的强大竞争者,尤其在性价比方面,它的价格大约便宜四倍。
最后,如果想对比不同模型的差异,可以使用AIBox平台,一站式支持Claude3.5、GPT4o、O1模型。
https://aibox365.com
转载联系作者并注明出处:https://www.aibox365.cn/kuaixun/125.html