Claude3.5评测，击败GPT4o，地表最强模型再次易主

6月21日消息，Anthropic发布最新大模型Claude 3.5 Sonnet，拥有相比前代模型2倍的推理速度和1/5的调用成本，而且在多项评测中超过了OpenAI最强的GPT-4o。
今年3月，Claude一口气推出了Claude 3模型的小、中、大三个型号Claude 3 Haiku、Claude 3 Sonnet、 Claude 3 Opus。Anthropic表示，此次推出的Claude 3.5 Sonnet正是即将推出的Claude 3.5模型家族的第一版本。

目前Claude 3.5 Sonnet已经可以在Claude.ai和Claude iOS应用程序上免费使用，还可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI获得。
在费用方面，Claude 3.5 Sonnet处理每百万输入token为3美元，每百万输出token为15美元。
基准能力
Claude 3.5 Sonnet虽然在零样本MATH和MMLU评测中小幅落后GPT-4o，但在研究生级推理（GPQA）、本科级知识（MMLU）和编码能力（HumanEval）上设立了新的行业基准。

Claude 3.5 Sonnet在理解细微差别、幽默和复杂指令方面表现有显著的提升；在撰写高质量内容时能表现出更自然、更易理解的语气，生成引人入胜和有说服力的内容，简化写作工作流程，提升叙事能力。
Claude 3.5 Sonnet 非常适合处理复杂任务，加上性能的提升与出色的成本效益，使其成为应对包括敏感语境的客户支持和协调多步骤工作流程编排的理想选择。
代码能力
在内部代理编码评估中，Claude 3.5 Sonnet 解决了64%的问题，超过了解决38%问题的 Claude 3 Opus。
当给予提示并提供相关工具时，Claude 3.5 Sonnet 可以独立编写、编辑和执行代码，并具备出色的复杂推理和故障排除能力。它能够轻松处理代码翻译，在更新已有的应用程序和迁移代码库方面表现优异。
视觉能力超越GPT-4o
Claude 3.5 Sonnet是Anthropic迄今为止最强的视觉模型，在标准视觉基准上超过了Claude 3 Opus，在四项视觉基准测试中超过GPT-4o。

Claude 3.5 Sonnet 可以准确地从不完美的图像中转录文本，这对于零售、物流和金融服务等领域客户尤为重要。在这些领域，生成式 AI 从图像、图形或插图中能获得比单纯文本中更多的洞察。
在演示视频中，用户输入两张图片，Claude 3.5 Sonnet 就能识别信息生成快速生成JSON(JavaScript Object Notation)文件。

Claude 3.5 Sonnet 还可以用于自动化视觉数据处理任务，提取有价值的信息，增强医疗保健、金融服务、媒体和娱乐工作负载中的数据分析。
新功能Artifacts
除了模型的更新之外，Anthropic还Claude.ai上推出了一项全新功能——Artifacts，用于扩展用户与Claude互动的方式。
当用户要求Claude生成代码片段、文本文档或网站设计等内容时，只需要一键点击，这些Artifacts会出现在对话旁边的专用窗口中。

这创建了一个动态工作空间，他们可以在这里实时查看、编辑和构建Claude的创作，将人工智能生成的内容无缝集成到他们的项目和工作流程中。

Anthropic表示，这一预览功能标志着Claude从对话式人工智能向协作式工作环境的演变。在不久的将来，团队——最终是整个组织——将能够安全地将他们的知识、文档和正在进行的工作集中在一个共享空间中，Claude将担任随需应变的队友。
如果想对比GPT4o和Claude3.5模型，可以使用AIBox平台，一站式模型服务，可以使用最新的Claude3.5-sonnet模型。
https://chat.aibox365.cn

转载联系作者并注明出处：https://www.aibox365.cn/kuaixun/103.html

Claude3.5评测，击败GPT4o，地表最强模型再次易主

相关推荐

联系我们