找回密码
 立即注册
搜索
日产 讴歌 福特 极氪 林肯 阿尔法 保时捷 奔腾 长城 东风 哈弗 Jeep 捷途 岚图 理想 兰博基尼 名爵 马自达 玛莎拉蒂 欧拉 奇瑞 smart 沙龙 坦克 特斯拉 蔚来 沃尔沃 小鹏 雪佛兰 高合 奥迪 丰田 本田 雷克萨斯 英菲尼迪 捷达 捷豹路虎 阿斯顿 马丁 罗密欧 标致 宾利 长安 法拉利 红旗 几何 凯迪拉克 领克 劳斯莱斯 路特斯 MINI 迈凯伦 哪吒 起亚 荣威 三菱 斯巴鲁 腾势 魏牌 五菱 现代 雪铁龙 宝骏 大众 宝马 比亚迪

Claude 4发布,能连轴转编程7小时,力压GPT-4.1

[XinWen.Mobi 原创复制链接分享]
xinwen.mobi 发表于 2025-5-24 08:45:27 | 显示全部楼层 |阅读模式
北京时间2025年5月23日,Anthropic公司发布了Claude 4系列大模型,包含Claude Opus 4和Claude Sonnet 4两个版本。其中Claude Opus 4能连轴转编程7小时,在多项编程测试中表现优于GPT-4.1,展现出了强大的性能。具体如下:长时间编程能力:Claude Opus 4在Rakuten的测试数据中,凭借改进的内存管理、更广泛的上下文保留以及更强大的内部规划机制,可在软件环境中连续进行近7小时的代码生成和任务执行,刷新了AI世界纪录,远超前代Claude 3 Opus的不到1小时,也领先于其他同类模型。编程基准测试成绩:在用于评估模型解决真实GitHub问题能力的SWE - bench基准测试中,Claude Opus 4准确率高达72.5%,而GPT-4.1仅为54.6%。在针对多步骤终端代码生成任务验证模型表现的TerminalBench测试里,Claude Opus 4准确率达到43.2%,也展现出了优秀的编程能力。此外,Claude Sonnet 4取代了前代Claude 3.5 Sonnet,在架构上更为稳定,虽推理能力不及Opus 4,但支持多文件代码导航等功能,且延迟表现更佳,在SWE - bench基准测试中也取得了72.7%的高分,表现较为出色。
回复

使用道具 举报

日产 讴歌 福特 极氪 林肯 阿尔法 保时捷 奔腾 长城 东风 哈弗 Jeep 捷途 岚图 理想 兰博基尼 名爵 马自达 玛莎拉蒂 欧拉 奇瑞 smart 沙龙 坦克 特斯拉 蔚来 沃尔沃 小鹏 雪佛兰 高合 奥迪 丰田 本田 雷克萨斯 英菲尼迪 捷达 捷豹路虎 阿斯顿·马丁 罗密欧 标致 宾利 长安 法拉利 红旗 几何 凯迪拉克 领克 劳斯莱斯 路特斯 MINI 迈凯伦 哪吒 起亚 荣威 三菱 斯巴鲁 腾势 魏牌 五菱 现代 雪铁龙 宝骏 大众 宝马 比亚迪

QQ|标签|爬虫xml|爬虫txt|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )

GMT+8, 2025-10-28 15:28 , Processed in 0.091678 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

消息来源网络

快速回复 返回顶部 返回列表