Llama 4遭竞技场背刺，实锤用特供版刷榜，2000+对战记录公开

您现在的位置：首页 > 实时讯息 >

Llama 4遭竞技场背刺，实锤用特供版刷榜，2000+对战记录公开

时间：2025-04-08 19:36:00

Llama 4真要被锤爆了，这次是大模型竞技场（Chatbot Arena）官方亲自下场开怼：

竞技场上，Meta提供给他们的是特供版！

以下是竞技场背后lmarena.ai团队的原话：

我们注意到社区对Llama-4最新版本在Arena平台的发布存在疑问。为确保完全透明，现公开2000余组模型对战数据供公众审阅，包含用户提示词、模型回复及用户偏好数据（链接详见下一条推文）。
初步分析表明，模型回复风格与语气是重要影响因素（详见风格控制排名），我们正在进行更深入的分析！（比如表情符号控制？）

此外，我们即将在Arena平台上线Llama-4-Maverick的HuggingFace版本，排行榜结果将稍后公布。
Meta对我们平台政策的理解与我们对模型提供商的期待存在偏差——Meta本应明确标注"
Llama-4-Maverick-03-26-Experimental"是经过人类偏好优化的定制模型。
为此，我们正在更新排行榜政策，以强化对公平性、可复现性评估的承诺，避免未来再出现此类混淆。

总结一下就是：

公开对战数据，正分析排名受影响因素

谴责Meta未明确标注模型版本导致评测混淆

后续：上线Llama-4-Maverick的HuggingFace版、更新排行榜政策

官方下场表态后，Llama 4和Meta的路人缘进一步下降。

2000+轮对战记录完整公开

来看看lmarena.ai公开的模型对战记录详情。

首先来看网友实测时对Llama 4抱怨较大的代码生成任务。

竞技场中
Llama-4-Maverick-03-26-Experimental版本生成代码的表现的确是OK的。

prompt：

create me fun web based game that i can just run the code and works（帮我创建一个有趣的网页游戏，我只需运行代码就能玩）

Llama-4-Maverick-03-26-Experimental对战加拿大AI初创公司Cohere的command-a-03-2025。

上文lmarena.ai调查表示“模型回复风格与语气是重要影响因素”，从对战数据中的确可以看出
Llama-4-Maverick-03-26-Experimental的回复中会增加如"A very nice and very direct request!" "That’s it!

""Happy gaming!"等展示友好的语句以及表情包。

运行两个模型生成的代码。

command-a-03-2025生成的小游戏是移动鼠标控制绿色篮子接住橙色小球，看效果显然有bug，小球直接穿过篮子，分数也没有变动：

Llama-4-Maverick-03-26-Experimental生成的小游戏玩法是移动鼠标控制红色方块，点击四处移动的蓝色圆点+10分，点击黑色炸弹-10分，每局游戏30秒。

可以正常运行，计分也比较准确：

这局command-a-03-2025输的不冤。

另外，之所以展示
Llama-4-Maverick-03-26-Experimental和command-a-03-2025的对比，是因为有网友发现Llama 4声称的关键创新“interleaved no-RoPE attention”和command-a的如出一辙：

再看一个起标题的任务，prompt：

I will give a congress talk “On Naevi” — naevi are benign melanocytic lesions which are markers and every so often also precursors of melanoma. Do you have suggestions for a short and succinct title for my presentation(我将在一个学术会议上作关于“痣”的演讲——痣是黑素细胞良性病变，可作为黑色素瘤的标志物，有时甚至是其前驱病变。您能否为我的演讲推荐一个简洁有力的标题？)

Llama-4-Maverick-03-26-Experimental对战的是
claude-3-5-sonnet-20241022。

对比来看，
claude-3-5-sonnet-20241022的回复言简意赅，直接给出5个标题：