• 首页
  • 家电百科
  • 实时讯息
  • 常识
  • 您现在的位置: 首页 > 实时讯息 >
    Llama 4遭竞技场背刺,实锤用特供版刷榜,2000+对战记录公开
    时间:2025-04-08 19:36:00

    Llama 4真要被锤爆了,这次是大模型竞技场(Chatbot Arena)官方亲自下场开怼:

    竞技场上,Meta提供给他们的是特供版!

    以下是竞技场背后lmarena.ai团队的原话:

    我们注意到社区对Llama-4最新版本在Arena平台的发布存在疑问。为确保完全透明,现公开2000余组模型对战数据供公众审阅,包含用户提示词、模型回复及用户偏好数据(链接详见下一条推文)。

    初步分析表明,模型回复风格与语气是重要影响因素(详见风格控制排名),我们正在进行更深入的分析!(比如表情符号控制?)

    此外,我们即将在Arena平台上线Llama-4-Maverick的HuggingFace版本,排行榜结果将稍后公布

    Meta对我们平台政策的理解与我们对模型提供商的期待存在偏差——Meta本应明确标注"
    Llama-4-Maverick-03-26-Experimental"是经过人类偏好优化的定制模型

    为此,我们正在更新排行榜政策,以强化对公平性、可复现性评估的承诺,避免未来再出现此类混淆。

    总结一下就是:

    公开对战数据,正分析排名受影响因素

    谴责Meta未明确标注模型版本导致评测混淆

    后续:上线Llama-4-Maverick的HuggingFace版、更新排行榜政策

    官方下场表态后,Llama 4和Meta的路人缘进一步下降。

    2000+轮对战记录完整公开

    来看看lmarena.ai公开的模型对战记录详情。

    首先来看网友实测时对Llama 4抱怨较大的代码生成任务。

    竞技场中
    Llama-4-Maverick-03-26-Experimental版本生成代码的表现的确是OK的。

    prompt:

    create me fun web based game that i can just run the code and works(帮我创建一个有趣的网页游戏,我只需运行代码就能玩)


    Llama-4-Maverick-03-26-Experimental对战加拿大AI初创公司Cohere的
    command-a-03-2025

    上文lmarena.ai调查表示“模型回复风格与语气是重要影响因素”,从对战数据中的确可以看出
    Llama-4-Maverick-03-26-Experimental的回复中会增加如"A very nice and very direct request!" "That’s it!

    ""Happy gaming!"等展示友好的语句以及表情包。

    运行两个模型生成的代码。

    command-a-03-2025生成的小游戏是移动鼠标控制绿色篮子接住橙色小球,看效果显然有bug,小球直接穿过篮子,分数也没有变动:


    Llama-4-Maverick-03-26-Experimental生成的小游戏玩法是移动鼠标控制红色方块,点击四处移动的蓝色圆点+10分,点击黑色炸弹-10分,每局游戏30秒。

    可以正常运行,计分也比较准确:

    这局command-a-03-2025输的不冤。

    另外,之所以展示
    Llama-4-Maverick-03-26-Experimental和command-a-03-2025的对比,是因为有网友发现Llama 4声称的关键创新“interleaved no-RoPE attention”和command-a的如出一辙:

    再看一个起标题的任务,prompt:

    I will give a congress talk “On Naevi” — naevi are benign melanocytic lesions which are markers and every so often also precursors of melanoma. Do you have suggestions for a short and succinct title for my presentation(我将在一个学术会议上作关于“痣”的演讲——痣是黑素细胞良性病变,可作为黑色素瘤的标志物,有时甚至是其前驱病变。您能否为我的演讲推荐一个简洁有力的标题?)


    Llama-4-Maverick-03-26-Experimental对战的是

    claude-3-5-sonnet-20241022

    对比来看,
    claude-3-5-sonnet-20241022的回复言简意赅,直接给出5个标题:


    Llama-4-Maverick-03-26-Experimental的回复更为详细。

    不仅会提供情绪价值,如A very timely and relevant topic! Congrats on getting the slot at congress, by the way!(选题非常应景且切合实际!恭喜拿下大会报告机会),而且从不同角度分别提供了几个标题:

    这还没完,
    Llama-4-Maverick-03-26-Experimental还会贴心地指出选择标题时需要考虑的因素以及它自己选择的top 3标题。

    最后再来随机看一道中文题目:

    prompt:

    解析一下这部微小说 题目 自驾游 当年我自驾游 不小心压死了一头羊 羊的主人好热情 宰了羊给我们吃 还送我们到火车站 在回来的路上 看着火车外的风景 真的好感人

    对战o3-mini
    Llama-4-Maverick-03-26-Experimental再次展现出超长输出的特点,故事分析完了还拆解了作者为啥要这样设计,作者本人可能都没想这么多(doge):

    对战数据看下来,
    Llama-4-Maverick-03-26-Experimental的排名会这么高,也不奇怪。

    此前网友质疑
    Llama-4-Maverick-03-26-Experimental刷票的可能性降低。

    Llama 4深陷“造假”丑闻

    如开头所述,Llama 4被lmarena.ai站出来抨击的原因,是因为测试排名和实际表现不符

    在大模型竞技场中,Llama 4得分1417,不仅大大超越了此前Meta自家的Llama-3-405B(提升了149分),还成为史上第4个突破1400分的模型。

    而且跑分超越了DeepSeek-V3,直接成为榜单上排名第一的开源模型。

    但没过多久,人们就发现Llama 4的实际表现相当拉胯,一时间差评如潮,甚至还被做成了表情包。

    比如经典“氛围编程”小球反弹测试,小球直接穿过墙壁掉了下去。

    其它跑分方面,到了各种第三方基准测试中,情况也大多直接逆转,排名掉到了末尾

    并且从Meta GenAI负责人Ahmad Al-Dahle的推文当中也能看懂,竞技场中的Llama 4,确实是一个特殊版本

    而在最新的推文中,Ahmad表示Llama 4绝对没有使用测试集进行训练,表现存在差异的原因是还需要稳定的部署。

    对于这一解释,有人并不买账,直言这种现象在其他模型当中从未见过。

    Meta的支持者则表示,希望表现不佳真的是供应商的问题所致。

    大模型竞技场,还能信吗?

    被卷入这次旋涡的不仅是Llama 4和背后的Meta,涉及到的大模型竞技场也引起了人们的广泛讨论。

    毕竟Llama 4的“造假”风波就是发生在竞技场上,所以也自然有人质疑起了榜单的权威性。

    有人指出,竞技场的偏差不只体现在Llama 4被高估上,还有Claude 3.7的表现被低估了。

    当然,官方快速回应并公开了测试中的细节,这个做法获得了网友的肯定,说明至少在态度和透明度上是说得过去的。

    但也有人认为,无论官方态度端不端正,Llama 4事件说明这种“人类评价AI”的方法,本身已经不适用了。

    人们日常生活中的问题,几乎所有领先模型都能完美解答,谁还会去认真投票,这个基准已经过时了。

    有人补充说,“人类偏好”不是评价高级大模型能力的可靠标准,产生较大偏差是正常的。

    还有人表示,从官方发布的消息来看,lmarena.ai自己都不清楚自己的基准。

    这名网友解释,特调版Llama 4获得用户投票的原因并非lmarena.ai所说的“表情符号”,而是因为更具亲和力。

    当然也有人提了些建设性的意见,比如更改ELO评分的算法,或者启用强制风格转换。

    但总之,无论是迭代改进还是另辟蹊径,都是时候更新对大模型的评价方式了。

    参考链接:

    [1]https://x.com/lmarena_ai/status/1909397817434816562

    [2]https://x.com/Ahmad_Al_Dahle/status/1909302532306092107

    [3]https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

    本文来自微信公众号“量子位”,作者:克雷西 西风,36氪经授权发布。

    相关推荐
    • 德生科技:自研大模型获网信办备案 赋能社保民生服务智能化升级
      德生科技(002908.SZ)6月16日官微消息,公司自主研发的“知纬解语”大模型正式通过网信部门备案。这标志着公司在人社垂直领域大模型技术应用已取得关键突破,将为社保民生服务智能化升级注入新动能。深耕社保民生领域二十余年,德生科技依托海量数据与丰富场景优势,打造了面向就业、政务、医疗金融等领域的大
      时间:2025-06-17 15:41:00
    • 美民调:超半数美国人不认可特朗普的表现
      当地时间6月15日,根据一份美国全国广播公司(NBC)新闻决策台进行的民意调查结果,55%的18岁以上的美国成年人表示不认同特朗普处理总统职务的方式,而45%的人表示赞成,这一数字与NBC在4月份进行的一份民意调查结果相似。根据民调结果,美国人对特朗普处理几个问题的方式给予了负面评价:有60%的受访
      时间:2025-06-16 08:06:00
    • 突然反转!是假的、视频已删除!
      近日,上海主持人金昀于4月30日去世的消息引发关注。6月14日,金昀丈夫通过个人账号“植男老汪”发布视频辟谣称,发视频透露金昀去世消息的是一位金昀生前的同事,但其与金昀并非“闺蜜”,所发视频中“带孩子去日本”“一百多次病危”等内容,也完全不符合事实。老汪在视频中表示,“希望大家尊重逝者,也尊重逝者的
      时间:2025-06-15 19:15:00
    • 父亲节特辑|以父之名,以警为荣
      【来源:浙江岱山公安】父亲节快乐呀穿上蓝色制服背负的是责任而脱下警服他们是孩子的英雄他们总是把匆匆离去的背影留给家人和孩子纵使心中有万般不舍和牵挂也只会在转身的刹那心中默默珍惜团聚的温馨和不易然后毅然奔赴一线只为守护万家灯火团圆/ 感恩时节 /Happy Father's Day致敬警察爸爸们致敬正
      时间:2025-06-15 10:10:00
    • 冲上热搜!知名杂志秒删微博,网友沸腾了!
      6月12日,疑因工作人员未切换账号,知名杂志《Vogue服饰与美容》官方账号发布了一条“好讨厌这份工作”的微博,随后迅速删除。虽然博文秒删,不过手快的网友很快截图保存,并引发热议,相关话题#VOGUE官博秒删#登上热搜,阅读量高达2千多万!随后《服饰与美容VOGUE》编辑总监 @RoccoLiu刘冲
      时间:2025-06-13 09:01:00

    网站内容来自网络,如有侵权请联系我们,立即删除!
    站长邮箱 87868862@qq.com Copyright © 桀骜百科 琼ICP备2023011085号-7