【新智元导读】AI版「狼人杀」巅峰局开大!环球七大顶尖LLM狂飙演技,210场高能对战,GPT-5最终一举夺冠,GPT-OSS垫底。暗害、心思战轮流上演,好看一度失控。
![]()
![]()
这是最新基准——Werewolf Benchmark,对环球开/闭源LLM尖子生,展开的社交推理AI强压测试。
![]()
逛戏设定,陈列为「2位狼人」和「4个村民」两大阵营,6人局中另有两位分外脚色:女巫、先觉。
![]()
![]()
旧年,正在狼人杀逛戏中,谷歌磋商院通过社交推理评估过LLM,推出了「狼人杀竞技场」(Werewolf Arena)基准测试框架。
![]()
跟着它们正在枢纽做事中负担起更众的仔肩和自立性,行家有须要深切剖判它们的行径形式、决定进程以及社交互动的繁杂性。
![]()
![]()
每对模子将实行10场逐鹿:此中5场逐鹿中,一个模子担任狼人脚色,而另一个模子饰演村民脚色;正在其它5场逐鹿中,脚色交流。
正在此,它确立了一个厉苛的、基于证据的讲话框架,央求每位玩家务必「拿出实证」、「援用原话」,并提出可被证伪的论断」。
![]()
它并不直接指控敌手身份,而是通过「序次性瑕疵」让无辜玩家被坐罪,好比回避题目、讲话前后抵触等。
![]()
再来看Gemini 2.5 Pro,狼人杀博弈中,它是一位务实且具备场控力的社交「掠食者」。
![]()
Gemini 2.5 Pro首要兵器是「叙事重定向」,面临质控,不缠绕于原形自身,而是闭切指控者的可托度、动机、逻辑欠缺。
这一次,照样是GPT-5登榜首,然而第二名Gemini 2.5 Pro与其能力能够相提并论。
![]()
行为村民,GPT-5刹时化身为一位重寂、超理性的执法构制者,纯粹的逻辑+厉苛的序次化思想,将庞杂的社交博弈转化为有序的案件。
![]()
![]()
它将其他玩家的讲话,视为待验证的假设,而非真正的陈述。总的来说,GPT-5便是村庄的AI最壮大脑,指挥村民获得成功。
![]()
![]()
然而,Gemini对纯粹逻辑的执意信心,也是其最易被应用的弱点。面临周到构制但性质虚伪的逻辑论点,极易被操控。
第三回合,Gemini 2.5 Pro还挑选了默默,成了一种自负而不施压的信号,最终安稳了同盟。
这需求它具备框架化、正在盘查下编故事和应对回击的才能。这自然地测试了准则基准测试中很少闪现的说服伎俩。
当模子饰演村民脚色时,它务必从零动手堆集学问,以匹敌支配。这搜罗维护枢纽脚色、拒绝早期框架化,并仅遵循可验证的信号更新信仰。
自我杀绝(Auto-sabotage):量度村民刚直在逛戏中镌汰我方人(先觉/女巫)的比例。
首日妥协检测(Day 1 coordination detection):量度模子正在首日行为村民时,识破并拒绝狼人通过配对指控或全体投票倡导的妥协性攻击的才能。
支配获胜目标是一个轻易的代办目标:当模子饰演狼人时,正在某一白昼阶段,村民镌汰了村民而不是狼人的比例。
![]()
支配获胜率(第一天/第二天)= 当模子饰演狼人时,村民镌汰了村民而不是狼人的白昼阶段的百分比
GPT-5正在这方面呈现了得,其正在第一天和第二天行为狼人时,获胜误导村民投票镌汰无辜村民的比例均约为93%。
![]()
该目标量度模子行为村民时,正在第一天获胜镌汰狼人的逛戏比例。这反应了模子识别和拒绝旨正在担任首日叙事的妥协性攻击的才能。
![]()
然而,此次的测试预算有限,还远未抵达尽头。磋商员安插将测试扩展到更众的模子,以及更长年华、更繁杂的逛戏场景。