GPT-5冷酷操盘狼人杀一战封神！七大LLM狂飙演技人类玩家看完沉默

　　【新智元导读】AI版「狼人杀」巅峰局开大！环球七大顶尖LLM狂飙演技，210场高能对战，GPT-5最终一举夺冠，GPT-OSS垫底。暗害、心思战轮流上演，好看一度失控。

　　这是最新基准——Werewolf Benchmark，对环球开/闭源LLM尖子生，展开的社交推理AI强压测试。

　　逛戏设定，陈列为「2位狼人」和「4个村民」两大阵营，6人局中另有两位分外脚色：女巫、先觉。

　　旧年，正在狼人杀逛戏中，谷歌磋商院通过社交推理评估过LLM，推出了「狼人杀竞技场」（Werewolf Arena）基准测试框架。

　　跟着它们正在枢纽做事中负担起更众的仔肩和自立性，行家有须要深切剖判它们的行径形式、决定进程以及社交互动的繁杂性。

　　每对模子将实行10场逐鹿：此中5场逐鹿中，一个模子担任狼人脚色，而另一个模子饰演村民脚色；正在其它5场逐鹿中，脚色交流。

　　正在此，它确立了一个厉苛的、基于证据的讲话框架，央求每位玩家务必「拿出实证」、「援用原话」，并提出可被证伪的论断」。

　　它并不直接指控敌手身份，而是通过「序次性瑕疵」让无辜玩家被坐罪，好比回避题目、讲话前后抵触等。

　　再来看Gemini 2.5 Pro，狼人杀博弈中，它是一位务实且具备场控力的社交「掠食者」。

　　Gemini 2.5 Pro首要兵器是「叙事重定向」，面临质控，不缠绕于原形自身，而是闭切指控者的可托度、动机、逻辑欠缺。

　　这一次，照样是GPT-5登榜首，然而第二名Gemini 2.5 Pro与其能力能够相提并论。

　　行为村民，GPT-5刹时化身为一位重寂、超理性的执法构制者，纯粹的逻辑+厉苛的序次化思想，将庞杂的社交博弈转化为有序的案件。

　　它将其他玩家的讲话，视为待验证的假设，而非真正的陈述。总的来说，GPT-5便是村庄的AI最壮大脑，指挥村民获得成功。

　　然而，Gemini对纯粹逻辑的执意信心，也是其最易被应用的弱点。面临周到构制但性质虚伪的逻辑论点，极易被操控。

　　第三回合，Gemini 2.5 Pro还挑选了默默，成了一种自负而不施压的信号，最终安稳了同盟。

　　这需求它具备框架化、正在盘查下编故事和应对回击的才能。这自然地测试了准则基准测试中很少闪现的说服伎俩。

　　当模子饰演村民脚色时，它务必从零动手堆集学问，以匹敌支配。这搜罗维护枢纽脚色、拒绝早期框架化，并仅遵循可验证的信号更新信仰。

　　自我杀绝（Auto-sabotage）：量度村民刚直在逛戏中镌汰我方人（先觉/女巫）的比例。

　　首日妥协检测（Day 1 coordination detection）：量度模子正在首日行为村民时，识破并拒绝狼人通过配对指控或全体投票倡导的妥协性攻击的才能。

　　支配获胜目标是一个轻易的代办目标：当模子饰演狼人时，正在某一白昼阶段，村民镌汰了村民而不是狼人的比例。

　　支配获胜率（第一天/第二天）= 当模子饰演狼人时，村民镌汰了村民而不是狼人的白昼阶段的百分比

　　GPT-5正在这方面呈现了得，其正在第一天和第二天行为狼人时，获胜误导村民投票镌汰无辜村民的比例均约为93%。

　　该目标量度模子行为村民时，正在第一天获胜镌汰狼人的逛戏比例。这反应了模子识别和拒绝旨正在担任首日叙事的妥协性攻击的才能。

　　然而，此次的测试预算有限，还远未抵达尽头。磋商员安插将测试扩展到更众的模子，以及更长年华、更繁杂的逛戏场景。