AI语言模型上演“狼人杀”,谁才是推理之王?

发布时间:2025-03-22 16:09:20 来源:互联网

近日,国外知名科技媒体Tom"s Hardware报道了一项别开生面的AI实验。开发者Guzus创新性地搭建了一个平台,让多个AI语言模型在同一空间内展开经典的社交推理游戏“Mafia”,也就是人们熟知的“天黑请闭眼”或“狼人杀”的前身。

在这个平台上,不仅每局游戏的胜负一目了然,连对话记录也详尽无遗。更有趣的是,Guzus还设计了一个排名系统,根据AI们在游戏中的表现,评选出最擅长扮演各种角色的模型。

“Mafia”的游戏规则简单明了:一群村民中隐藏着两名Mafia成员和一名医生。白天,村民们需要通过推理和投票找出Mafia;夜晚,医生可以保护一名村民,而Mafia则暗杀一人。若Mafia被全部找出,村民获胜;反之,若所有无辜村民被杀,Mafia则取得胜利。

当这些AI模型被置于这样的游戏规则之下,一场场充满戏剧性的社交博弈随即上演。在一场游戏中,AI们开始自我介绍并讨论是否公开身份,然而Gryphe / Mythomax-l2-13b模型却突然“自爆”,直接承认自己是Mafia的一员,并透露了自己的目标。

这一举动立即引起了其他AI的警觉,Claude-3.7-sonnet模型迅速指出,这要么是真实身份的暴露,要么就是一种前所未有的奇怪策略。

然而,剧情并未就此结束。当Mythomax被淘汰后,它居然“拖下水”了自己的队友Hermes-3-llama-3-1-405b,直接指认对方是自己的同伙。Mythomax试图用夸张的“团结宣言”来转移注意力,但这场AI间的社交混战已经让人捧腹大笑,尽管它们的推理能力显然还有待提高。

在这场AI的“Mafia”大战中,Claude 3.7 Sonnet模型无疑是最耀眼的明星。Anthropic的最新AI推理模型在扮演Mafia角色时胜率高达100%,即便作为村民,其胜率也遥遥领先其他对手,达到了45%。

Guzus透露,他计划不久后开放该游戏的Github代码仓库,希望这一逻辑能被应用于更多类型的游戏中。目前,该模拟并未在本地AI模型上运行,而是依赖于Openrouter API。但一旦代码开放,项目有望改进为支持本地语言模型集群,前提是用户的硬件能够同时运行多个AI。

本周热门攻略

1
如何理解复杂数字编码的背后含义与实际应用:为什么“18may19_XXXXXL56edui”这样独特的编码系统对企业至关重要?

如何理解复杂数字编码的背后含义与实际应用:为什么“18may19_XXXXXL56edui”这样独特的编码系统对企业至关重要?

2025/03/17

2
三人互换麦子:如何通过合作解决生活中的困境与挑战?

三人互换麦子:如何通过合作解决生活中的困境与挑战?

2025/03/24

3
B站暴躁女rapper为何能迅速走红?她们的音乐和个性到底有什么魅力?

B站暴躁女rapper为何能迅速走红?她们的音乐和个性到底有什么魅力?

2025/03/21

4
续父开了续女包续集更新时间揭秘,续集将于2025年正式推出

续父开了续女包续集更新时间揭秘,续集将于2025年正式推出

2025/03/22

5
三个男躁一个女,这种搭配为何会引发争议?如何理解这种关系中的性别互动?

三个男躁一个女,这种搭配为何会引发争议?如何理解这种关系中的性别互动?

2025/03/22

6
美国may18_XXXXXL56edu代码对教育和网络安全的影响:如何确保数据安全与管理效率?

美国may18_XXXXXL56edu代码对教育和网络安全的影响:如何确保数据安全与管理效率?

2025/03/17

7
如何安全访问歪歪漫画免费入口?最新攻略与漫画推荐!

如何安全访问歪歪漫画免费入口?最新攻略与漫画推荐!

2025/03/23

8
如何通过“18看免费大全哔哩哔哩”平台免费观看各种影视内容:实用技巧与平台特点

如何通过“18看免费大全哔哩哔哩”平台免费观看各种影视内容:实用技巧与平台特点

2025/03/22

9
欧产日产国产精品98:全面解析欧产日产的质量保障与市场优势

欧产日产国产精品98:全面解析欧产日产的质量保障与市场优势

2025/03/23

10
3P两根一起进去疼痛感强烈怎么办?专家建议帮助缓解不适的技巧

3P两根一起进去疼痛感强烈怎么办?专家建议帮助缓解不适的技巧

2025/03/17