微信扫码
添加专属顾问
我要投稿
人工智能领域迎来重大突破,GPT-4.5模型以73%的比例被误认为人类,远超其他模型。核心内容: 1. GPT-4.5和LLaMa-3.1首次通过图灵测试,被误认为人类的比例分别达73%和56% 2. 实验设计:裁判与人类和AI进行8轮5分钟对话,判断哪个是人类 3. 裁判最常用策略:闲聊询问日常活动,判断语言风格和互动动态
图灵测试由艾伦·图灵在 1950 年提出,用于判断机器是否能够表现出与人类相似的智能。测试中,人类裁判通过文本界面同时与两个人类和机器进行对话,如果裁判不能可靠地识别出人类,机器就被认为通过了测试。图灵测试在过去 75 年中一直是人工智能领域的重要议题,是衡量人工智能的重要标准之一。
图灵测试游戏界面,显示一名审讯者(绿色)与两名证人(灰色)正在进行的对话。顶部的计时器显示游戏中剩余的时间。
选择了四种 AI 系统:GPT-4.5、LLaMa-3.1-405B、GPT-4o 和 ELIZA。其中,GPT-4.5 和 LLaMa-3.1 是基于大型语言模型的系统,而 GPT-4o 和 ELIZA 则作为基线模型。
测试了两种提示类型:NO-PERSONA 和 PERSONA,后者包含更详细的指令,要求模型以特定的人格回应。
研究在两个独立人群中进行,分别是 UCSD 心理学本科生和 Prolific 平台的参与者。
实验设计为每轮对话中,裁判与两个人类和一个 AI 系统进行对话,裁判需要判断哪一个是人类。实验共进行了 8 轮,每轮对话时间为 5 分钟。裁判在对话结束后给出判断,并说明理由。研究者记录了裁判的判断结果,并分析了 AI 系统的胜率。
胜率:GPT-4.5-PERSONA 的胜率为 73%,LLAMA-PERSONA 为 56%,而 GPT-4.5-NO-PERSONA 和 LLAMA-NO-PERSONA 的胜率分别为 36% 和 38%。基线模型 ELIZA 和 GPT-4o-NO-PERSONA 的胜率最低,分别为 23% 和 21%。
裁判准确率:裁判在 ELIZA 游戏中的准确率显著高于随机水平,表明裁判能够区分人类和 ELIZA。然而,在 GPT-4.5-PERSONA 和 LLAMA-PERSONA 的游戏中,裁判的准确率并不显著高于随机水平,表明他们无法可靠地区分人类和这些模型。
策略与理由:裁判最常用的策略是与证人进行闲聊,询问他们的日常活动或个人细节。裁判最常提到的理由是证人的语言风格和互动动态,例如是否使用更“人性化”的语言或对话是否顺畅。
https://arxiv.org/pdf/2503.23674
Large Language Models Pass the Turing Test
推荐阅读
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-12
来了!10个构建Agent的大模型应用框架
2025-04-12
一文读懂MCP:从入门到精通的完整指南
2025-04-12
微软突发“封杀令”!全面禁止Cursor使用C、C++、C# 扩展,开发者被迫回退版本
2025-04-12
继续卷,Google 发布AI 编程工具 Firebase Studio
2025-04-12
DeepSearch:AI 搜索的未来,不止于快
2025-04-12
谷歌Agent Development Kit核心概念以及与其它框架的横向对比、适用场景总结与建议
2025-04-12
GPT-4 官宣退役!曾经的最强模型,正式交棒 GPT-4.1、o3、o4 mini!
2025-04-12
OneEval:OpenKG发布大模型知识增强综合能力评测榜单
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17