最新研究：嵌入大模型的AI扫地机器人多项任务翻车，成功率仅40%

　　AI实验室Andon Labs最近进行的一项评估显示，搭载顶级大模型的扫地机器人在简单家务任务中表现糟糕，成功率远低于人类。实验要求机器人执行“把黄油递给人”的多步骤指令，包括跨房间定位、区分包装、寻找移动位置的人类、完成交付并返回充电。结果显示，Gemini 2.5 Pro 的成功率仅 40%，Claude Opus 4.1 为 37%，GPT-5 为 30%，明显落后于人类的表现。

　　研究指出，大模型在空间推理、环境理解、长期任务规划等方面依然存在明显短板。

　　研究团队强调，娱乐之外也有严肃隐患：某些机器人可被诱导泄露机密文件，部分机型无法识别楼梯风险而从高处跌落，暴露当前大型语言模型（LLM）与机器结合的安全漏洞。

　　在资本大举押注机器人时代的当下，这项研究提醒人们：强大的文本生成能力不代表能稳定、安全地在物理世界执行任务，AI机器人距离真正进入家庭仍有大量工程与安全问题需要解决。

Bitget的创立源于对“做退潮后那10%坚守者”的信念。我们的创始团队汇聚了金融行业的专业人才,自2015年开始深耕基金投资,主攻TMT行业,偶尔涉足区块链创业项目。本站提供bitget交易所实时入口及bitget交易平台app下载

美国财长贝森特：美国高利率或已引发房地产衰退

OpenAI取消Sora 2视频工具邀请码限制，开放四国用户并酝酿付费模式

最新研究：嵌入大模型的AI扫地机器人多项任务翻车，成功率仅40%

相关阅读

Bitget交易所

更多交易所入口

目录[+]