小鹏集团发布X-Mind

来源：盖世汽车发布时间：2026-06-30 13:26 阅读量：17703

盖世汽车获悉在近日于美国丹佛举行的CVPR 2026具身智能基座模型部署研讨会上，小鹏集团通用智能中心负责人刘先明披露了世界模型完整技术图谱，提出主动思考、可控生成和长时序推演是优秀世界模型必备的三大能力。在此基础上，小鹏研发团队正式推出X-Mind技术框架，旨在解决车端算力约束下认知推理与实时计算之间的矛盾。

X-Mind的核心思路是让模型在输出动作前进行显式的时空推演，将视觉思维链实例化，使自动驾驶系统具备类似经验驾驶员的前瞻性判断能力。其技术实现围绕三个层面展开:一是构建“思维草图”，利用深度压缩自编码器将未来12帧的世界推演压缩至96个Token，以BEV布局和抽象驾驶先验替代高冗余图像，保留道路拓扑、交通灯状态、导航意图等核心语义信息；二是采用递归块扩散机制，在大语言模型的不同内部层中内化生成未来推演，无需多次迭代，在单次前向传播中即可完成高质量预测，实验显示其图像生成质量显著优于单步去噪(FID 67.30)，而推理延迟基本持平；三是实现思维链可视化，直观展示模型在决策前对障碍物占位和车道连通性的推演过程，为算法验证和用户信任建立提供依据。

与早前发布的X-Foresight不同，X-Mind并非侧重预测未来画面，而是为VLA模型提供思考画布，侧重在行动前建立类人的高效思考过程。两者共同作用于小鹏VLA模型，使其具备物理常识和可解释推理能力。

在包含数亿帧真实驾驶数据的训练中，X-Mind在横向和纵向轨迹预测误差上均较传统VLA模型显著降低，尤其在长尾场景下安全性和合规性提升明显。同时，其推理延迟极低，具备在车规级芯片量产落地的可行性。小鹏方面表示，X-Mind与X-World、X-Foresight共同构成其物理AI基座模型的研发谱系，初步补全了车端主动思考的技术拼图，后续将继续探索规模法则上限，并推动相关能力向更广泛的具身智能场景延伸。

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

责任编辑：肖鸥

小鹏集团发布X-Mind

推荐阅读

最新文章

热门文章