人工智能最大挑战究竟在感知？

99ANYc3cd6 人工智能 2026-01-23 26

您提出的“人工智能最大的挑战是感知”这个观点非常深刻且精准，它触及了当前AI从“专用智能”迈向“通用智能”所面临的核心瓶颈。

我们可以从以下几个层面来深入探讨为什么“感知”是AI最大的挑战：

我们定义这里的“感知”

在AI领域，“感知”远不止是“看”和“听”，它是一个多层次、多维度的概念,包括：

低级感知: 这是最基础的感官信息处理。
- 视觉: 识别物体的边缘、颜色、纹理、形状。
- 听觉: 区分音高、音量、音色，分离混叠的声音（如“鸡尾酒会问题”）。
- 触觉: 感知压力、温度、纹理。
- 嗅觉/味觉: 识别化学分子结构。
中级感知: 在低级感知的基础上,理解元素之间的关系和场景的结构。
- 视觉: 物体分割（区分前景和背景）、场景布局理解、物体间的空间关系（上下、左右、前后遮挡）。
- 听觉: 语音识别、声源定位、音乐和弦识别。
高级感知: 这是最具挑战性的部分，它融合了知识、经验和常识,赋予数据以意义。
- 情境理解: 理解一个场景的“故事”，看到一个人在雨中奔跑，是“赶时间”、“没带伞”还是“在锻炼”？
- 意图推断: 理解他人行为背后的动机，看到一个人伸手，是想“握手”、“打招呼”还是“推搡”？
- 常识推理: 运用人类习以为常的背景知识进行判断，知道“水是湿的”、“冰是冷的”、“人不能穿墙而过”。
- 多模态融合: 将视觉、听觉、语言等多种感官信息无缝地结合起来，形成一个统一、连贯的认知，看到朋友的笑脸（视觉），听到他的笑声（听觉），理解他此刻是“开心”的（高级感知）。

现有的AI，尤其是深度学习模型，在低级和中级感知上已经取得了惊人的成就，在ImageNet图像识别竞赛中，AI的准确率已经超越人类，但这恰恰凸显了高级感知的难度所在。

AI的困境： AI学习的是海量数据中的统计相关性，它能学会“猫”这个标签通常与“尖耳朵”、“胡须”、“毛茸茸”等像素模式高度相关，但它不理解“猫”是一种动物，需要吃饭喝水，会抓老鼠，是人类的宠物，它不知道“猫”和“沙发”在物理世界中的互动关系。
人类的优势： 人类的感知与生俱来地与物理世界和我们的身体经验（具身认知）紧密相连，我们知道杯子是用来喝水的，水是会洒出来的，重力是向下的，这种基于物理世界交互的常识,是AI目前极度缺乏的。

挑战核心： AI无法真正“理解”它所感知的东西，它只是在进行极其复杂的模式匹配，它知道“A”和“B”经常一起出现，但不知道“A”为什么会和“B”一起出现。

这是高级感知失败最典型的表现。

例子1： 你可以告诉AI“把大象放进冰箱需要几步？”AI可能会回答“三步：打开冰箱门，把大象放进去，关上冰箱门”，因为它从文本中学到了这个“脑筋急转弯”的答案，但你问它“真实大象能放进家用冰箱吗？”,它可能会因为缺乏物理常识而给出错误或矛盾的答案。
例子2： AI可以生成一张非常逼真的图片，画一个人站在水面上，它能完美地模拟光影和水的纹理，但它不理解“重力”和“密度”这两个基本物理常识,导致其生成的内容在现实逻辑上是荒谬的。

挑战核心： 人类拥有一个庞大、自洽、不言而喻的常识知识库，而AI的“知识”是离散的、脆弱的，缺乏内在的逻辑一致性，它像一个只背了题库但从未参加过考试的学生,一遇到新情况就无所适从。

人类的社会互动高度依赖于对情境和意图的微妙感知。

例子： 朋友发来一张图片，里面是一堆文件和一杯打翻的咖啡，人类会立刻理解：“哦，他/她工作出岔子了，很沮丧，可能在寻求安慰或帮助。”
AI的反应： AI可能会简单地识别出“文件”、“咖啡”、“桌子”等物体，并给出一个描述性的标签：“一张桌子上散落着文件和咖啡渍”，它完全无法捕捉到背后的情绪、故事和潜在的社交信号。

挑战核心： 这种理解需要心智理论——即理解他人拥有与自己不同的信念、欲望和意图的能力，AI目前无法真正“设身处地”地思考，这使得它在需要共情、复杂沟通和协作的场景中显得笨拙。

人类感知系统非常鲁棒，可以在各种复杂、不确定甚至嘈杂的环境中正常工作。

人类的鲁棒性： 你可以在昏暗的光线下、从奇怪的角度、甚至部分被遮挡的情况下认出你的朋友,你也能在嘈杂的地铁里听清朋友的电话。
AI的脆弱性： AI的性能高度依赖于训练数据，给它一张经过精心处理的、标准的猫的图片，它可能100%正确，但只要稍微改变光照、角度、背景，或者添加一点点对抗性噪声（人眼几乎无法察觉的微小扰动）,AI就可能完全认不出这是一只猫。

挑战核心： AI的感知是基于“特征匹配”，而不是“概念理解”，它对数据分布的变化非常敏感，缺乏人类那种举一反三、触类旁通的强大泛化能力。

正是因为感知如此困难，它也成为了AI研究最前沿、最激动人心的方向,主要的研究路径包括：

结合符号AI与神经网络（神经符号主义, Neuro-Symbolic AI）： 让深度学习负责处理模糊的、海量的感知数据，而符号推理系统则负责处理逻辑、规则和常识，两者结合，优势互补，让AI既能“看”，又能“想”。
大语言模型的潜力： 以GPT-4为代表的大语言模型，通过学习海量文本，似乎“涌现”出了一定的常识推理和世界知识，这为AI注入了前所未有的“理解”能力，GPT-4可以解释一张图片为什么好笑,因为它能将图像内容与人类的文化和情境知识联系起来。
具身人工智能： 让AI通过在物理世界中的真实交互（如机器人）来学习，就像人类婴儿通过触摸、抓握、摔倒来学习物理规律一样,AI可以在与环境的互动中逐步建立对世界的直观感知和常识。
多模态学习： 强迫AI同时处理和理解来自不同感官的信息（如视频+音频+文本），从而构建一个更全面、更接近人类的世界模型。

您认为“感知”是人工智能最大的挑战,是完全正确的。