2019 年春,在晨光熹微的餐厅里,我独自坐在角落,思考智能如何产生。餐厅的名字已经忘了,只记得离开时,老板送我一根棒棒糖。糖很甜,我舔着糖回家。此后多年,这个问题一直萦绕在我心间,却没有答案。时间来到 2026 年,当我再度思考这个问题,发现如今对智能的理解不是太少,而是太多。
一千个人对智能有一千五百种理解。
Ilya 说,智能的本质是压缩。
这是一种相当工程的理解。想象你学了很多驳杂无用的知识。某天偶得机缘,将它们融会贯通。原本分散在大脑中的知识骤然凝聚、浓缩。此刻,它们占据比往常更少的存储空间,却拥有更快的推理速度。这就是压缩。
融会贯通的关键,在于找到引发知识凝聚的「内在关联」。在深度学习中,找这种内在关联有一种方法,叫作「注意力机制」。其虽名为注意力,却和注意力关系不大,本质上是一种搜索。通过反复迭代 Q, K, V 三矩阵,逐渐精炼出更好的 Q(问题),更好的 KV(答案的键值),从而实现对文本信息的高维抽取。
Ilya 的理解已经足够触及本质,但我更想给出我的版本。如果 Ilya 是工程视角,回答的是如何训练出智能;那我就是演化视角,试图分析智能将往何处去。
智能的本质是泛化,而泛化的本质是对抗不确定。
这句话是未经允许擅自出现在我脑海中的。它是一个典型的三段论:因为智能的本质是泛化,而泛化的本质是对抗不确定,所以智能的本质是对抗不确定。
虽然这句话属于浴中奇思,但推究下来居然挺有道理。早期智能只能完成图像识别、命名实体识别、文本摘要这种零散琐碎的任务。随着模型的演化,泛化能力逐渐增强,最终在语言这种泛化能力极强的模态中,诞生了大语言模型这个庞然大物。
业界目前有种认知,就是大语言模型有缺陷,是因为缺少对物理世界的感知,所以大模型的下一站应该是「世界模型」。我认同这种观点,因为这是沿着泛化能力逐渐增强的路子往下走的。人类正是因为拥有无比强大的泛化能力,才能在自然界中生存下来。模型如果要超越人类,即 AGI,必然要在泛化性上超越人。所以在泛化性上做横向拓展,应该是确定的下一步。
至于泛化的本质是对抗不确定,这个更好理解了。一个常见的用于解释泛化性的例子是:一个苹果被咬了一口,如果模型的泛化性好,依然可以被识别为苹果。泛化本身做的就是对抗不确定的事情,这个描述倒是浅白到无需解释。
