盛按:【真正关乎国运的是宪治原则】最近DeepSeek崛起震动中美,以致全球。这确实值得庆贺。不过将其称为“国运级”就有点儿太夸张了。DeepSeek所做的不过是单项突破,相当于生产工艺的重大创新,致使成本大降。这在AI发展史中还不具有很高的战略意义。AI发展到今天,一方面靠颠覆性新技术新产品的出现,一方面靠互相协调配套的技术成群涌现。工艺创新只是其中相对次要的环节。而几乎所有上述战略性突进都发生在美国及西方世界。这是因为存在着适宜技术创新的宪治制度结构,它使社会通行基础性系统性的规则,使创新的机会和条件普遍存在。大陆中国的互联网和AI业的发展,一方面是在这些现成技术环境下具体应用和工艺的进取,一方面是改革开放时期的更接近自由表达的宪治原则,互联网随着市场化一同发展起来,梁文锋也坦言他们受益于云栖小镇的开放氛围。然而,这只是在普遍缺少宪治原则下的小环境,在偌大大陆中国中也只能出现个别的、而不是系统性的创新。即使是受到广泛赞扬的DeepSeek产品,当我问它有关特朗普的问题时,它竟说这是敏感问题,将大陆中国的敏感词政策推广到美国。对DeepSeek成绩的过度夸张还会使某些人用来掩饰大陆中国的致命缺陷,并将之发扬光大,反过来会系统性地阻碍大陆中国的科技创新及AI的发展。(2025年1月30日)

近年来人工智能的发展令人目眩。绝大多数外行人,对AI的了解限于对其外在形态的描述。一个重要的指标就是模型。模型是人工智能的逻辑体系及其计算机化。强调现在的模型不同以往的描述就是在前面加一个“大”字,称为“大模型”。之所以大,是说它的参数多,通常有数十亿甚至数千亿个参数之多。根据这个粗浅的认识,有些人用大模型的数量来简单地判断人工智能在各国的发展状况,它们之间的排名,它们的发展潜力。根据这个标准,有人就认为大陆中国的人工智能发展仅次于美国。依据是,2022年美国的大模型投资达474亿美元,大陆中国紧跟其后达134亿美元(华商韬略,2023)。2023年,大陆中国在8个月中就诞生了238个大模型(郝鑫、黄小艺,2023);10亿参数规模以上大模型已发布近80个(北京日报,2023),仅次于美国的100多个(华商韬略,2023)。
然而这种外在的描述很可能误导人们。模型之所以有效在于它的内在机理。内在机理错了,参数再多也没用,且可能正相反,参数多致使复杂程度升高,使模型更容易犯错误。自图灵,冯诺依曼以来,人工智能有了长足的发展,神经网络,深度学习,图像识别,机器翻译,AlphaGo,ChatGPT。它们内在的机理不足为外行人所理解,但它们在认识论上并没有走出人类认识能力的范围。一种方法是穷举,我称之为“遍试”,即将所有可能的选择一一测试,根据结果找出最佳的选择。与“智能”的印象相反,机器做的是最“笨”的事情——把每种可能选择都试一遍,最后找出结果最好的。计算机的优势是,它可以不厌其烦,且速度极快。
例如,人们要在100条路中找到从甲地通向乙地的最短的路,最笨的方法是把每条路都走一遍,但这样做成本太高。假如有一种机器能够快捷低成本地试完这100条路,并告诉我们哪一条路最好,无疑是个好办法。人工智能——计算机就是这样一种机器。更一般地,人类面对的知识都具有这样的性质。在无数选择中隐藏着一个最佳选择,最简单和彻底的方法就是把它们一一试过。这用在博弈的人工智能上。例如跳棋,平均每步都有7种可能选择,应对每步又有7种选择。“深蓝”和AlphaGo理论上用的也是这种方法。如跳棋每局平均约50步(梅拉妮·米歇尔,2021,第221页),人工智能所有可能的选择有750。围棋平均每步有250种可能选择(第227页),每局棋至少要走100步,就要有255100种的可能选择。尽管计算机有速度快的优势,但如此天文数字的可能选择,它也不能胜任。目前世界上最快的计算机也才每秒2×1016 次。
于是AlphaGo采取蒙特卡洛随机方法,即随机选取若干选择,再对结果进行评价,选中其中最好的。如此进行若干次。虽然不如遍试方法,但这种方法也可以用少得多的计算找到接近最佳结果的选择。然而这种方法只能用于博弈这种有明确边界,有确定规则的,维度较小的简单系统中,而在现实世界,多是复杂系统,如身体和社会,维度远比博弈多得多,所以所谓“遍试”根本就没有可能。迄今为止,人类认识世界的方法实际上是在遍试背景下的随机探索。这类似于蒙特卡洛方法,但比其覆盖的机率低得多。如人类在远古时期,有无数人类部落在随机地行为,偶然少数几个形成了均衡的习惯法,因给部落带来好处,而或者为周边部落学习,或使该部落扩张起来,总之都会导致该习惯法的扩展。因而总体而言,人类是靠对随机行为结果的评价来选择行为的。他们不一定要一下子选择最佳行为,而只要在两个选择中选择那个更好的。
因而人类文明的发展,不是一下子找到最佳答案,而是缓慢地向最佳选择趋近。判断孰优孰劣,依赖于判断能力。这种能力就是对因果关系的发现。一种行为对应于一种结果,另一种行为对应于另一种结果。这种因果关系可以是多个因果之间的因果链条,也可以是多种平行因果互相影响的因果结构。人类的知识,就是对因果体系的内在逻辑和结构的探究和把握。这里有两个要点,一个是观察,一个是价值判断。对观察的要求是真实,这需要人的感官的能力和灵敏度,以及不被情绪或偏见所遮蔽,这就是《中庸》所说的“诚意”。对价值判断的要求是准确。所谓准确是指它得符合自然法,如果看到天敌不认为是威胁,看到猎物不知道可以充饥,这个种群就会灭亡。量的判断也很重要,当一个族群迁徙到一个新的地区,没有对当地资源丰富的状况的正确判断,也会影响族群的发展。一个生物的所有价值判断如果不是有利于生存的话,这种“价值判断”就不是正确的价值判断,它会随着它所附着的主体一起消亡。
对于人工智能,它既然不能遍试各种人类事务,也不能通过观察和价值判断建立起它自己的因果体系,它只能通过人类已经发表的文字进行判断。而对于复杂系统,人类的看法不尽一致,在不少问题上都有不同角度的看法甚至争论。不仅是观点,在文字表达上,或在语言翻译上,什么是“最好的”就很模糊。人工智能,在有成熟的理论时,就采用成熟理论;在多种理论并存时,就有权重地兼收并蓄;在没有明确结论的事务中,就在海量信息中采取比重较高的。如想比较相似的两句话哪个更正确,可以在网上进行搜索,选择那个结果数量更多的答案更可能正确(埃德尔曼和托诺尼,2019,第317页)。因此,人工智能比人类更退一步,它不仅要根据结果判断,而且要根据人类的判断而判断。它的两个要点是,人类的判断是真实的,它的价值判断就是正确的。所谓“人类的判断是真实的”意味着,所有的人都能够表达自己的意见,而且表达意见是自己的真实意思。而所谓“它的价值判断”实际上是没有的,而是人类植入的,正确与否,取决于人类植入的价值判断正确与否。
这样看来,人工智能是否有效和“智慧”不仅取决于它的内在机理,还要取决于外在它的人类环境。首先是,人工智能与人类类似,对外部世界的认识,对认识方法的改进要靠随机探索。这种探索越是随机越好。人为设定框框,限制探索的方向或范围,只会减少随机探索的数量,并且可能排除隐藏正确答案的部分。如果随机探索的成功概率是一样的,探索数量越多,成功的可能性越大。在这方面,大陆中国当局通过自我设限,阻碍了信息在境内外的流动,限制境内的学术刊物的创立,限制国内外学术的交流,对文章和书籍的出版进行审查,这就极大地减少了大陆中国的新的观念的出现,也就减少了探索的数量。而在其它国家,他们在计算机加互联网的环境下,学术自由又向前迈进了。如自由读取形式的创新使得学术刊物成倍的增长,它们之间形成了更为激烈的竞争,将过去很难发表的文章发表出来。又如自我出版形式使得书籍出版更加便利,使得过去被出版社低估潜在价值的书籍得以出版。这加大了它们与大陆中国的差距。
第二个是“观察”的真实性。对于人来说,靠的是他们的感官的灵敏与准确;而对于人工智能来说,它们的“观察”就是对人类信息的观察。如果人类信息受到扭曲,如一个社会存在着系统性的对自由表达的压制,众多个体无法真实地表达自己的感受,这个社会的信息环境就会受到扭曲,在这个信息环境下汲取信息的人工智能的“观察”就是不真实的。例如,在大陆中国存在的对自由表达原则的违背。一种表现是数据造假,并压制对真相的揭露。如三年防疫期间,各地方政府为了直接的行政目标,扭曲新冠肺炎的感染及死亡人数,掩盖因过度防疫而造成的非正常死亡人数,掩盖其所带来的对社会经济和人身自由的损害,会使人工智能接受不真实的信息。计算机业有句行话,“垃圾进,垃圾出”,输入的信息不真实,就不会得出真实的结论。我问《文心一言》关于“三年防疫”的评价,它说“很成功”。即使对信息上已经有披露的事情,如郑州市政府对2021年水患的死亡人数的隐瞒,《文心一言》的第一反应是“郑州市政府没有隐瞒死亡人数”。
第三个,也是最核心的因素,就是价值评价。其实,所有人工智能的核心技术就在于它们的“价值函数”。AlphaGo之所以能够对“遍试”的结果进行评价,就在于它有评价的能力。因为围棋的胜负就在于双方所占地盘的多少,评价地盘的数量指标就是“目”。数(三声)目已经是人类围棋高手的基本技能。AlphaGo只是在吸收人类数目技巧的基础上,通过模型多次自己互弈的胜负调整参数,最终会得到一个接近完满的“数目函数”。这种方法也类似于人类的随机行为并观察结果的方法。在其它领域的人工智能,也多是采取事先赋值的方法,例如在猫或狗的图片中事先给出确的答案,然后让机器随机识别,再与正确答案比对,正确就打高分,错误就打低分,经过一段时间的训练,机器作出正确“识别”的概率会变得很高(米歇尔,2021,第134~135页)。当然也可以不用人工赋值,直接用网络上图片的题目,但这需要题目是正确的,如果是“指猫为狗”,自然也不会学到正确的赋值。
因而,赋值的关键是这个值是正确的。这全依赖于人类。计算机是无法自我生成这个“价值”的,因为它没有自己的身体及其七情六欲,它就无法判断某种情况的价值。对于人类或其它生物来说,价值就是“进化选择出来的有机体的一些表形方面,这些方面约束了躯体选择性事件”(埃德尔曼和托诺尼,2019,第97页)这些选择可以“使动物得以适应环境和生存”(第97页,*)。从根本来讲,价值来不得半点虚假,因为它关系到生物的生存。而当人类发展到复杂的社会以后,由于巨大财富的涌现,以及扭曲分配的政治结构,一些人可以提供虚假信息和扭曲价值观而生存,但同时会给社会及其他人带来损害。如果虚假信息是系统性地制造的,则它会影响到对价值的判断。如在压低死亡人数的情况下,人们就会低估病死率,从而采取较轻的应对措施。第二如果压制价值观多元化,强力推行一种价值观,如地方当局无视民众的生活和意见,只把自己的升迁作为价值标准,就会导致错误的价值评价。
社会是一个复杂系统。它的整体的长远的价值是由一个个个人微观活动经多个因果链叠加累积而成的。任何一个局部的当下行为的价值判断不能很直观地由社会价值反推,所以它会受到所观察的事实和价值观的影响。而价值观会受到不同的个人的处境和位置的左右,因而对同一事物,同一行为的结果,会有不同的价值判断。如对社会福利和效率的判断,不同阶层的人会有不同倾向。如在美国,共和党更侧重效率,而民主党更侧重于社会福利。况且还有历史形成的扭曲的价值观,如对一部分人的歧视,种族的,性别的,性习惯的,等等。谨慎的解决方法就是价值观的多元化。如果借助政治强力压制某一价值观,推崇某一价值观,就会打破价值观的均衡,导致价值判断的偏颇和扭曲。价值观多元化的原则就是自由表达原则。然而在大陆中国,行为当局以违宪的手段压制批评,也就等于强制将自己的价值观强加于社会,导致价值评价的失真。
因而,大陆中国的模型再大也没用,在基本规则上就输了。在观察的信息不真实,价值评价扭曲,以及探索数量和范围受限的情况下,即使大模型的内部结构与竞争者无异,也不可能产生同样良好有效的结果。人工智能模型的成功的前提条件,是它拥有一个思想表达充分,学术交流通畅,自由表达得到保护的社会环境。这让人回到《宪法》第35条。初看起来,这一宣示表达自由原则的条款,只是保护人们表达的权利,至少是给弱势群体以语言空间,给政治批评更多的宽容度,实际上这一原则的功效包罗万象。它是社会诸基本原则的根本原则,它是基本文明规则。它不仅使社会公正,还使社会有效,走向繁荣和科技领先。如果这个为人工智能提供最基本的探索条件,信息中立环境和价值判断符合自然演化标准的社会环境不存在,人工智能的大模型无论多大也不会“智能”,有多少参数也无济于事。大模型就只沦落为某些人自我陶醉的借口,或是欺骗他人的工具,不会真正使拥有它们的社会领先。
已有文章揭露,大陆中国的大模型多是“套壳”或“拼装”之作。“套壳”即套用别人的开源大模型,“拼装”即将若干小模型拼在一起;而鲜有“原创”(刘以秦,2024)。这就解构了前述多少个大模型的光亮数字,也正如我们根据大陆中国的制度环境所作出的合乎逻辑的预期。我们可以猜测,在没有真实良好的信息环境,没有受到保障的自由表达原则的情况下,企业也可以预见到所谓大模型的成功概率不高,从而减少对此投入真金白银的热情;或少数投入者大败亏输。但另一方面它们却可以借对“大模型”的光环去融资或投上所好,所以用套壳假装大模型,却不想向真正的创新投入更多。这种预期让我们看到事实,并非不希望大陆中国的大模型走在前面。然而,如果不回归表达自由的文明规则,这种社会就永远落后于坚持表达自由的社会。而这种落后是关键性的,在这个人工智能发展的分歧点,它将在不久的将来变得更加明显。
参考文献
埃德尔曼和托诺尼,《意识的宇宙》,上海科学出版社,2019。
北京日报,“排名全球第二!我国10亿参数规模以上大模型已发布近80个”,《北京日报》,2023年11月9日。
郝鑫、黄小艺,“8个月238个大模型,中国AI 奔向何处?”《光锥智能》,2023年12月5日。
华商韬略,“ChatGPT之外,美国大模型搞到什么程度了?”《华商韬略》,2023年12月26日。
刘以秦,“中国大模型产业的五个真问题”,《财经十一人》,2024年2月18日。
米歇尔,梅拉妮,《AI 3.0》(电子版),四川科学技术出版社,2021。
2024年3月5日于五木书斋

赞赏本文
随意
US$5.00
《【人工智能】AI功夫在模型外|盛洪》有一个想法