【熊立文】归纳逻辑在现代的发展
现代归纳逻辑(简称归纳逻辑)产生于20世纪20年代。40年代到70年代是归纳逻辑蓬勃发展的时期,取得很多成果,也遇到不少难题。80年代之后,归纳逻辑领域显得有些冷清。但是,这并不意味着它已经走向衰亡:逻辑学家虽然陆续离开了这个领域,人工智能的学者却进入了这个领域,他们汲取归纳学者的思想精华,不断推出新的成果,为归纳逻辑的研究带来了生机和活力。
一、归纳逻辑的思想成果
归纳逻辑的理论很多,其中富有成果并对后来的研究产生了深刻影响的,是逻辑贝叶斯派和主观贝叶斯派的理论,以及归纳接受的理论。
逻辑贝叶斯派的学者凯恩斯和卡尔纳普认为,归纳的前提对结论提供了弱于逻辑推论的支持,这种支持关系被称为部分蕴涵、归纳确证、归纳支持等等。命题之间的归纳支持关系可以用条件概率表示为P(h/e)=r,卡尔纳普把这种概率叫做逻辑概率。卡尔纳普的工作中最富有启发性的思想是用状态描述来刻画逻辑概率的涵义。状态描述是一种可能世界,语言系统中的每个语句在一个状态描述中或者为真或者为假。卡尔纳普从状态描述出发,提出“逻辑域”的概念。一个语句的逻辑域是使这个语句为真的状态描述的集合。卡尔纳普对状态描述指派概率值,从而使语言系统中的每个语句都有一个先验概率,并且可以计算一个语句对另一个语句的归纳确证度。卡尔纳普实际上建立了一种可能世界的语义理论:在可能世界上确定一个语句的真值,对可能世界指派概率,进而确定语句的概率。(Carnap,pp.78-80,289-300)
逻辑贝叶斯派为概率概念提供了一种清晰而严格的语义理论,可以称这个学派的理论为逻辑的归纳。卡尔纳普没有解决全称事实句的归纳确证问题,在他的系统中,全称事实句相对于有限证据的确证度总是0。以欣迪卡为代表的芬兰学派解决了这个问题。在笔者看来,逻辑主义学派理论所面临的最大问题是计算困难;在一个语言系统中,无论状态描述还是构件,其数量都是随着初始谓词数量的增加以指数级增长。
主观贝叶斯派是在同逻辑主义学派的竞争中发展起来的。凯恩斯的《论概率》一书出版不久,同为剑桥精英的青年学者蓝姆塞就对凯恩斯的概率逻辑进行了批评,并且提出了不同于逻辑概率的主观概率概念。主观概率是主体a指派给命题或事件h的概率,是a对h的相信度。蓝姆塞、德·菲尼蒂、凯梅尼、列赫曼等人通过荷兰赌定理表明,一个理性的人的信念系统应当满足概率演算的基本原则。(cf.Ramsay, pp.156-198; Finetti, pp.93-158; Kemeny, p.269; Lehman, p.256)蓝姆塞在讨论主观概率的测度问题时研究了效用概念和效用的测度问题,而概率和效用恰恰是风险条件下进行决策时必须考虑的两个要素。萨维奇把归纳推理的思想与人们面对不确定性的证据时的决策行为联系在一起,根据主体对结果的偏好以及主体对于不同事件条件下行为的偏好,给出了概率概念。他用概率标定效用,给出最大期望效用原则,对现代决策理论的建立和发展做出了重要的贡献。(cf.Savage)杰弗里对概率、效用以及决策的思想和方法做了进一步的提炼,他把效用赋予命题,建立了决策逻辑。(cf.Jeffrey)可以说,主体在不确定条件下的选择行为是主观贝叶斯派建立理论的出发点,而决策理论既是这个学派理论的重要组成部分,又是它的重要应用。
20世纪50年代以来,决策理论逐渐成为经济学、管理学、心理学、计算机科学和人工智能共同关注的主题。心理学家卡尼曼和特维尔斯基自70年代起开始研究决策理论,他们发现,在不确定条件下,人们的判断和决策行为系统地偏离传统的期望效用理论,他们提出了“前景理论”来描述人们的决策。(Kahnema and Tversky,pp.263-291)特维尔斯基于1996年去世。卡尼曼获得了2002年的诺贝尔经济学奖,这进一步激发了学界对决策理论的兴趣。在归纳逻辑的各个学派中,主观贝叶斯派的理论是最具有应用价值且最富有应用成果的。主观贝叶斯派的理论可以称为行为主义的归纳。
归纳接受问题是归纳逻辑中又一个重要的理论问题。归纳逻辑的目的是什么?凯恩斯、亨普尔、凯伯格、莱维、欣迪卡、希尔比宁等人,都认为归纳推理与经验知识的获得密切相关,运用归纳推理可以计算经验证据对各个假说的确证度,从而为研究者接受、拒绝或悬置假说提供依据。波普尔最早涉及到语义信息的概念,卡尔纳普和巴-希勒尔提出并发展了语义信息理论。(波普尔,第91-93页;Carnap and Bar-Hillel,pp.221-274)亨普尔把贝叶斯决策理论用于假说的选择,他把假说的信息量作为假说的一种价值,提出认知效用的概念,并且提出了概率接受规则。(Hempl,pp.98-169)概率接受规则导致了抽彩悖论。莱维、欣迪卡、希尔比宁等人进一步研究了认知效用概念和归纳接受理论。(参见熊立文,第261-315页)归纳接受问题使人们充分认识到,认知主体的知识集合或信念集合不是一成不变的,而是流动变化的;这种变化不是知识集合的单调扩充,而是具有扩充、收缩、修正、更新等多种形式。于是信念修正和知识更新的理论进入归纳学者的视野。归纳接受的理论可以称为关于知识的归纳。
满足这些标准就是要按照现代逻辑的规范来建立逻辑系统。近年来,有一些学者从事用逻辑系统来刻画概率论的工作,形成了若干概率逻辑。这些概率逻辑与归纳逻辑或多或少有关系。科斯达和帕瑞克的条件概率逻辑用于处理信念修正和非单调推理(Costa and Parikh, p.34);巴塔格和斯密斯特的概率逻辑与信念修正、知识更新密切相关(Baltag and Smets)。
与归纳逻辑有直接关系的是哈尔彭等人的概率逻辑,这种逻辑是用来刻画不确定性推理的。(Halpern)不确定性是近年来人工智能领域中一个相当活跃的主题,它的范围比归纳推理更宽泛,涵盖了现代归纳逻辑中大部分有价值的内容。
二、归纳逻辑与人工智能
人工智能的目标是用机器模拟人的思维,而归纳是人类重要的思维方式。人工智能涉及归纳的领域包括不确定性、理性决策、机器学习、知识表示等等,其中有一些主题比如归纳逻辑程序设计,虽然冠以“归纳逻辑”的名称,实际与现代归纳逻辑没有关系。真正与归纳逻辑有深刻理论渊源的是不确定性(uncertainty)和理性决策(rational decision)这两个主题,它们使用概率刻画不确定性,用贝叶斯定理刻画不确定性推理。实际上,计算机科学和人工智能早就与归纳逻辑有联系,比如,从我们比较熟悉的计算机学者A.W.伯克斯的《机遇、因果、推理》一书中,就可以看到卡尔纳普和主观贝叶斯派的深刻影响。
20世纪60年代初,人工智能领域开始引入贝叶斯推理,主要用于医疗诊断。早期的贝叶斯系统遇到很多困难。其中一个基本的困难是,这些系统依赖于巨大的概率数据表的获取、存储和处理。为了表示命题或事件的概率,使用了原子事件和全联合概率分布两个概念。
原子事件是对世界状态的一种描述。假设有两个随机变量:牙齿有洞,牙疼。如果每个变量的取值范围为真和假,则有4个原子事件:
牙齿有洞且牙疼;牙齿有洞且牙不疼;牙齿没有洞且牙疼;牙齿没有洞且牙不疼。
原子事件是互斥的,论域中的命题或事件可以用若干个原子事件的析取来表示。
全联合概率分布是一个概率表,它对每个原子事件都给出一个概率值,通过对一个命题中所含的原子事件的概率求和,可以得到该命题的概率。这使我们想到卡尔纳普的状态描述,状态描述是在一阶逻辑的层次上刻画可能世界,原子事件是在命题逻辑的层次上刻画可能世界,但两者计算命题概率的思路和方法是相同的,遇到的困难也相同。用全联合概率分布可以进行概率推理,并且已经给出了算法。但是,对于二值的随机变量,如果论域中有n个随机变量,则概率表中原子事件的个数为2n;当随机变量的数目很多的时候,用这种方法来处理概率是行不通的。这类似于人们常说的“指数爆炸”。
解决这个问题的思路是使用随机变量的独立性把大的联合分布分解为比较小的联合分布,即把随机变量的集合划分为若干个独立的子集,于是全联合分布就能够分解为这些子集各自的联合分布。这样可以减小域的表示规模,并降低推理的复杂度。这样做也符合人的实际思维。但是在贝叶斯网络提出之前,人工智能领域缺少一种简洁的、形式化的方法来表示和使用独立性信息。因此,从20世纪70年代到80年代中期,人工智能学者对用概率来处理不确定性失去了兴趣。他们提出了许多代替概率的方法,其中有我们比较熟悉的Dempster Shafer理论、模糊集与模糊逻辑、非单调逻辑。
概率理论在人工智能中再次兴起是由于帕尔在1986年提出了作为专家系统的一种形式的贝叶斯网络,提供了一种表达概率的联合分布的简洁的形式。(Pearl,pp.241-288)贝叶斯网络由两部分组成:网络图和概率表。贝叶斯网络图是一个有向非循环的图,图中每一个节点表示一个随机变量,节点之间用带箭头的线段连接,从父节点引向子节点,它表示变量之间的因果关系或条件依赖关系。
例如,我们知道,吸烟是诱发肺癌的一个因素,被动吸烟是诱发肺癌的另一个因素;一个人的双亲中是否有人吸烟,会影响到他是否被动吸烟,也会对他本人是否吸烟产生影响。根据这种分析,可以得到一个网络图(见右图)。
“本人吸烟”和“被动吸烟”是“患肺癌”的父节点,“双亲中有人吸烟”是“患肺癌”的祖节点。一个人的父母是否吸烟显然会对他是否患肺癌产生影响,但是这种影响是通过“本人吸烟”和“被动吸烟”这两个因素的中介作用实现的。如果已经知道了某人是否吸烟或是否被动吸烟,再得知他父母是否吸烟就没有给出新的信息。因此,给定“本人吸烟”和“被动吸烟”的条件下,“患肺癌”是独立于“双亲中有人吸烟”这个变量的。
用网络图可以直观地表达变量之间的依赖性和独立性的信息。但仅有网络图尚不能表达概率,还需要给每个节点一个条件概率表。这个概率表分别表明在它的父节点所表示的情况成立和不成立的条件下,该节点所表示的情况出现和不出现的条件概率。如果一个变量有几个父节点,则要列出这些父节点情况成立或不成立的各种组合作为条件。这里没有写出这些概率表。
利用这些条件概率表,根据网络图中给出的条件依赖性和独立性的信息,用链式规则,可以计算出该领域中每个原子事件的概率,从而给出全联合概率分布。独立性是贝叶斯网络中的一个重要内容,利用变量之间的独立关系,一个设计得很好的贝叶斯网络可以大大减少表达概率测度所需要的数据条目。
贝叶斯网络使得在人工智能中运用概率来表达不确定信息以及进行推理成为可行的。人工智能学者已经发展了用贝叶斯网络进行推理的各种算法,并且研制出了使用贝叶斯网络的医疗诊断、诊断-修理等专家系统。贝叶斯网络中所使用的概率是主观概率。
人工智能领域中与归纳逻辑密切相关的另一个主题是理性决策,涉及智能系统在不确定的环境中如何采取行动以完成任务的问题。我们知道,主观贝叶斯派发展了主观概率理论和效用理论,并将两者相结合以最大期望效用原则来指导主体在不确定条件下的选择行为。人工智能的学者充分利用了这些理论成果,并且在理论的广度和深度上都大大地超越了归纳逻辑;多属性效用理论、决策网络、信息价值理论等等在人工智能领域中得到研究和应用,决策理论专家系统已经被广泛地接受。
除概率理论外,前面提到的用于刻画不确定性推理的Dempster-Shafer理论、模糊集与模糊逻辑、非单调逻辑等,也都有了长足的发展。
人工智能领域对不确定性推理的研究和应用,产生了按照现代逻辑的理念来构造形式系统的需求。一些学者进行了这方面的研究,其中哈尔彭的工作是具有代表性的。
三、不确定性推理的逻辑
哈尔彭是一位计算机学者。他对刻画不确定性推理的各种理论做了总体的思考,其中与归纳逻辑相关的是概率逻辑。他的概率逻辑分为命题概率逻辑和关于概率的一阶推理的逻辑。命题概率逻辑是经典命题逻辑的扩充,是一个多主体的概率逻辑系统。
第一步是在命题逻辑的语言中增加了形如Li(A)的表达,Li(A)被称为可能项(likelihood term),它的直观意思是主体i赋予公式A的概率,或者主体i对A的相信度。使用可能项,可以定义可能公式(likelihood formula)。可能公式具有形式a1Li1(A1)+…+akLiK(Ak)≥b,其中a1,…,ak,b是实数;i1,…,ik(不必然不同)表示认知主体;A1,…,Ak是公式。哈尔彭称这个扩充了的语言为LnUQ。这个语言可以表达命题或事件的概率、概率的加减运算,可以表达简单的条件概率,等等。
第二步是给出形式语义。LnUQ的语义是由概率框架加上赋值V所形成的概率结构给出的。设(W,P1R,…,PnR)是一个概率框架,其中W是可能世界的集合,PiR(i=1, …, n)是概率指派,也即一个函数,它把W中的每一个世界w与一个概率空间(Ww,i,Tw,i,μw,i)联系在一起。概率空间中的Ww,i是W的子集,Tw,i是以Ww,i的子集作为元素形成的集合,μw,i是一个函数,它给Tw,i中的元素指派[0,1]中的某个数作为其概率值。直观地看,PiR是认知主体i在世界w上确定他所考虑的可能世界的集合,并对其中的可能世界或可能世界集合指派概率。设(W,P1R,…,PnR,V)是一个概率结构,其中V是对公式的真值赋值。
一个公式A在一个概率结构M中的一个可能世界w上为真,记作(M,w)╞A。对原子公式、合取式、否定式等的真值赋值与命题逻辑相同。可能公式略微复杂一些,它涉及对公式的概率指派。直观地看,一个公式A在若干个可能世界上为真,这些可能世界所组成的集合的概率就是A的概率。用[A]M表示W中的可能世界的一个集合,A在这些可能世界上为真。概率空间中有认知主体对可能世界集合的概率指派。于是对于可能公式,有
(M,w)╞a1Li1(A1)+…+akLik(Ak)≥b, 当且仅当
a1μw,i1([A1]M∩Ww,i)+…+akμw,ik([Ak]M∩Ww,i)≥b。
哈尔彭给出了有效公式的定义。接下来给出了公理化的概率推理系统,这个系统是对命题逻辑的扩充。最后,他证明了这个公理系统相对于语言LnUQ,对于可测度的概率结构的类既是可靠的,又是完全的。由于这个系统不能刻画概率之间的相乘运算,因而不能表达独立性概念,而独立性是贝叶斯网络中的重要内容。于是哈尔彭对它进行了改进。此外,为了刻画理性决策,他又建立了一个可以表达期望的系统。这两个系统也是按照现代逻辑的一套规定步骤给出的。
哈尔彭在建立关于概率的一阶推理的逻辑时,区分了两种概率陈述。一种是像“一只随机选出的鸟会飞的概率大于
哈尔彭的概率逻辑具有浓重的主体色彩和认知色彩。不难看出,他的概率逻辑与主观贝叶斯派及逻辑贝叶斯派归纳理论之间有联系。在命题概率逻辑中,他使用特征算子L表示主体对命题的概率指派或相信度是主观概率,他在对概率进行辩护时使用了荷兰赌定理。而在语义处理上哈尔彭则使用了可能世界的概念;与卡尔纳普和欣迪卡相比,哈尔彭的可能世界概念更抽象、更一般,也更具有概括性。他汲取了这两者的理论精华。在概率的一阶推理部分,概率推理被区分为统计推理和相信度推理;相应地,概率被解释为统计概率和相信度。这种处理方法与卡尔纳普把概率区分为概率1(确证度)和概率2(统计概率)的做法本质上有共同之处,尽管相信度与确证度之间有区别。
哈尔彭的理论并不限于概率逻辑,他还系统地研究了不确定性推理。除用概率来刻画不确定性推理外,他还讨论了用Dempster-Shafer函数、可能性测度、等级函数(ranking functions)、似合理性测度(plausibility measures)来刻画的不确定性推理,以命题逻辑为出发点,分别建立了这些推理的公理化系统。此外,他还建立了认知与概率结合的逻辑系统。
20世纪60—70年代对归纳接受问题的讨论,是归纳逻辑中最后一个热点问题;从那以后,逻辑学家陆续离开了归纳问题。与逻辑学家形成鲜明对照的是人工智能学者对归纳问题的关注。在人工智能领域,不确定性推理、理性决策、信念修正、知识更新、归纳逻辑程序设计、扩展推理(回溯推理)等等,都是非常活跃的主题。归纳逻辑学家的思想成果为人工智能学者所吸收利用,他们不断推出新的非常有意思的成果,研究的广度和深度都已经大大超越了归纳逻辑。
逻辑学家追求确定性和一般性。按照凯恩斯和卡尔纳普最初的设想,归纳推理的前提虽然不能逻辑地蕴涵结论,但它对结论的概率支持度是惟一的,并不因人而异。深入研究的结果却表明,对于同一个归纳推理,不同主体之间的认识具有差异;即使是同一个主体,其认识也具有模糊性。这种差异性和模糊性要在长的确证过程中逐渐消除。(cf. Hawfhorene)后来卡尔纳普的λ系统和欣迪卡的α-λ系统都允许有不同的归纳确证度。归纳接受问题进一步显示出知识和信念的可误性和可修正性。这些都与逻辑学家追求确定性和一般性的偏好不符,是逻辑学家离开归纳问题的原因。人工智能学者面向人的实际思维和人类认知活动,以解决现实问题为目标,有技术应用方面的需求作为动力,而且近年来对智能体(agent)的研究是人工智能中的一个热点。因此,他们不仅不回避归纳推理的不确定性和主体性,而且接受了主观主义学派的理论成果。
重要的是人工智能学者是以与逻辑学家相同的理念和规范来建立逻辑系统的。因此,归纳逻辑仍在发展,不过现在推动归纳逻辑前进的主要力量不是逻辑学家,而是人工智能学者。
原载《哲学研究》,2008年第2期。录入编辑:神秘岛