概率、智能与数字化时代

谷歌成立之初，天使投资人问创始人：现在做搜算引擎的公司已经非常多了，你们为什么还要做?谷歌创始人说：我们做的不是搜索，我们做的是人工智能啊!

搜索与人工智能有什么关系呢?

(资料图片)

学过专家系统的同志都知道：人工智能的求解问题，往往可以转化成搜索问题。但搜索过程往往面临组合爆炸，传统算法无法在有限的时间内计算出来。人工智能算法就是要解决这类问题。所以，有人对这样定义智能：智能就是在一个巨大的搜索空间中，迅速找出较优解的过程。按照这个定义，智能算法是搜索算法，智能算法并不要求最优解、而是要求可接受的解，智能算法需要足够快。

搜索引擎就是要在巨大的搜索空间中，搜索到用户期望看到的东西。但问题是：什么才是用户最希望看到的东西呢?这需要理解用户的心理、需要读心术。这一点，谷歌做得特别好。在美国过会的一次听证会上，共和党议员问谷歌的CEO桑达尔·皮查伊：为什么我们打入白痴(idiot)时会出现特朗普总统的照片?皮查伊回答道：因为我们有些客户就是想看特朗普。

这种奇怪的“读心术”，谷歌是如何做到的呢?吴军先生在《数学之美》这本书中说的很清楚：计算概率。互联网上的数据样本特别多，这是合理计算概率的基础，而大数据技术使得快速的复杂计算成为可能。于是，人工智能走向了一个新的台阶。

前几年，谷歌的阿尔法狗风靡一时。其本质也是计算概率。我们知道：下棋的过程是要比较各种不同的走法，从中搜索出好的走法。但是，搜索的步子多了以后，就会遭遇组合爆炸。人工智能技术的关键，就是要减少搜索量。如何减少呢?就是要有重点的搜索。在专家系统这门课上，需要建立“启发式函数”去模拟人类的感性认识，评价哪些步骤更适合作为重点。

“重点搜索”的是取胜可能性较大的做法。本质上也是个算概率的问题。但是，这种概率函数很难人为地给出。人类棋手的判断，常常基于他的感觉。如何才能模仿人类的感觉呢?谷歌采用了依赖大数据的深度学习技术获得“启发式函数”，模拟人的感觉，本质上就是可以更合理地计算概率。

最近特别火的ChatGPT，回答问题时同样是在计算概率。你给出一个问题后，计算机给出概率大的答案。由此可见，从某种意义上说，人说不清、道不明的感性认识，本质上就是在计算概率。

我很早之间就认识到了概率和智能的关系。

1994年，我在浙大读博士。在何亚平老师的哲学课上，我走到黑板的前面画了A、B、C三个点。其中，C距离A非常近。我对大家说：已知A、B是两类不同的样本，请问C应该分到哪一类?这个问题给的条件太少，显然没有确定的答案。但如果一定要选一个的话，多数人会选择C与A属于同一类。因为觉这样的概率比较大。但人们又是如何判断概率的呢?我认为可以做个随机试验：随机给出一个线性分类器，把C与A划成一类的概率更大一些。当时，我没有把想法说清楚，只是有点模糊的感觉。我想说的是一个道理：智能的本质是对概率的判断。

概率论事一门严密的数学学科。但在现实中，理想的概率往往是不存在的——正如数学上的“直线”在现实中是不存在的。现实的概率，往往只能在一定的条件下才能逼近数学理论中的概率。如果把现实中的概率当成数学上的概率，往往会犯错误。

合理认识现实中的概率，体现了人的智能。

我特别喜欢《黑天鹅》中的一个故事。作者问两个人：假如一个硬币丢了99次，都是正面朝上。请问第100次正面朝上的概率是多大。对于这个问题，读书读傻了人往往会说：根据概率理论，第100次投币正面朝上的概率和前面的结果无关，所以概率为0.5。但实践经验更丰富的人则会说：这个概率应该大于0.5。他的理由是：前面99次都正面朝上了，你还能假设正面朝上的概率是0.5吗?

处理概率问题的本质是如何面对不确定性。不确定性是在信息和知识不完备的前提下产生的。而人的智慧往往就体现在信息和知识不充分时如何决策，就像传说中诸葛亮通过“夜观天象”而知“午时三刻有东风”。

我到宝钢之后，从事了多年的数据分析工作。我当时就认识到：现实中的概率和教科书上的概率不一样。教科书上的概率有个基本的前提假设：事件发生的频度是稳定的。而现实中，频度稳定几乎是做不到的。

比如，宝钢大院每年生产几十万块钢坯。钢坯的缺陷率是否可以看成概率呢?很难。因为每年的“缺陷发生频率”都不稳定。比如，有的年份2%，有的年份5%。为什么会有这么大的波动呢?一个重要的原因是产品不同。有的产品缺陷发生率可以高达20%，有的几乎无缺陷。而每年生产的产品比例不一样。那么，对于特定产品是不是就可以固定缺陷率呢?我发现也不行。即便对于同一个钢种，有的年份缺陷率5%，有的年份15%。特定钢种的缺陷率为什么变化这么大呢?因为有个清理环节，可以把缺陷清理掉。缺陷率是清理之后才统计的，但清理情况经常变化。那么，把产品和清理情况固定下来，缺陷率是不是就稳定了呢?仍然不稳定，因为还会有众多的系统干扰。如果把各种系统干扰都排除掉，则每组样本中的样本数目就非常少了，不再具备统计意义。当缺陷发生频度不稳定的时候，许多模型就不会有效了。

在我看来，每次缺陷的发生往往都有具体原因。而工厂的技术人员似乎更喜欢关注具体原因。只有具体原因无法观测的时候，才不得不用“概率”。所以，如果信息收集足够完备，人们就可以用机理知识而非概率统计解决问题了。

在我看来，传统的概率统计理论，都是在小数据的背景下形成的。这个理论体系已经不太适合大数据时代和信息时代了——换句话说，大数据时代的很多问题不适合用传统的概率理论来描述了。

在计算能力极大增强、信息趋于完善的时代，如何重新认识概率和不确定性，会给我们带来机会，也会带来挑战。或许，需要拓展“概率”的概念，并发展出新的理论。

标签：