概率、智能与数字化时代

2023-08-09 18:23:00     来源:控制工程网

谷歌成立之初,天使投资人问创始人:现在做搜算引擎的公司已经非常多了,你们为什么还要做?谷歌创始人说:我们做的不是搜索,我们做的是人工智能啊!

搜索与人工智能有什么关系呢?


(资料图片)

学过专家系统的同志都知道:人工智能的求解问题,往往可以转化成搜索问题。但搜索过程往往面临组合爆炸,传统算法无法在有限的时间内计算出来。人工智能算法就是要解决这类问题。所以,有人对这样定义智能:智能就是在一个巨大的搜索空间中,迅速找出较优解的过程。按照这个定义,智能算法是搜索算法,智能算法并不要求最优解、而是要求可接受的解,智能算法需要足够快。

搜索引擎就是要在巨大的搜索空间中,搜索到用户期望看到的东西。但问题是:什么才是用户最希望看到的东西呢?这需要理解用户的心理、需要读心术。这一点,谷歌做得特别好。在美国过会的一次听证会上,共和党议员问谷歌的CEO桑达尔·皮查伊:为什么我们打入白痴(idiot)时会出现特朗普总统的照片?皮查伊回答道:因为我们有些客户就是想看特朗普。

这种奇怪的“读心术”,谷歌是如何做到的呢?吴军先生在《数学之美》这本书中说的很清楚:计算概率。互联网上的数据样本特别多,这是合理计算概率的基础,而大数据技术使得快速的复杂计算成为可能。于是,人工智能走向了一个新的台阶。

前几年,谷歌的阿尔法狗风靡一时。其本质也是计算概率。我们知道:下棋的过程是要比较各种不同的走法,从中搜索出好的走法。但是,搜索的步子多了以后,就会遭遇组合爆炸。人工智能技术的关键,就是要减少搜索量。如何减少呢?就是要有重点的搜索。在专家系统这门课上,需要建立“启发式函数”去模拟人类的感性认识,评价哪些步骤更适合作为重点。

“重点搜索”的是取胜可能性较大的做法。本质上也是个算概率的问题。但是,这种概率函数很难人为地给出。人类棋手的判断,常常基于他的感觉。如何才能模仿人类的感觉呢?谷歌采用了依赖大数据的深度学习技术获得“启发式函数”,模拟人的感觉,本质上就是可以更合理地计算概率。

最近特别火的ChatGPT,回答问题时同样是在计算概率。你给出一个问题后,计算机给出概率大的答案。由此可见,从某种意义上说,人说不清、道不明的感性认识,本质上就是在计算概率。

我很早之间就认识到了概率和智能的关系。

1994年,我在浙大读博士。在何亚平老师的哲学课上,我走到黑板的前面画了A、B、C三个点。其中,C距离A非常近。我对大家说:已知A、B是两类不同的样本,请问C应该分到哪一类?这个问题给的条件太少,显然没有确定的答案。但如果一定要选一个的话,多数人会选择C与A属于同一类。因为觉这样的概率比较大。但人们又是如何判断概率的呢?我认为可以做个随机试验:随机给出一个线性分类器,把C与A划成一类的概率更大一些。当时,我没有把想法说清楚,只是有点模糊的感觉。我想说的是一个道理:智能的本质是对概率的判断。

概率论事一门严密的数学学科。但在现实中,理想的概率往往是不存在的——正如数学上的“直线”在现实中是不存在的。现实的概率,往往只能在一定的条件下才能逼近数学理论中的概率。如果把现实中的概率当成数学上的概率,往往会犯错误。

合理认识现实中的概率,体现了人的智能。

我特别喜欢《黑天鹅》中的一个故事。作者问两个人:假如一个硬币丢了99次,都是正面朝上。请问第100次正面朝上的概率是多大。对于这个问题,读书读傻了人往往会说:根据概率理论,第100次投币正面朝上的概率和前面的结果无关,所以概率为0.5。但实践经验更丰富的人则会说:这个概率应该大于0.5。他的理由是:前面99次都正面朝上了,你还能假设正面朝上的概率是0.5吗?

处理概率问题的本质是如何面对不确定性。不确定性是在信息和知识不完备的前提下产生的。而人的智慧往往就体现在信息和知识不充分时如何决策,就像传说中诸葛亮通过“夜观天象”而知“午时三刻有东风”。

我到宝钢之后,从事了多年的数据分析工作。我当时就认识到:现实中的概率和教科书上的概率不一样。教科书上的概率有个基本的前提假设:事件发生的频度是稳定的。而现实中,频度稳定几乎是做不到的。

比如,宝钢大院每年生产几十万块钢坯。钢坯的缺陷率是否可以看成概率呢?很难。因为每年的“缺陷发生频率”都不稳定。比如,有的年份2%,有的年份5%。为什么会有这么大的波动呢?一个重要的原因是产品不同。有的产品缺陷发生率可以高达20%,有的几乎无缺陷。而每年生产的产品比例不一样。那么,对于特定产品是不是就可以固定缺陷率呢?我发现也不行。即便对于同一个钢种,有的年份缺陷率5%,有的年份15%。特定钢种的缺陷率为什么变化这么大呢?因为有个清理环节,可以把缺陷清理掉。缺陷率是清理之后才统计的,但清理情况经常变化。那么,把产品和清理情况固定下来,缺陷率是不是就稳定了呢?仍然不稳定,因为还会有众多的系统干扰。如果把各种系统干扰都排除掉,则每组样本中的样本数目就非常少了,不再具备统计意义。当缺陷发生频度不稳定的时候,许多模型就不会有效了。

在我看来,每次缺陷的发生往往都有具体原因。而工厂的技术人员似乎更喜欢关注具体原因。只有具体原因无法观测的时候,才不得不用“概率”。所以,如果信息收集足够完备,人们就可以用机理知识而非概率统计解决问题了。

在我看来,传统的概率统计理论,都是在小数据的背景下形成的。这个理论体系已经不太适合大数据时代和信息时代了——换句话说,大数据时代的很多问题不适合用传统的概率理论来描述了。

在计算能力极大增强、信息趋于完善的时代,如何重新认识概率和不确定性,会给我们带来机会,也会带来挑战。或许,需要拓展“概率”的概念,并发展出新的理论。

标签:

猜你喜欢

概率、智能与数字化时代
预增344%-400%!1600亿全球光储龙头半年业绩爆表
罗克韦尔自动化助力奇瑞汽车打造智能网联超级工厂
美的空调重磅发布全屋智慧空气解决方案,引领空调行业进入新时代
电力保护神仙器老人家也会安装
文献书画里的张大千与江南:从上海、嘉善到苏州
“消失”的香飘飘
元代大运河究竟是如何开通的?又是谁规划设计的?
上汽集团7月销量40万 新能源车销售9.1万 海外市场销售9.7万
智能制造业数字化转型如何实现?
6秒出一杯,智能设备成新茶饮搞钱利器?
力聚热能营收升净利连降两年 存货偏高三年分红3.9亿
西克:视觉车身定位系统赋能数字化汽车制造工厂
刘洪彪:学书法眼不高、手永远都会低
人体因素对古希腊建筑设计影响有多大?
徐悲鸿与一幅古画悲欢离合的故事
直播电商下半场,我们需要怎样的“基础设施”?
游泳教练疑拍女生照片发表不当言论当事教练:只是想说学生营养好发育好 事情的经过是怎样的?
山东平阴警方通报一小区有人打架:系邻里冲突 2人死亡
奇瑞捷途又一中型SUV来袭!颜值在线,3种动力,起售价10万出头!
创指翻红半日涨0.24%,医药股持续反弹
RA6T2的16位模数转换器操作[10]配置RA6T2ADC模块(7)
中国仕女画的丰碑—王叔晖
中央广播电视总台领导莅临大丰科创中心调研座谈
西双版纳州广播电视局推动非法卫星地面接收设施整治联合执法
“全国广电记者内蒙古高质量发展调研行”活动在呼启动
人文财经观察家、秦朔朋友圈发起人秦朔一行到访大丰
加快一刻钟便民生活圈建设
欧舒丹控股股东据悉就私有化交易进行深入磋商 对公司估值约65亿美元
我国成功发射环境减灾二号06星