枫叶原创 - 惜时增效 - 育贤文学 - 平安鼎原 - 老子书院 - 营养协会 - 资源库
枫叶教育网 - 打造具有特色品牌的地方教育门户
大数据战略与华罗庚的数学智慧
作者:刘祥官: 来源:京师书院BigData 点击:1086次 评论:0

刘祥官,浙江大学数学系教授,博士生导师

怎么教学生这个问题我探索了20年,现在少有心得,今天这个课堂的场面使我想起35年前,1980年我跟着华罗庚教授到江苏省南京市推广优选法、统筹法的时候,南京体育馆坐满了全市的工人阶级、农民阶级、知识分子和领导干部,听华罗庚讲优先法、统筹法,这也是一个没有先例的数学课。听说要给小学老师们讲数学,我心里头打了一个非常大的问号,怎么讲?华罗庚教我们数学的时候跟我们讲了这样的话:数学可以讲得低八度,中八度,高八度,如果对什么人都是讲高八度的话,那么可能很多人就会坐飞机,因为数学一旦接不上,那么听起来就非常吃力了。我们在大学听华罗庚讲课的时候,就曾经经历过坐飞机这样的局面,华罗庚老师在课堂上将“不难证明”这样的结论一笔带过,他的助教就跟我们讲了整整两个小时的课才把“不难证明”4个字证明完。所以怎么样学好数学、教好数学这是一个困难的问题,咱们这个千课万人是探讨大数据时代的这个数学课怎么讲,我感到是一件非常有意义的事情。我就想起我上小学的时候,什么印象最深刻,我想起了我的小学语文老师,他不但把一个学期的语文课讲完了,而且把苏联的(因为50年代初期的时候,卫国战争刚结束不久)普通一批《马特洛索夫》这么厚的小说也讲完了,我们作为小学生听得是津津有味,所以现在我印象最深刻的是小学语文老师,而不是数学老师。数学老师讲了什么,我全部都忘掉了。所以我给小学老师们的建议,当你们教小学数学的时候,能够把小学数学课本讲成小说、故事一样,那么你将来就可以培养成半个数学家。为什么这样说?因为我跟华罗庚老师学数学,我不敢称自己为数学家,但是我在应用数学上完成了国家科技进步一等奖,这个国家重大项目的成果为国家创造了巨大的效益,我称半个应用数学家可以说当之无愧。所以,怎么探讨21世纪的数学教学从小学开始,这个能够认识大数据,这是一个难题,但是也是一个非常重要的课题。我请在座的老师和同志们看看这一张,1980年我们跟华罗庚老师一起照的照片里头,哪一个是我,如果他猜得出来,那么我们交一个数学朋友。这是华罗庚老师跟中科大的他培养的学生们在一起,都是华罗庚老师推广应用优先法、统筹法的应用数学的骨干,我们讲课当中一会还要讲到华罗庚应用数学成果。

刚才我讲到了,华罗庚把数学能够讲到一个什么样的程度?普通工人、农民都能够掌握。大数据的一个核心思想,就是把数据变成知识,知识变成行动。华罗庚当年推广优先法、统筹法,他带领学生们向工人、农民普及优先法、统筹法,就在各个经济领域完成了一大批课题,这些课题给国家带来了重大的经济效益。他就是把知识变成了工人、农民的行动,同时这些行动又成了国家的经济效益,这就是我今天要讲的一个非常重要的观点。

什么叫大数据?在这样的一个思想下,我们看大数据的技术,它的难度、它的前景以及跟我们现在的生活是怎么密切联系的,我们怎么运用它?所以这个参会指南里头有一段话:“当我们看到的、听到的、想到的一切,包括数字、文本、照片、图像、视频、声音等等,一切都会表达为数据的时候,我们的生活就已经进入了大数据时代,一切都是数据。大数据是认知世界客观规律的宝库。”这样的一个思路,大家就能够比较浅显地理解,我们大数据时代是怎样的一个状态。所以我今天要讲的题目叫做:大数据战略与华罗庚的数学智慧。因为我在这里面举的例子,都是华罗庚教授的例子。华罗庚教授可以说代表了我们国家数学的智慧的一颗灿烂的明星。大家知道,在初中三年级的时候,华罗庚的数学还不怎么样,但是他孜孜不倦地、契而不舍地钻研数学,数学是他的兴趣,所以他发表了论文以后,被清华大学算学系的系主任熊庆来选进来,招到了北京,到了清华大学算学系当一个图书管理员,当一个庶务员,从此他开始跟着那些科班的大学生一起学数学,最后他学的数学跟在数学上的创新创造超过了科班的学生。我特别强调这点,学问不论身份,学问看你的天分,更看你的勤奋。华罗庚数学智慧给了我们很多启发,对于我们今天的大数据时代,华罗庚是超越三、四年的先知,大家应该从我的报告当有所体会,然后按照华罗庚的数学智慧来教好我们的学生,你应该会有巨大的收获。跟课本上写的顺序,我整个做了一些调整,讲的是五个方面,一个是大数据如何影响我们的生活跟工作?首先把大数据跟我们的生活联系在一起;然后,突出要强调大数据战略的由来?这个战略是美国总统顾问委员会提出来的,我们必须警醒了,如果我们在大数据战略上落后,那么我们中国在农业社会上转向工业社会的转变过程当中落后挨打的历史教训,今天必须引以为诫;再讲什么是大数据,把基本概念跟内涵跟大家做一个交代;然后看华罗庚“理数据、策发展”的数学智慧;最后提出一些思考。大家来共同适应大数据时代,我们的创新跟创业的发展。

大数据究竟如何影响我们的生活跟工作?把人类的社会进程分成各个阶段,我们看到人类社会从游牧社会—农业社会—工业社会—信息社会。今天我们是生活在信息社会的时代,我们的社会经济是怎么发展的?我们从游牧经济—农业经济—工业经济—知识经济。我们今天是在发展我们国家的知识经济,在这样的一个社会形态里头,大家身上都可以找一找你的生活是怎么跟大数据联系在一起的。我们现在讲课是用笔记本计算机,我们用手机、用数码相机,人人都在拍照;我们都使用二代身份证、使用无线网络、使用条形码、二维码;使用银行卡、医保卡、市民卡;使用打车软件;使用网上订票、网上购物……所有这些全部都是大数据时代跟我们的生活密切联系的,这样的一个要素。大家看到人类生活活动的大数据,这就是网络空间的大数据。在这个大数据里头,大家看到淘宝网,马云的淘宝网;百度,我们要查很多知识一上百度都可以查到;还有google,我们的地图用google来导航开车;以及facebook、twitter等等,这些网络空间就构成了大数据的空间,它跟我们的生活、我们的学习、我们的活动密切联系。我们再看看在现在这样大时代的每一天,有多少大数据?可能我们每一个人相关的大数据有限,但是全球60亿人一天有2940亿封电子邮件在网络上奔跑;有100TB数据上传到facebook。什么叫做TB数据,一会儿我们要讲,究竟有多少,有多大?我们现在一天要拍出2亿5千万张照片(全球的人);我们要发布2亿3千万条tweets。大家可以看到,现在每天的总数据量为35ZB,什么叫ZB等会儿再说。这么多字节的数据每年还在以60%的速度增长,所以人类生存的这个大数据时代不以我们存在、认识,而在那里大量积聚,如果我们的思维、我们的认识跟上这样的一个时代,我们就会被并拢化,我们就会成为知识的一分子。这是从生活的角度来看,我作为一个自动控制、控制论的博士生导师,我关心我们国家工业的发展,现在的世界工业的形式如何?大家知道,1840年,中国处在封建社会、农业的经济情况下,西方已经是发展了工业经济,西方在工业经济就用它的大炮、军舰敲开了我们国家的大门。在第一次工业革命当中,中国落后了,所以中国被打败了。今天又是一个新的时代开始,这个时代中国能不能赶上工业革命的发展,这是一个非常重要的问题。大家看到,第一次工业革命叫机器革命。蒸汽机的发明与机械化,从手工业发展为大规模工业生产,它的科学基础就是当年蓬勃发展的微积分。我特别强调一个,微积分地第一次工业革命的贡献,大家也都知道这个数学的重要性。今天我们又一个新的科学出来了,叫做大数据科学,大数据也同样引领着今天第四次的工业革命。第二次工业革命是能源的革命;第三次的工业革命是以计算机与原子能为代表的革命;第四次我们说现在,中国、美国、德国、日本、法国这五大国为代表的这样的一个新工业革命是怎样展开竞争的?德国它提出了一个非常响亮的口号,叫做“工业4.0战略计划”。它要建设未来的智能工厂,这个工厂是具有人类的智能,是一个智慧工厂,是自动化生产的工厂。美国提出来的口号是“再工业化、制造业复兴、先进制造业伙伴计划”。我们中国提出来的口号是“工业化与信息化的两化深度融合”。李克强总理的报告里指出来——中国制造2025。这是我们国家在2015年提出来的十年后的中国奋斗目标,它是实现网络化、数字化、智能化;日本提出来的口号是“再兴战略”;法国叫做“新工业法国”。所以大家看到,在这个大数据时代各国的工业发展都面临着新的挑战。

从生活到工作,大数据影响着我们这一代人,我们这一代人如何应对,就需要学习。这个学习站在什么高度,如果是一般的课题,只是数学家的事情,那么数学老师去教就行了。现在大数据是全社会的事情,到底把它提高到一个什么样的战略高度,我们看看美国的总统顾问委员会是怎么说的,我们当一回美国总统,来看看总统顾问委员会怎么样向总统跟国会提出它的报告。2010年,也就是5年前,美国总统科学技术顾问委员会提出的报告当中指出:“以机器学习、数学挖掘为基础的高级数据分析,将促进从数据到知识的转化,从知识到行动的跨越。联邦政府的每一个机构和部门都需要制定一个应对大数据的战略”。这儿我把大数据的英语词汇也列出来了(big data),说起来非常朴素,跟我们说大数据三个字一样非常简单,但是真理往往是最朴素的,大数据所包含的内容那是万千世界。在这儿大家注意到了,这些新时代的名词,大家不是学数学、计算机的,因而会感到生疏,什么是机器学习?什么是数据挖掘?这样的一个内涵,我告诉大家,这就是计算机系的本科生课程。机器学习是一门课,数据挖掘是一门课,高级数据分析在数学系更是一门非常深厚的课。这儿还要注意,这儿提出来的是从数据到知识的转化,也就是说今天我们要做的事情是从数据怎么样变为知识,知识再怎么样变成行动。我刚才讲了,华罗庚能够把他的优先法、统筹法这个知识变成了工人、农民的行动,变成了实际的经济效益。而不是纯粹数学家在数学象牙塔之中的研究。我们今天研究大数据,再也离不开活生生的社会经济的发展。

请大家思考这些问题,不必回答,但是如果这些知识能够多多少少有所了解,将来若被学生问起“什么叫做机器学习”也不会哑口无言,你就会给他一个最科普的回答。什么叫做机器学习,一会儿我们会讲。什么是机器学习?什么是数据挖掘?什么是高级数据分析与知识发现?美国总统顾问为什么要把大数据提高到战略高度?关于这个问题我曾经接受浙江省科技台采访的时候,我就告诉他了,诺登干的事情、美国的FBI干的事情就是搞大数据的分析。从大数据里面掌握各国首脑的动向和他的思路,从大数据里面探索到拉登的藏身之处,最后变成消灭拉登的实际行动。在这个高度上看问题,大家就可以知道了,大数据问题是一个战略问题,而不仅仅是数学知识问题。我们在座的肯定有很多人都在使用微信。“使用微信的人、网上订票、采购的人,你已经不自觉地跨越进入了大数据时代。你是否了解大数据的基本问题与大数据战略的重要性?”我们必须思考,作为老师如果不思考这个问题,你就会愧对你们的学生。现在我们看过那么多大数据的著作,它引领学术思想变革的两个特征是什么?我做了一个归纳。第一个,从数据到知识,这就是高级数据分析所要做的事情;第二个从知识到行动,这就要求我们求是、创新,这就是浙江大学的校训。大数据核心技术与价值体现在什么地方?大家可能有很多人在炒股票,炒股票看到的都是数据,你关心什么?关心的是数据的涨还是跌,你炒股票的经济效益就在涨和跌当中、操作当中你得到了。如果你错过了时机你就亏了,你没有把握住机遇,你想赚都赚不到了。所以“预测未来、谋划发展,把握机遇、抢占先机”。希望大家好好体会,跟大数据结合起来,你就会体会到大数据的价值。我们说大数据时代要有它的社会基础,如果没有物质基础、社会基础,大数据时代是不会来临的。3、4年前我们也称信息社会,但是那个时侯不是大数据时代,因为很多条件还不具备,特别是信息采集、数据的采集、数据的流通,我们还不能把握。但是今天不同了,我们今天每个人都可以处理数以亿计的数据。所以信息技术、网络技术、计算机技术的发展带来信息采集、存储、传输与计算的飞跃;数学与智能计算技术的发展(大家看到,前面是属于计算机与信息技术,第二条就是数学发展也跟上来了。有很多智能计算,过去算个200年的这样的一个问题现在就是一眨眼的工夫就算出来了。一会我们还看到我们的计算机现在全世界上最快的计算机),高级数据分析带来预测与决策、管理与控制水平的新发展;然后从我们国家来看,我们国家的工业化、信息化的两化深度融合,城镇化、全球化的深度发展就带来了今天大数据时代的全面展开。

大数据都有哪些应用领域?而不是仅仅是数学的事情。现在的商业交易,超市的二维码、条形码。如果没有条形码,我们说超市就开不下去了,因为价格计算根本就适应不了要求,只有有了条形码和计算机,我们说超市才有了生命力。电子商务同样积累了大量的数据,大家知道前年的时候李克强总理跑到浙江,首先去看了马云他的大数据,从马云的大数据里面我们国家的问题就可以掌握浙江省的进出口;然后在工业上各种传感器采集数据,卫星探测数据,这是工业领域的;然后在科学领域的模拟数据,理论模拟与试验数据,这些就涉及到大量计算数据;以及多媒体文档数据,网络文档的数量与访问文档的人数剧增。所以我们从众多的大数据著作里面,就可以归纳出大数据的核心启示。第1个大数据带来了“社会生活、工作和思维的大变革”。大数据这一本厚书就突出强调了:大数据带来了大变革。第2个大数据技术的核心价值在什么地方,拿了那么多数据来,就数据谈数据毫无意义、毫无价值,但是数据一旦变成“预测未来的手段、谋划发展的决策的依据、能够把握机遇、抢占住先机”,你的经济价值,你的效益就来到了,炒股票的人一看到这16个字心里就明白了。讲完这些内容跟价值,大家对大数据有所了解了,后面我们再来讲大数据的大学问。这个要学要问我们才能把事情搞得明白一些,什么是大数据,什么是大数据技术,这个内容就比较丰富了。

大家看到,什么叫大数据?过去我们说一个数据很大,怎么去形容它呢?小学生都会,叫做海量数据、天文数字。为什么叫天文呢?天上的星星你要衡量它的距离,一说3个光年,3个光年什么意思?就是3*10的7次方*30万公里。这个是多少万千亿公里,大家就知道了。所以天文数字是一个庞大的数据,像海一样宽的数据所以叫海量数据。这些数据在今天就不能模模糊糊来说了,在大数据时代我们要搞清楚这个数据有多少分量,我们要掂一掂。我们使用计算机输入一篇文章,这篇文章可能有多少K,所以最开始你接触的现在小学生都知道了,1K、5K,这样的一个K,K是什么?2的10次方。大家去拍照片,一张照片拍下来,这个时候你就知道了,照片的这个数据就不像课文那么少了,只是几个K,它是K的1千倍,就是多少M了,所以一张照片5M,就是2的20次方。这个还不够用呢,拍了几张照片相机就放不下了,所以现在的芯片,一个就要2个G,10个G,100个G,这个又是M的1千倍;跟着又到了T,这个是G的1千倍;又到了P,P是T的1千倍。所以在二进制作为我们今天的时代基本的算术,如果小学生只教二进制,不教十进制,那我告诉你,你的小学生落后于时代,必须赶紧跟他讲什么叫K,什么叫做二进制。大家这儿要记住,哪个数学老师背得快,那么从K、M、G、T、P、E、Z、Y,今天全世界的信息量加起来用Y来数就够了。再来看看一个典型的数量,我们现在中国银河Ⅱ计算机它的计算速度是多少呢?如果说它是33千万亿次每秒,那么你听起来就太费劲了,又是千又是万又是亿,千万亿,全部都用上去了,所以你的单位全用上去了,是33千万亿次,每秒钟这么快的运算速度,世界最快。那么我们换一种说法,它的运算速度是33P,大家一听,这个很简单嘛,很好记。那么世界最快的速度在你这儿三个数字就反应了。再来看看现在60亿人每一天说的话加起来是多少数据量呢?是5个EB。5个EB在哪儿?我们才说比这个千万亿还高1千倍。2013年中国的数据总量为0.8ZB,是2012的2倍,翻番了,所以说现在的这个数据量每年都在翻番,我的硬盘里的数据量也是每年翻番。再来看看我们生活当中城市交通数据中心,杭州市。建立交通数据中心以后,所有杭州的交通路口的监控,那个摄像头,拍下来的汽车的照片。过一辆车拍一张,杭州市拍了多少张照片呢?70万张。这个是交通数据中心数据,这70万张照片是多少数据量呢?1天的信息量是3.5TB,一年信息量是1.3PB。大家可以看到,这么多照片的信息量在我们的口里头,现在很容易描述它了。很多超大型企业,像上海的宝钢,它的庞大数据中心里面存储的数据,也只是用PB数量级来衡量。所以大家从刚才的数据量可以看到,现在二进制已经成了大数据时代衡量数据量的基本单位,而不是十进制。用十进制太啰嗦,用二进制衡量非常简洁。大家都知道,数学学好了以后用简洁的公式就可以描述非常复杂的数学结论,这就是我们要推行二进制这样的新的数学基础的一个前提,大数据时代如果谁不懂得二进制那么他就落后了。我查阅了一下,在二进制这个问题上我们中华民族是有着全世界人类的最光辉灿烂的曙光。我到甘肃天水去拜谒了祖先的伏羲庙,庙里面有原始时代的伏羲的塑像,他手里握着八卦。这一张更好看一点,我们用他来看看。在这个我们中国人最早使用二进制,用二进制来描述我们古老的数学,这样的一个历史是全世界仅有的。华罗庚在给我们上数学课的时候讲到,人类为什么要有数学,为什么是十进制?他在课堂伸出两只手,因为人类是有10只手指,所以最开始用的是十进制。在我们古代蛮荒时代,那个时候叫接神祭祀,那个时候也是用十进制。为了反证如果人是长1只手指,你会用什么进制呢?我们的老师就说在印度尼西亚的爪哇岛上,就有一个土著,那里的人长了11只手指,所以那个地方用十一进制来数数。所以十进制也好、二进制也好,十进制是由人的形体所制定的,但是二进制是由人的智慧来决定你有没有这个创造。我们的祖先伏羲,他用阴阳八卦创造了我们古老的哲学,给我们留下的智慧,大家都知道:太极生两仪、两仪生四象、四象生八卦,这是4千年前的事情。到了3千年前,周文王被关在羑里,他就把八卦生成了64卦,这就成了周易。所以我们中国人3千多年前的哲学体系就是以二进制为技术单位。所以可以看到,今天的大数据时代应该说凭我们中国人的智慧是很容易接受的,而且可以做成我们重大贡献的时代开始了,因为我们的老祖宗就是最早使用二进制的。今天我是不是在这里吹牛呢?大家看看,1703年Leibnitz,这个大家都知道,他发表的一篇论文,这个论文的名字是什么呢?《关于仅用0与1两个符号的二进制算术的说明,并附其应用以及据此解释中国古代伏羲图的探讨》。我们祖先的伏羲八卦图,德国的数学家用二进制去探讨它的奥秘,这样一个奥秘跟今天的管理科学、数学都在紧密地结合,这是西方首次用二进制来解释伏羲八卦图,二进制是大数据时代文明的基石,是中华文明的又一原创性最早的发明。我数了一下,中国四大发明,有物质存在,非物质文明里面第一个发明我现在推举二进制,中国人的八卦,这个非物质文明。四大发明不论是指南针、火药、造纸、印刷术,这四大发明都是物质,唯独二进制这个发明现在还没有人来推荐,大数据时代的老祖宗是谁?是中国人。

再把周易的“太极生两仪、两仪生四象、四象生八卦”用现代科学的决策树来描述,这个大家就可以看到,更能够非常简洁的来描述八卦的决策过程。有了这样的一个原始的思考以后,我们就在原始的思考基础上来进一步展开我们的思路。我们就能再进一步地思考,现在我们研究的大数据有一些什么特征?这个数学老师也应该要讲得清楚。它有五大特征:Volume;Velocity;Variety;Value;Veracit。它是说明大数据一个是量非常大,然后数量就呈暴发式地增长;第二个数据产生速度极快;第三个数据属性繁杂(大家知道,有哪一些是数据?现在我们说包括文字、图片、视频、声音等等都是数据)。

大家就不要去追究每一个数据是真还是假?大数据就在它的数据分布规律里面,把这些离群数据另作处理,而把相关的数据找出它的规律,成为我们的新知识。

这一个图大家看到了,是青岛海尔股票曲线。这个股票的发展曲线我们说炒股票的人不是看它的1个数据、1个数据是多少,而是看它的整个趋势。这是第二个方面,大数据五大特征。

第三个我们看,大数据概念的新内涵。这个新的内涵大家就注意到了,从数据到数据仓库,过去我们每一个人有一台笔记本就可以建立自己的数据库,存储你所要用的数据。现在要是每一台计算机都这样去建立你的数据库,很显然你的数量太少了。现在我们要从网络上作为我们的数据库,就要用云计算来实现从远程的数据仓库调用我们所需要的数据。从数据到数据库再到数据中心,一步一步地数据的发展,一个城市的数据中心,恐怕我们这样一个体育馆这么大的地方,像上海宝钢的数据中心,就跟我们底下这么大了,所以大家可以看到,服务器、数据中心有多少台在这里面这样并列着。另外大家再看看,数据类型的复杂性,从原来的数字、数据库到数据流到数据序列到文本到空间时间到网络,等等。前些天我出差,看到微信上的一个短片,我以为跟看资料一样,一页一页翻过来用不了几MB的数据,结果看到一个奥巴马的消息,10秒钟我赶紧停下来,看看我用了多少流量,100多MB已经没了。所以这个视频流的数据量远远超出我们静态的数据量,所以现在的数据不仅有结构性的数据,而且有半结构性的数据跟非结构性的数据,大数据不仅仅数据量级大,而且包含数据类型复杂。在这儿我还举一个例子,马航MH370飞机失事以后从卫星照片搜索到一个飞机失事的照片,这已经过了一个礼拜才找到,就是说从卫星里面找到我们要的信息是多么难,如果靠人云找的话。那么就用计算机来找,这就是计算机学习。怎么样找数据成为我们以后要研究的一个重大课题。怎么去研究这个数据?我们在大数据挖掘跟知识发现有一些基本途径,一个叫数据分类、聚类。大家都知道了,分类出知识,这个非常简单,在中学里面,各种不同的植物把它分成一类,这类植物就可以变成一个分支的知识了。同样的今后的这些大数据你怎么样对它进行分类,进行聚类,这就是我们非常重要的工作。然后怎么样进行离群点分析、关联性分析、相关的分析,这些关联分类也是非常重要的;比较汇总;差异判别;趋势与偏差分析;模式发现;总结新知识。这些都是大数据今后要做的工作,然后大数据根据不同的应用对象,有商业、社会、银行、电信、政治、情报、选举、科学与工程技术、日常生活,无处不用。这就是我们进行大数据处理的,分析高炉冶炼过程规律这样一个可视化的图像。这就是大数据汇总出来的数据表,当然这个只是科学计算里面的大数据分析。

什么叫数据挖掘?在大数据里面,数据挖掘技术,进行高级数据分析,这是一项非常重要的工作。这项工作当然就非常专门化,是计算机系数学系的,至少本科生以上,而且是硕士生博士生要做的研究工作。所谓的数学库中知识发现(就是KDD),它需要哪些知识呢?需要统计学的知识、需要机器学习的知识、需要模式识别的知识、需要可视化技术。因为大数据复杂处理的结果最后还要通过人的认证,人的认证当然要通过可视化图像,得到最后的印证。所以大数据发现知识就像是金矿的开采,犹如冶金提炼过程微量元素,是基于高级数据分析的结论。最终这些知识发现都归到高级数据分析这样的一个工作里面。在这儿大家就看到这样一个现象:过去的是数学系的毕业生留在高校当数学老师、中学小学老师;现在数学系的毕业生,如果你是学了大数据的话,银行要你、证券要你、IT也要你,各个重要的跟数据打交道的部门现在都要数学系计算机系的毕业生。

什么叫机器学习?这也是我们必须要搞清楚的。它是一个计算机软件,学习软件,而不是特殊机器。什么样叫学习机?现在用不同的数学方法编出来的软件被赋予名称,叫不同的学习机。比如说:支持向量学习机SVM;相关向量学习机RVM;神经网络学习机;迭代学习机,等等。用这样不同的数学方法让计算机自动处理数据,最后结果或者得到相关的结果,这些就是由计算机来做我们人做的事情。大家知道,一个人跟成千上万的数据打交道就已经饱合了,如果让你跟上亿的数据打交道,就会受不了了。可能你会神经衰弱,所以真正的上亿的数据处理一定要靠计算机,它是不会疲劳的,所以计算机作为我们大数据分析的工具,你必须要掌握它。

最后,我前面讲的,数学上的算法也在与时俱进。1961年、1962年我在北京学数学的时候,讲到这样的一个例子。天气预报的方程要用当时的计算手段去算,算出几年以后才能够把第二天的天气预报数学计算出来,这样的气象预报还有价值吗?肯定是没有价值了,这是那个时候的难题。今天我们的物流有那么多快递公司,那么多邮包怎么样送,怎样以最快的速度送出来?如果用老的计算方法也是要很长的时间才能算出来,也是不能适应生产的要求的。所以20个城市的物流的派送,用现代的智能优化算法就可以很快地计算出来,原来200年计算结果现在可以适时地得到这个结果。所以像这样的数学智能优化算法它是必须根据大数据时代的发展才能够施展它的英雄用武之地。现在的智能优化算法还必须知道的有模糊算法、神经网络算法、遗传算法、禁忌思索算法、模拟退火算法及其混合优化,等等。这些当然了,因为这是我教的博士生的控制论的课程,一个课程就讲了一个学期、两个学期,所以大家只要知道有这些应用算法是能够适应今天大数据处理的需要,它要解决的是大量的函数优化问题跟组合分类优化问题。数学建模,这个大家都知道了,我就不多说了。数学建模里面,现在大数据时代因为数据量非常大,数学模式非常高,所以怎样降维是现在数学里面要做的一个难题。像多元回归啊、主元素分析,等等,这些都是专门的数学方法要处理的,以及大数据的统计,现在小学也开始学统计,这是很好的。大家从这儿就可以看到,随着时代的发展,数学在不断地把儿子、孙子生出来,原来统计学科作为数学一级学科下的二级学科,现在我们国家已经把统计放回一级学科了,同样的现在数学里面有一个大数据科学这样的一个分支,很快地大数据分支要成为一个独立的学科。

大数据的发展趋势如何?现在大数据都还是每一个人可以做的事情,很快的大数据的发展就要从上个世纪90年代开始的数据库,变成后来的数据仓库,变成后来的数据中心,以及从2015年以后就要成为数学产业,就是说大数据要成为一个产业,它跟各行各业都密切相关,就要为各行各业带来效益,这就是大数据发展的趋势。大家看大数据产业涉及的部门,商业、社会、银行、电信、科学技术、日常生活。各个产业都是需要大数据的产业的人帮他进行设计。比如说设计一个股票预测的软件;设计一个物联网的物流派送方案;设计一个家庭生活,怎么样用大数据全部联网起来。这样一个产业就是新兴的产业。我查了一下国外举的大数据的案例,很多。大家看:贝尔大西洋公司运用机器学习,进行高级数学分析。由计算机指派技术人员处理解决问题,比经验指派为公司节省开支1千多万美元。大家就可以看到机器学习可以做调度、派送;大家再看看美国万国宝通银行,对于贷款的客户进行分类,分成三类,这三类人接受它的申请、拒绝它的申请,跟评审,是否接受它的申请。对第三类运用机器学习建立规则,比专家判定、预测的准确率由50%提高到70%,大家就知道,银行贷款很怕这些烂账的发生,由计算机来处理这个贷款的用户信息的以后来提高预测的准确率,它要贷出去钱还要挣钱,贷出去成了烂账就亏本了,所以这儿的经济效益就表现出来了。像这样一些国外在服务业应用的例子很多,但是在工业上应用的例子不多。讲到这儿,交待完了这么多的复杂的、交叉的、多学科的内容以后,大家就应该意识到一个大时代的新兴学科,数据科学就要诞生了,这儿先给大家透露,因为这还是学术界讨论的问题。但是很多院士已经承认,由于计算机科学、信息科学、数学的全面发展,一个交叉的新兴学科——数据科学,就要诞生了,这个诞生是什么背景呢? 80年代末,大家都知道,高技术的核心是数学技术,这个是美国人先提出来的;到了90年代是数据挖掘技术蓬勃发展;到21世纪以后,互联网技术跟信息自动采集就密集的发展了。所以从数据采集到数据库创建,到高级数据库系统(数据仓库),到数据中心和数据产业——以数据为中心的计算机群的云计算为其主要特征。现在是计算机组成一个群,里面存储数据,我们从计算机群上去计算,你在家里,计算在天上,所以叫做云计算。大家会碰到很多新名词,什么叫云计算?是跑到天上去吗?不是。它是有一个数据中心,数据中心存了大量数据,那里有高级计算机可以处理非常复杂的计算,你在自己的笔记本上,发出你的计算要求跟命令,所有的计算都在天上做,做完以后结果回到你这儿,你得到了计算结果。大家可以看看,这样一个计算的能力的提高就不知道比原来快多少倍了。所以现在有一个说法,大数据有三大资源,这三大资源是什么呢?一个是水、一个是能源,第三个就是数据。这个数据对未来的人的生活就是一种资源了。

第三部分,我再讲讲华罗庚的数学智慧:理数据,策发展。这是华罗庚的一句话里面摘出来的。前面我已经讲了,大数据的核心价值在于它能够预测未来、把握机遇、谋划发展、抢占先机。所以这个“策发展”非常重要,它的作用就是理数据。这个工作怎样来做?华罗庚在30年前就指出来了,这个是贴近人民的数学大师,华罗庚。我先举一个例子,这是我们1962年在北京读书的时候,华罗庚讲课时讲的一个例子,当时前苏联发射洲际导弹,划定了太平洋的一个公海区域,有4点,P1、P2、P3、P4组成的这样一个网格,要求公海上的船只避难,你要到这个地方去被我洲际导弹打了自负责任。这样一个豆腐干大小的新闻公报发表在人民日报上,华罗庚看完以后根据这样的几个数据就把这个火箭的发射地点给算出来,从发射地点到四面区域是12000公里,这样的一个距离。大家要知道1962年的时候,间谍卫星还不多,要知道洲际导弹的发射点、发射地这是一个高度的军事的秘密,军事秘密用数学给它算出来,就从公开的信息里面,这就是数学智慧。所以我们在听华罗庚讲数学课的时候,有的数学家说数学很好玩;有的数学家说数学是个人的兴趣,但是我们接触华罗庚的时候,他的数学爱好跟兴趣很多是为国家经济建设服务的,非常有智慧。华罗庚在1981年的时候总结出来的,应用数学36字经,讲的是什么呢?“大统筹、广优选、精统计、抓质量、联运输、建系统、理数据、策发展、利工具、巧计算、重实践、明真理”。前面的30个字10组学习方法,后面两组字是检验成果标准,是重实践,而不是讲数学理论有多高深。1981年华罗庚所总结的国民经济各个领域的应用数学方法与途径,反映了他对大数据分析的科学预见。一个数学家总结出来的数学方法,能够写到党的十七大报告当中,作为一个科学发展观的组成部分,我这儿也列出来,大家可以好好地思考一下。第一要义是发展,核心是以人为本,基本要求是全面协调可持续,根本方法是统筹兼顾(这就是统计法),促进国民经济又好又快发展(这就是优选法),提高自主创新能力,建设创新性国家。这里面科学发展观包含着系统工程,统筹优选,这样的一个科学方法。

华罗庚统筹、优化,10个方面的运筹帷幄覆盖大数据应用,10个方面的优选论述,由于时间关系,就不一一地作解释了,这个要讲的话要讲一个小时,大家知道这10种方法、10个方面都是要展开应用的。再用一个案例,来看看华罗庚的“理数据、策发展”,他的数据挖掘技术的重大成果跟国外的相比,价值如何?1988年的国家科技进步一等奖,它的题目是“完善提高攀钢提钒技工艺术”。什么叫做钒?做大炮、做坦克,需要合金,这个合金就是钒合金。现在我们有高铁,大家坐高铁感到非常惬意。高铁的钢轨里面就含有钒。这样的一个技术成果,大家看看从哪儿出来的。这就是攀枝花钢铁公司,叫做“金沙江畔的明珠”。这就是高炉炼铁出来的铁水;这就是提钒车间的提钒。现在的攀枝花称为我们国家的钒钛之都,因为它出产的矿里面含有稀有元素“钒”和“钛”。钛,做波音飞机就要钛合金;钒,做坦克大炮就要钒合金,所以它们都是战略物资。大家看,这样的一个钢铁公司在它建成之前是这样的一块山头,要在这样的山头之上建成一个钒钛之都,这是怎样的一个状态。20年后,这就是它的照片,再来20年后,30年后,一共50年,建成了我们国家的钒钛之都。这样的一个难题是什么意思呢?要把铁水中含量0.3—0.5的稀有元素钒提取出来,氧化率达到90%以上的国际先进水平。这个时候,工程师说数据杂乱无章,毫无规律,怎么办?华罗庚的数学智慧就告诉我们,规律不稳定意味着还存在未知数。我们就要去找未知数,所以通过一系列的高数据分析找到了钒氧化率的生产规律。这些就是可视化的图表跟时间序列的分析等手段。之后又发现了新的工艺参数,1978年到1986年,为了一个国家钒钛之都的建设,我们国家的副总理方毅跟中科院院长8次上攀枝花。方毅指出,通过8年攻关,钒的总收率提高,产量大幅度增长,钒资源得到了较好的回收利用。1978年末,建成雾化提钒车间,投产后继续攻关,采用数学方法实现优化操作,使钒的氧化率提高到90%以上,达到了国际水平。所以大家就可以看到,我们的生产工艺怎么样通过数据分析找到生产规律,这就是知识发现过程,知识发现之后又变成一个生产实际,生产验证当中又发现一个新的参数,这个攻关取得了成功。方毅这儿给我们提了两句诗,这是陶渊明的诗“及时当勉励,岁月不待人”。如果大家是对诗知道比较深的话,知道陶渊明前面还有两行诗“盛年不重来,一日难再晨”。这是华罗庚接见攀钢领导。这是1985年也就是华罗庚逝世之前的三个月,我们在郑州开会,跟华罗庚一起拍的照片。这是国家科技进步一等奖的金字奖章跟证书。在其他地方浙江大学数学系又进行了高炉冶炼专家系统这样的一个大数据挖掘工作。大家可以看到,一个生产复杂工艺操作的工作要这么多的子目录,它的大数据的含量大家就可以理解了。这是省科技进步一等奖的证书。这就是整个核心技术跟它的工作的内涵。

讲完了这些,我们就可以看到,大数据并不是从天上掉下来的,我们已经在进行大数据的各种科研工作和学习,所以现在大家重新认识大数据,就提出大数据战略的若干思考。第一个大家要提高对大数据战略的认识,看到了它带来的思想观念、社会生活和工作思维的大变革;第二个形势,形势必然,你培养的学生要适应社会的需要,要适应现在的工业化、信息化、网络化、自动化的需要,必须了解大数据;第三个,大数据的核心是预测未来,谋划发展,把握机遇,抢占先机。学好数学,教好数学,是大有作为的。

高级数据分析及其展望,我这里考虑到是太专业化的知识范畴,所以只能点一下所涉及的内容。如果考虑到我们的小学教学如何跟大数据、跟高级数据分析接轨,昨天晚上我可是花了一番脑筋想来想去,怎么回答这个问题。我想第一个,二进制的概念,小学生应该有,而且可以接受;第二个小学生很会照相,通过手机、照相机,这些活动让小学生建立起数据的概念。就是说老师讲课,讲了多少K,拍照,拍了多少M,这些知识小学生应该是能够接受的。高级数据分析里面很重要的,分类产生知识。手机就是大数据,这些小学生还是能够接受得下来的。我想来想去,认为,如果我们小学老师能够把小学的数学教成和讲故事一样,让学生喜欢,那么你就成功了。但是我这儿还要指出来,我们的大数据跟国际上的先进水平的差距是客观存在的,这是我们必须奋起直追的原因。这个差距第一个:加快数据仓库与数据中心的构建。国外一个大学,像美国的一些著名大学,它就构建了数据中心,全世界的大学生、研究生写毕业论文,到它的数据中心里面去取数据。所以数据就是资源,我们抢占数据资源的高点就是要建立数据中心,这个我们国家现在落后了一大步。第二个,联机数据分析与知识的深入挖掘。这个现在有很多工作是可以做的,但是现在做的还不够。第三个是机器学习与智能优化算法的设计。大家想想这么多的数据靠人分析是不可能的事情,所以必须编一大批软件针对各行各业的实际需要,然后由机器来学习,这个工作是很深入的。最后一个就是李克强总理报告里面指出来的,是加快发展“互联网+”产业,即大数据产业。我们要尽快发展起来。

关于大数据时代,数学创新有什么建议?我们说数学学科正在经历着从经典数学—应用数学—系统工程—统计学—数据科学的不断裂变、交叉融合式的创新发展过程。对于这样的一个过程,数学学科面临着新的挑战、机遇和创新。数学工作者面对大数据的机器学习与数据挖掘等高级数学分析的时代任务,需要不断渗透到金融业、物流业、制造业以及社会学、自然科学、生命科学、医学等领域、去创新各种各样的智能优化算法。这个智能优化算法现在发展到什么程度呢?医生的一个免疫学变成数学的一个算法叫做免疫算法;生物学家的一个遗传学变成数学算法叫做遗传算法;神经科学家的神经学的研究变成数学算法叫做神经网络算法;法律工作者要回避要禁忌的这样一个法律规则变成数学算法叫做禁忌数学算法。所以大家可以看到,各行各业的这些规则、规律都变成数学算法,我们小学教的叫做四则运算的算法,这是最古老的算法。今天如果你只会四则运算,我们说中国小学生的四则运算远远超过美国小学生的四则运算水平,这是很多出国的老师带着小孩进了美国的小学以后最明显的一个感觉,中国小学生四则运算水平非常高,但是我们说这只是ABC的A最基本的算法,所以给学生灌注一个新的思维进去,而不只是停留在四则运算上。对于其他学科交叉规律的认识跟新的算法的产生,比如说一群算法,哪一群?比如说例子算法,等等,这些都是新的算法。

更新:2017/9/10 4:57:06 编辑:fengyefy
评论共 0网友评论
暂无评论
用户名  密码 请输入用户名和密码
网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述
声明:本站是免费向教师学生校长家长提供教育教学资源的公益性教育网站,除“枫叶原创”系站长创作外,所有信息均转贴互连网上公开发表的文章、课件、视频和艺术作品,并通过特色版块栏目的整理,使教师学生校长家长方便浏览自己所需的信息资源,达到了一网打尽的惜时增效之目的。所有转载作品,我们都将详细标注作者、来源,文章版权仍归原作者所有。如果您认为我们侵犯了您的权利,请直接在文章后边发表评论说明,我们的管理员将在第一时间内将您的文章删除。
头条推荐

美国老师三问清华附小:请不要让小学生「上大学」!

这篇来源于清华附小2012级4班的微信文章《当小学生遇见苏轼》里介绍,六年级的学生,跟着《中国诗词大会》评委康震品读苏轼的作品,对苏轼的3458首词进行大数据...详情
本类推荐/最新更新
更多...视频聚焦
更多...枫叶原创