很少写读书笔记,以下是看了“数据之巅”后的随笔。
要了解人类使用数据/大数据的历史,避不开美国这个世界第一强国。全书以新的视角,从数据意识到数据使用和发展,结合美国从独立到内战到崛起各个期来讲解。读起来有种看喜欢的小说时忍不住要多看点的心理(虽然我几乎不看小说)。作者涂子沛,此书至少比前作“大数据”要值得细看一点:
美国参众两院根据人口普查结果分配议席,南北战争时期谢尔曼将军利用普查数据制定无后援情况下的“向大海进军”路线,成本收益分析在公共项目中的使用,统计思想指导的质量管理帮助日本在二战后迅速崛起,美国的信息开放程度令人赞叹。
早在1861年,美国普查局的黑奴分布图就在地图上用颜色深浅来标明黑奴密度分布,数据可视化在150年前就有了。这样的图放在今天国内,也可能是少数派的使用。
美国在建国之初,总统华盛顿,杰斐逊就致力于培养有知识的公民。培养方法一是提高识字率减少文盲,二是推广数字教育减少“数盲”,提高公众的思辨能力,使其学会独立思考。第二点太NB了,让民众有独立思考的能力是几千年来中国各朝帝王绝对反对的事,其遗风影响也未能随着新中国成立而消去,哪怕改革开放三十年,也还是随处可见大批愚民。不过,欣慰的是,社会在进步,知识和信息的开放是历史潮流。几年前人们砸国人开的日本车,现在应该没有了吧,有人去KFC扯个横副抑制也只是沦为笑柄,还要着治安拘留。
大学时对我影响最深的课是一门选修课—-“数学是什么”,总共就七八个星期天的下午,可以说对我影深远。第一堂课老师就说“本课程不适合没有独立思考能力的人”,后面讲到人类文明的起源,哲学与宗教与科学的纠葛,其间数学的发展。现在想来,跟“数据之巅”的讲述有异曲同工之妙。世界万物都能用数学来描述,有了严谨的数字逻辑思辨能力,才可能看清这个世界,才能更深入的去探究新的知识。
套用一句俗语,数据不一定是万能的,但没有数据万万不能。2016年初中国A股实行“定制版”熔断机制,4天的断崖式下跌立马寿终,决策者们除了定性的分析外,有用详尽的有说服力的数据来辅助决策吗?电影“天空之眼”(Eye in the sky)中美军要空中打击恐怖分子前要计算袭击造成的附加伤害和致使几率,作为各方领导层下达攻击命令的主要依据。
在全社会培训数据意识,用事实数据来解决争端和辅助决策。多数牛逼的企业都是数据驱动,马云也在大力倡导DT(Data Tech)。国内各级行政领导们,要是有数据意识和知识,加上卓越的远见和执行能力,拥抱数据变革,与专业的技术团队合作,相信一定能造福社会,也为自己留名。
关于大数据,有很多名词标签大家耳朵都听起茧了,容我在此重复一下。
- 信息系统生成的结构化数据,比如ERP,CRM,Pos机,银行交易系统生成的数据。
- 社交和传感器生成的非结构化数据,比如微博朋友圈,百度百科的文字图片,优酷美拍的视频。
- 图像处理模式识别,比如路口抓违章的摄像头自动判别行车违章并识别车牌甚至车主,微信通过声音登陆,视频监控人流密度和流向。
- 数据挖掘,比如淘宝购物时自动推荐可能购买商品,通过你的网络消费习惯朋友收入信用质量来判定你的信用等级的芝麻信用。
- 机器学习深度学习,比如阿尔法狗打败李世石,无人驾驶项目。
- 自然语言处理,比如滴滴客户端的机器人客服,iPhone上的Siri。
- 众包众创,就像是人类智慧的分布式处理,也许可以借鉴Hadoop的思路来优化但明显各有不同。
3D打印,VR/AR,工业4.0 等等,全都是以数据为基础,算法为核心,加以摩尔定律证明和预测的硬件发展,在政策和战略指引下正在实现的人类进步。
用一张书中图来结束吧。作为数据领域的IT人,之前一直做的是数据到信息的部分工作,少量信息到知识的Activity。要想做金字塔尖的工作或成为塔尖群体的一部分,切实的方法我认为还是应该由下往上的学习和实践。不知数据在哪,以何种方式存在,怎样才能变为有用,就想做数据的推演和深度学习,那只是存在于理论之中。
Q:为什么非得要做金字塔顶的那部分,我就专注在下面某一层不行吗?
A: 当然可以。只要你够专注能坚持,我相信都大有可为。