下载安卓APP箭头
箭头给我发消息

客服QQ:3315713922

数据科学家正在崛起的简介

作者:课课家     来源: www.kokojia.com点击数:591发布时间: 2015-11-02 12:18:31

标签: 数据大数据视频教程大数据应用

恍惚恍惚又来到了文章的学习,想必大家又有很多问题吧!

美国2012总统大选是奥巴马的胜利,但实际上也是统计学家的胜利。奥巴马当选之夜,我看见推特上有一条消息被疯狂转载:
NATE SILVER ELECTED 44TH PRESIDENT OF UNITED STATESoracle视频
当然这是一句玩笑话,但Nate Silver是谁?他号称“竞选预测之神谕”:2008年的总统大选他预测对了最终结果,而且美国50州的投票结果他预测对了49个;今年的大选他又预测对了,并且是50州全对。Silver是一名统计学家,毕业于芝加哥大学,随后在毕马威会计师事务所“度过了令自己后悔的四年时间”(不喜欢那里的工作),后来转向预测棒球选手的成绩,再后来转向**方面的数据分析和预测。总统大选的预测是一件噪声很大的工作,各家有各家的预测和分析,各种突发事件可能会导致某位候选人的支持短期内大幅变动。Silver的工作就像机器学习中的“集成学习”(他自己的描述是“贝叶斯统计”,用自己的先验信息和数据得到后验),集合众多民意调查结果,根据自己的经验判断去平均它们(具体过程我不清楚)。

经李克强总理签批,2015年9月,国务院印发《促进大数据发展行动纲要》(以下简称《纲要》),系统部署大数据发展工作。
《纲要》明确,推动大数据发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。
《纲要》部署三方面主要任务。一要加快政府数据开放共享,推动资源整合,提升治理能力。大力推动政府部门数据共享,稳步推动公共数据资源开放,统筹规划大数据基础设施建设,支持宏观调控科学化,推动政府治理精准化,推进商事服务便捷化,促进安全保障高效化,加快民生服务普惠化。二要推动产业创新发展,培育新兴业态,助力经济转型。发展大数据在工业、新兴产业、农业农村等行业领域应用,推动大数据发展与科研创新有机oracle教程结合,推进基础研究和核心技术攻关,形成大数据产品体系,完善大数据产业链。三要强化安全保障,提高管理水平,促进健康发展。健全大数据安全保障体系,强化安全支撑。[11] 
2015年9月18日贵州省启动我国首个大数据综合试验区的建设工作,力争通过3至5年的努力,将贵州大数据综合试验区建设成为全国数据汇聚应用新高地、综合治理示范区、产业发展聚集区、创业创新首选地、政策创新先行区。
围绕这一目标,贵州省将重点构建“三大体系”,重点打造“七大平台”,实施“十大工程”。
“三大体系”是指构建先行先试的政策法规体系、跨界融合的产业生态体系、防控一体的安全保障体系;“七大平台”则是指打造大数据示范平台、大数据集聚平台、大数据应用平台、大数据交易平台、大数据金融服务平台、大数据交流合作平台和大数据创业创新平台;“十大工程”即实施数据资源汇聚工程、政府数据共享开放工程、综合治理示范提升工程、大数据便民惠民工程、大数据三大业态培育工程、传统产业改造升级工程、信息基础设施提升工程、人才培养引进工程、大数据安全保障工程和大数据区域试点统筹发展工程。
此外,贵州省将计划通过综合试验区建设,探索大数据应用的创新模式,培育大数据交易新的做法,开展数据交易的市场试点,鼓励产业链上下游之间的数据交换,规范数据资源的交易行为,促进形成新的业态。oracle视频教程
国家发展改革委有关专家表示,大数据综合试验区建设不是简单的建产业园、建数据中心、建云平台等,而是要充分依托已有的设施资源,把现有的利用好,把新建的规划好,避免造成空间资源的浪费和损失。探索大数据应用新的模式,围绕有数据、用数据、管数据,开展先行先试,更好地服务国家大数据发展战略。


我想说的不是这个预测本身,而是我所感觉到的统计学家的变化。换个时髦的词,叫数据科学家。他们和具体的行业紧密相联,有扎实的统计基础,也有丰富的行业经验。不仅如此,大家都会玩编程、做数据可视化。看看Silver在纽约时报的博客就有感觉了。oracle数据库教程
数据科学家正在“入侵”一些我们以前不能想象的行业,例如总统竞选。除了Silver和其他一大批统计学家做预测之外,奥巴马还有一个数据分析部门,利用各种预测建模和数据挖掘手段来提高奥巴马连任总统的概率;例如这里有他们一则招聘广告,里面提到了R、MySQL、Python等工具。我再给自己**地打一个广告:今天我在推特上看见这个部门里的一位数据分析师(见下图,左为奥巴马,右为数据分析师)提到了RStudio和我的knitr包,本码农以后也可以海吹一下牛皮“曾经间接帮助美国总统赢得大选”……
如果你搜索一下数据科学家,你会看到各种光鲜的描述(什么炙手可热啦**啦),很多光鲜的东西都是坑,当然不绝对;我上大学时大家都觉得精算师像神一样,读(**)统计的很多同学都是奔精算去的,但我觉得精算就是坑(因为我不喜欢它,再神对我也没用)。媒体报道容易流于表面,这没什么奇怪的,数据科学家应该是一类综合人才,他并不应该只是一门技术的好手,例如纯统计。对统计学家来说,贝叶斯谁不会?半夜三点把你叫醒你都能三秒内背出贝叶斯定理,但让你把贝叶斯统计用到总统竞选上,可能就没多少人做得了这事情了(参见施涛老师的考古文)。一方面,你要会收集数据(各种网络数据来源需要恶心的清洗整理),另一方面,你要有靠谱的先验信息(自己的经验也好,舆情分析也好),可是你只有那个贝叶斯公式,就像卖火柴的小女孩手中的火柴。
我并不想跟传统学院派打仗,但我认为统计教育需要轻微改革。我们需要增强数据和编程方面的教育,诸如实变函数和测度论之类的数学课对统计专业来说应该改为选修,这并不是说让学生偷懒,而是学科细化分支的结果:知识在一代一代积累更新,我们不能要求每一代学生都从**开天辟地时的知识学起。有志于投身学术研究的可以那样追根溯源皓首穷经,但统计学家在这个数据时代有更丰富的使命。既然现实中的数据都是恶心得要死(各种不整齐、各种求程序包养),何不在学生时代就先恶心一下?信息时代图形的重要性也日益突出,但Excel的三维饼图条形图只能让人觉得图形有个毛线用;各种软件输出的静态图形在网络时代只能看不能“摸”,要鼠标干嘛(去看看前文提到的Silver的博客,或者通向白宫的512条路,那些才是网络时代该有的统计图形)。
数据科学家的概念在美国提出也就是近两年的事情,在中国发展如何,我们拭目以待。
更多视频课程文章的课程,可到课课家官网查看。我在等你哟!!!

赞(111)
踩(2)
分享到:
华为认证网络工程师 HCIE直播课视频教程