下载安卓APP箭头
箭头给我发消息

客服QQ:3315713922

大数据的初学者面临哪些误区?

作者:Sri Megha Vujjini     来源: IT168编译点击数:796发布时间: 2020-01-15 11:00:12

标签: 大数据视频数据管理课程数据分析视频

数据科学初学者面临的5个常见误区。对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

数据如今已经体现出巨大的价值——企业通过数据分析来为包括市场支出、员工决策到产品开发等所有事情提供参考性建议,而这也意味着,数据科学家在工作中的价值正变得越来越突出。

随着人工智能的发展,数据科学家开始越来越受欢迎。与此同时,数据科学家确保自身能够持续地提升自我价值,以及通晓如何利用数据科学最佳实践是很重要的。这篇文章中列举了五个数据科学家可能常犯的误区,并对如何防止这些失误的出现给出了一定的建议。

大数据的初学者面临哪些误区_大数据视频_数据管理课程_数据分析视频_课课家

误区1:专注于电脑,而不是同事

在数据科学初学者之中有一个常见的误解,即在实际工作中他们的工作主要是编写技术代码,而另有他人将向业务相关者展示他们的发现。但事实远非如此,数据科学家的工作是发现有助于业务增长的信息。

首先,数据科学家必须能够与业务人员交流,共同探讨他们发现的信息如何在更大程度上对业务产生影响;其次,他们必须知道到哪里寻找这些信息。第二部分是至关重要的:一个整天坐在办公桌前的数据科学家,可能永远不会意识到销售团队正面临着客户流失的问题,或者营销团队正在为转化率的事焦头烂额。

业务运营中总会存在各种各样的问题,数据科学家可以帮助解决很多问题。不要只看数据,离开你的办公桌去了解公司的日常工作,这样你就能知道如何提供更大的价值。

误区2:忽略业务领域的大环境

除了定期与业务部门的同事沟通之外,花时间了解你所在行业的大环境也很重要。如果你正在为一家零售公司制定解决方案,花点时间开车去他们的实际地点,观察他们是如何运作的——销售人员在做什么、购物空间的设计、经理的工作内容,等等。

更全面地理解业务环境,对于提供业务洞察和数据科学最佳实践至关重要。如果你不了解企业是如何运作的,就不可能帮助它更好地运作。数据科学家必须理解数据代表什么,否则,您将会遇到这样的情况:根据您的模型,一切都应该完美地工作——但是仍然存在一些现实问题,您只能通过观察业务的实际情况来了解这些问题。

当您对业务的大环境有了一定的了解之后,就可以找到失效的流程,查看数据,并推测出了什么问题,在对您的假设进行测试并确认之后,做出相应的改进。

误区3:只注重理论而忽视实践

与许多领域一样,数据科学往往是实践重于理论。问题是,数据科学的实践是学不到的,你必须在真实的环境中运行。

在企业中,数据科学家必须经受各种压力,包括:

  • 与其他部门和团队协调。有时可能会随着内部优先级的变化而从一个项目跳到另一个项目,或者当您的主要解决方案不能按照建议实现时,需要寻找替代解决方案。
  • 代码集成的挑战。有时,您的代码不能轻松地与现有代码集成,这意味着您必须找到对应解决方案。
  • 预算限制。在实际工作中,每个项目都有预算限制。弄清楚如何在有限的预算下,获得足够好的(而不是完美的)解决方案,这是数据科学家有效工作的关键部分。

虽然关注最新的文章、博客和前沿技术也很重要,但在这份工作中,有些部分你只能边做边学。一个具备高工作效率的数据科学家,应知道如何平衡他们的专业发展。

误区4:从不问为什么

要成为更好的数据科学家,只需问一问为什么。这个问题有助于消除数据科学家和公司其他部门同事之间的沟通障碍。

想象一下,一家零售公司的营销主管要求建立一个数据模型,该模型能够显示有多少消费者产生购买行为的原因是与他们访问网站的渠道相关的。在创建模型之前,你可以先问问为什么。是为了了解哪些客户是最有价值的,这样他们就能知道从哪里可以获得更高的转化率?是为了帮助销售团队优先考虑渠道吗?他们有办法衡量新老客户吗?他们会将产品收益作为考虑因素吗?

为了建立一个真正有用的模型,你必须理解你的同事希望用它去解决的问题——当你这样做的时候,你可能比你最初预想的更容易解决它,这对每个人都有好处。

误区5、假设您的数据是干净的

在许多情况下,数据科学家80%的工作是清理数据——最后20%的工作是运行机器学习或深度学习模型,以获取数据洞察。

接收数据集时要做的第一步是辨认有多少数据是直接可用的,第二步是确定如何让获得一个完全可用的数据集。

数据从来都不是完美的——如果是的话,数据科学家就不会有工作了。我们必须使不完美的数据变得可用,这要求我们理解业务的大环境——您不需要哪些信息?哪些是关键任务?

人们很容易陷入一种现代思维模式,即数据是企业中所有意义和价值的来源(尤其是如果你是一名数据科学家)。但如果我们想要继续为我们工作的公司带来价值、发挥数据科学的最佳实践效果,我们必须承认只有当我们的工作是整个商业生态系统中的一部分时,我们的工作才最有价值——这取决于数据科学家本身与生态的协作。

大数据(big data)是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据有五大特点,即大量(Volume)、高速(Velocity)、多样(Variety)、低价值密度(Value)、真实性(Veracity)。它并没有统计学的抽样方法,只是观察和追踪发生的事情。 大数据的用法倾向于预测分析、用户行为分析或某些其他高级数据分析方法的使用。

赞(13)
踩(0)
分享到:
华为认证网络工程师 HCIE直播课视频教程