启用大数据项目须看中的五大要点！

作者：课课家教育来源： http://www.kokojia.com点击数：764发布时间： 2017-06-18 16:00:16

　　大数据知识工程(BigKE:KnowledgeEngineeringwithBigData)不同于依靠领域专家的传统知识工程，除权威知识源以外，知识主要来源于用户生成内容(UGC:User-GenertedContents)，具有海量异质的特点，知识库需要自完善与增殖能力，问题求解过程根据用户交互进行学习。、

　　全球每天创造2.5EB字节的数据（即10亿千兆字节）。但它并不总是这样。根据IBM公司的计算，世界上90％的数据只是在过去两年创建的，而且报告中显示，企业使用数据可以节省数百万美元，并以前所未有的方式提高工作效率。

　　在关于设备性能，供应商关键绩效指标(KPI)和库存水平的每周报告之间，更多的数据可能是供应链管理者最不愿意处理的事情。

　　然而，每天有更多的数据不断涌现：根据IBM公司的调查报告，全球每天创造2.5EB字节的数据(即10亿千兆字节)。但它并不总是这样。根据IBM公司的计算，世界上90%的数据只是在过去两年创建的，而且报告中显示，企业使用数据可以节省数百万美元，并以前所未有的方式提高工作效率。

　　当企业预算收紧时，管理人员采用大数据以提高效率，这并不奇怪。毕竟，许多公司花费十多年时间来引进或升级数据处理系统，并采用云计算和/或物联网。现在，供应链管理者被要求使用这些数据，因此这说起来容易，做起来难。

　　人们需要认识到盲目启动项目所面临的挑战，JDA软件公司实验室负责人SureshAcharya对于大数据的应用进行了解析。

　　Acharya说，“没有什么是令人望而生畏的，有一个方法可以做到这一点。”他指出，供应链管理者在启动一个新项目之前必须问自己五个问题：

　　1.自己的业务案例是什么?

　　也许当管理人员试图应用数据时，其最大的问题是在头脑中没有一个能够解决的案例。当开始一个新项目时，供应链管理者应该有一个特定的业务问题要解决(比如，库存过剩)，并能够量化(减少5%，将节省多少费用)。

　　“如果你从数据中找出需要解决的业务问题，那么这真的是本末倒置。”Acharya说。“你想要说的是：这是我想要解决的问题，是我所拥有的数据。那么是否打算收集或者购买和订阅，以帮助解决这个问题?”

　　“所以，需要确保你有一个业务案例，并试图解决一个业务问题，”他补充说。

　　2.有正确的数据源吗?

　　考虑到一个大数据项目作为一个需要解决的问题，而不是一个要完成的项目，这可能会表明目前可用的数据不是解决这个问题所需的信息。

　　“如果要查看库存或缺货情况，你有库存的数据吗?你有关于销售点或订单吗?或任何事情都可能是数据。你应该对想要解决的业务问题和拥有的数据源进行调整。”Acharya说。

　　提出此问题可能有助于在继续实施项目之前确定必须收集哪些其他数据。也许需要来自供应商的附加产品信息，或者来自零售商的不同销售点信息。如果合作伙伴不能提供此信息，则可能需要一种新的方法。

“如果要查看库存或缺货情况，你有库存的数据吗?你有关于销售点或订单吗?或任何事情都可能是数据。你应该对想要解决的业务问题和拥有的数据源进行调整。”Acharya说。　　提出此问题可能有助于在继续实施项目之前确定必须收集哪些其他数据。也许需要来自供应商的附加产品信息，或者来自零售商的不同销售点信息。如果合作伙伴不能提供此信息，则可能需要一种新的方法。

　　3.你的数据是否可用?

　　与第二个问题类似，供应链管理人员必须能够考虑如何记录和存储可以用来解决其业务案例的数据。

　　存在几种类型的数据，但无论数据是结构化的还是非结构化的，内生的或外生的，可以基于数据项目的性质来区分。换句话说，零售商和制造商可以收集各种非结构化数据，例如对产品的客户评论。但是，每一方收集，量化，分析数据的方式不同，因此根据他们的业务案例的需要可能完全不同。能够收集数据集不使它可用;业务实例的参数决定它是否可用。

　　“如果你认为有很多数据，但却没有真正检查是否会增加或帮助解决业务问题，那么你需要退一步并想办法解决。”Acharya说。

　　4.算法是否存在?

　　一旦商业案例被确定，并且可用数据被判断为相关和有用，企业必须确保问题可以基于当前可用的算法来解决...如果它不能，最好寻找一个更好的解决方案。

　　“这并不是说只要有数据，就一定有办法来帮助你解决它。无论对于学术界还是业界来说，有些问题确实是新的，这些问题尚未得到解决。”Acharya说。

　　“可能有一种方法来解决它，但这个具体问题可可能没有解决，所以你也需要做好探索算法的准备。”他补充说。

　　5.样本是什么?

　　如果所有上述条件都能满足，那么大数据项目是可行的。然而，只是因为可以做到，并不意味着执行者应该急于实施。

　　“所有这一切都应该首先在一个非常小的样本上进行测试。”Acharya说，“你想尝试一下小样本，然后如果它是可行的，已经解决了问题，那么可以开始扩大规模。“

　　大数据知识工程(BigKE:KnowledgeEngineeringwithBigData)是从国内兴起、引领大数据分析走向大知识研究和应用的一个国际前沿研究方向。2014年1月，吴信东教授等提出了大数据在异构、自治、复杂、演化环境下的HACE定理。2015年9月，吴信东与郑南宁院士、陆汝钤院士等基于HACE定理提出了大数据知识工程的顶层设计与研究纲要。不同于依靠领域专家的传统知识工程，大数据知识工程除权威知识源以外，知识主要来源于用户生成内容(UGC:User-GeneratedContents)，具有海量异质的特点，知识库需要自完善与增殖能力，问题求解过程根据用户交互进行学习。

　　依据大数据知识工程的顶层设计与研究纲要，本研究旨在建立大数据知识工程基础理论，形成利用海量、低质、无序的碎片化知识构建新型知识服务平台的方法学体系。本研究有望突破以专家知识为核心的传统知识工程中的“知识获取”和“知识再工程”两个瓶颈问题，并在医疗、教育、商业等各领域都具有巨大需求。

　　科学问题：本研究主要以构建具有群智、增殖、适配特征的大数据知识工程的基础理论为目标，以解决大数据知识工程中的碎片化知识表示、质量、适配问题为切入点，提炼并突破三个关键科学问题：

　　（1）探索碎片化知识发现、表示与演化规律。提出适应碎片化知识分面、多维度、即时动态等特征的表示模型与在线挖掘方法，揭示碎片化知识的时空特性和演化机理，构建知识演化模型。

　　（2）揭示碎片化知识拓扑融合机理。依据“拓扑影响机理”这一普适原理，分析碎片化知识间语义关联的拓扑与涌现特性，研究动态挖掘与拓扑融合机理，实现知识量质转换与增殖。

　　（3）构建个性化知识导航的交互模型。针对碎片化知识的无序性与用户需求的动态多样性，设计多粒度情景感知与知识寻径模型，建立逐步求精的知识适配模型。[1]

　　就像生产运行需要原型和样本一样，大数据项目需要一个测试研究来确定可行性。在理想情况下，这样的项目将创建可操作的结果，但是如果算法或实施方法有问题，结果可能获得错误的解决方案。对于人们来说，不能实施项目总比错误实施项目要好。