IT培训 / 新闻资讯 / 大数据教程 / 大数据数据科学异常值检测原理之经验法则

大数据数据科学异常值检测原理之经验法则

作者：朱祺来源：阿里云栖社区点击数：1999发布时间： 2020-03-22 09:13:15

数据科学异常值检测原理之经验法则。大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。

前提：

数据样本符合标准正态分布，正态分布的核心是中心极限定理即：如果一个事物受到多种因素的影响，不管每个因素本身是什么分布，它们加总后，结果的平均值就是正态分布。如果要符合正态分布则这些因素必须彼此独立，彼此不独立的各项因素会互相加强影响，那么就构不成正态分布。(还有对数正态分布是指各种因素对结果的影响不是相加，而是相乘)

经验法则原理：

标准正态分布下的曲线为钟型曲线，期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。因此对于一组数据，如果符合正态分布，则可以通过经验法则来检测异常值，同图中可以发现，68.2%的测量值落在μ值处正负一个标准差σ的区间内，95.4%的测量值将落在μ值处正负两个标准差σ的区间内，99.7%的值落在μ值处正负三个标准差σ的区间内。因此，对于一组符合正态分布的数据，如果某个值距离μ值超过三个标准差σ则可以判断这个值属于异常数据。

大数据数据科学异常值检测原理之经验法则_大数据_数据分析_服务器_课课家