利用Kettle+FineBI+MySQL构建电商运营分析报表可视化平台视频教程
4567 人在学
在本文中,我将深入探讨数据科学中的统计学习概念。首先,我将定义什么是统计学习。然后,我们将深入研究统计学习中的关键概念。
根据维基百科,统计学习理论是从统计学和功能分析领域中提取的机器学习的框架。
机器学习是通过软件应用程序实现的统计学习技术的表现。
这在实践中意味着什么?统计学习是指能够使我们更好地理解数据的工具和技术。理解数据是什么意思?
在统计学习的背景下,有两种类型的数据:
更好地理解数据是根据自变量来表示因变量。让我用一个例子来说明它:
统计学习揭示隐藏的数据关系。依赖数据和独立数据之间的关系。
参数和模型
运营管理中著名的商业模式之一是ITO模型。它代表输入 - 转换 - 输出模型。这些输入经历了一些转换创建一个输出。
统计学习也应用了类似的概念。有输入数据,输入数据被转换,生成输出(需要预测或估计的数据)。
转换引擎称为模型。这些是估算输出的函数。
这个转换是数学上的。将数学成分添加到输入数据中以估计输出。这些成分称为参数。
让我们来看一个例子:
β0和β1是表示收入与教育和经验相关的参数。
教育和经验是可控的变量。这些可控变量具有不同的同义词。它们被称为自变量。它们也被称为特征。
收入是无法控制的变量。它们被称为目标。
训练和测试
当我们准备考试时,我们该怎么办?研究,学习,接受,做笔记,练习,模拟测试。这些是学习和准备未知测试的工具。
机器学习也使用类似的学习概念。数据是有限的,可用的数据需要谨慎使用。构建的模型需要进行验证。验证它的方法如下:
将数据拆分为两部分。
在竞争性考试中,如果准备充分,学习合理,那么最后的考试成绩也会令人满意。类似地,在机器学习中,如果模型从训练数据中很好地学习,则它将在测试数据上表现良好。
类似地,在机器学习中,一旦在测试数据集上测试了模型,就会评估模型的性能。它是根据估计的输出与实际值的接近程度来评估的。
方差和偏差
英国著名统计学家乔治·博克斯曾引用过:
没有一个模型是100%准确的。所有模型都是有误差的。这些误差来自两个来源:
让我试着用类比来解释这个。
一个7岁的孩子,刚刚学习了乘法的概念。他已经掌握了1和2的法则。他的下一个挑战是学习3的法则。他非常兴奋并开始练习3的乘法表。他的表是这样的:
他的同学和他一样,但是他的表看起来是这样的:
让我们从机器学习的角度来研究两个学生创建的乘法模型。(我们将两个孩子认定为A,B)
上面的例子粗略地解释了方差和偏差的重要概念。
偏差 - 方差的权衡
如果模型对特定的数据集了解太多,并试图将相同的模型应用于未知的数据,则会出现较高的误差。从给定数据集中学习太多被称为过度拟合,它没有将学习推广到有用的未知数据上。另一方面,学习太少会导致欠拟合,该模型非常差,甚至无法从给定的数据中学习。
阿尔伯特爱因斯坦简洁地总结了这个概念。他说:
“每件事都应该尽可能地简单,但绝不是越简单越好。”
在机器学习的问题中,一个不断努力的目标就是找到一个正确的平衡点。创建一个不太复杂且不太简单的模型,创建一个通用模型,创建一个相对不准确但有用的模型。
这种平衡行为称为偏差 - 方差的权衡。
结论
统计学习是复杂机器学习应用的基础。本文介绍了统计学习的一些基本概念。本文的前5个要点是: