作者|ABHISHEK SHARMA
编译|VK
来源|Analytics Vidhya
概述
-
在数据科学和分析领域,偏度是一个重要的统计学概念
-
了解什么是偏度,以及为什么它对作为数据科学专业人士的你很重要
介绍
偏度的概念已融入我们的思维方式。当我们看到一个图像时,我们的大脑会直观地分辨出图表中的模式。
你可能已经知道,印度有超过50%的人口在25岁以下,65%以上的人口在35岁以下。
如果你画出印度人口年龄的分布图,你会发现在分布的左边有一个凸起,而右边是相对平坦的。换言之,我们可以说有个偏度倾向于末端。
所以,即使你没有读过数据科学或分析专业人士的偏度,你肯定已经在非正式上与这个概念进行了互动。
在统计学中,这实际上是一个相当简单的话题,然而很多人在匆忙学习其他看似复杂的数据科学概念的过程中匆匆浏览了一下这个概念。对我来说,这是个错误。
偏度是数据科学和分析领域的每个人都需要知道的一个基本统计学概念。这是我们无法逃避的。我相信你会在这篇文章的结尾理解这一点。
在这里,我们将以最简单的方式讨论倾斜的概念。你将了解偏度、它的类型以及它在数据科学领域中的重要性。
所以,系好安全带,因为你会学到一个在你整个数据科学职业生涯中都会重视的概念。
目录
-
什么是偏度?
-
为什么偏度很重要?
-
什么是正态分布?
-
了解正偏态分布
-
了解负偏态分布
什么是偏度?
偏度是理想对称概率分布不对称性的度量,由三阶标准矩给出。如果这听起来太复杂了,别担心!我来给你解释一下。
简言之,偏度是衡量随机变量的概率分布偏离正态分布的程度。现在,你可能会想,为什么我在这里谈论正态分布?
正态分布是没有任何偏度的概率分布。你可以看看下面的图片,它显示了对称分布,基本上是正态分布,你可以看到虚线两边是对称的。除此之外,还有两种类型的偏度:
-
正偏度
-
负偏度
尾巴在右边的概率分布是正偏态分布,尾巴在左边的概率分布是负偏态分布。如果你觉得上面的数字令人困惑,没关系。我们稍后会更详细地了解这一点。
在此之前,让我们来了解为什么偏度对于作为数据科学专业人士的你来说是如此重要的概念。
为什么偏度很重要
现在,我们知道偏度是不对称性的度量,它的类型是由概率分布尾巴所在的那一边来区分的。但是为什么知道数据的偏度很重要呢
首先,线性模型假设自变量和目标变量的分布相似。因此,了解数据的偏度有助于我们创建更好的线性模型。
其次,让我们看看下面的分布。它是汽车的马力分布:
你可以清楚地看到上面的分布是正偏度的。现在,假设你想把这个作为模型的一个特性,它可以预测汽车的mpg(英里/加仑)。
因为我们的数据在这里是正偏度的,这意味着它有更多的低值数据点,也就是说,马力较小的汽车。
因此,当我们根据这些数据训练我们的模型时,它将在预测低马力汽车的mpg方面表现得比那些高马力的汽车更好。
另外,偏度告诉我们异常值的方向。你可以看到我们的分布是正偏度的,并且大多数异常值都出现在分布的右侧。
注意:偏度并不能告诉我们异常值的数量。它只告诉我们方向。
现在我们知道了为什么偏度很重要,让我们来了解一下我之前给你们看的分布。
什么是对称/正态分布
是的,我们又回到正态分布了。
正态分布被用作确定分布的偏度度的参考。正如我前面提到的,理想的正态分布是几乎没有偏度的概率分布。它几乎完全对称。因此,正态分布的偏度值为零。
但是,为什么它几乎完全对称而不是绝对对称?
这是因为,事实上,没有一个真实的数据完全符合正态分布。因此,偏度的值不完全为零;它几乎为零。虽然零值被用作确定分布的偏度度的参考。
你可以在上图中看到,同一条线表示平均值、中值和众数。这是因为完全正态分布的平均值、中值和众数是相等的。
到目前为止,我们已经用概率或频率分布来理解正态分布的偏度。现在,让我们用箱线图来理解它,因为这是在数据科学领域观察分布的最常见的方法。
上图是对称分布的箱线图。你会注意到Q1和Q2之间的距离是相等的,即:
但这还不足以得出一个分布是否倾斜的结论。我们还看一下线的长度;如果它们相等,那么我们可以说分布是对称的,也就是说,它不是倾斜的。
既然我们已经讨论了正态分布中的偏度,现在是时候了解一下我们前面讨论过的两种类型的偏度了。让我们从正偏度开始。
了解正偏态分布
正偏态分布是尾部在右侧的分布。正偏态分布的偏度值大于零。你可能已经通过观察这个数字了解到,平均值是最大的,然后是中位数,然后是众数。
为什么会这样?
好吧,答案是,分布的尾巴在右边;它导致平均值大于中值,平均值最终向右移动。此外,众数出现在分布的最高频率,即中位数的左侧。因此,众数<中位数<平均值。
在上面的框线图中,你可以看到Q2靠近Q1。这代表了一个正偏态分布。根据四分位数,可以通过以下公式得出:
在这种情况下,很容易判断数据是否倾斜。但是如果我们有这样的图呢:
这里,Q2-Q1和Q3-Q2是相等的,但是分布是正偏度的。你们当中目光敏锐的人会注意到右线的长度大于左线的长度。由此,我们可以得出结论,数据是正偏度的。
所以,第一步总是检查Q2-Q1和Q3-Q2的相等性。如果这是相等的,那么我们寻找线的长度。
了解负偏态分布
正如你可能已经猜到的,负偏态分布是尾巴位于左侧的分布。负偏态分布的偏度值小于零。你还可以在上图中看到均值<中值<众数。
在箱线图中,负偏度四分位数之间的关系由以下公式给出:
与我们之前所做的类似,如果Q3-Q2和Q2-Q1相等,那么我们寻找线的长度。如果左线的长度大于右线的长度,那么我们可以说数据是负偏度的。
我们如何转换倾斜的数据
既然你知道倾斜数据会对机器学习模型的预测能力产生多大影响,那么最好将倾斜数据转换为正态分布数据。以下是一些可以转换倾斜数据的方法:
-
幂变换
-
log变换
-
指数变换
注:转换的选择取决于数据的统计特性。
结尾
在本文中,我们讨论了偏度的概念、它的类型以及它在数据科学领域中的重要性。我们在概念层面上讨论了偏度,但是如果你想更深入地研究,下一步你可以探索它的数学部分。
原文链接:https://www.analyticsvidhya.com/blog/2020/07/what-is-skewness-statistics/
欢迎关注磐创AI博客站:
http://panchuang.net/
sklearn机器学习中文官方文档:
http://sklearn123.com/
欢迎关注磐创博客资源汇总站:
http://docs.panchuang.net/
原创文章,作者:磐石,如若转载,请注明出处:https://panchuang.net/2020/08/30/%e6%95%b0%e6%8d%ae%e7%a7%91%e5%ad%a6%e7%bb%9f%e8%ae%a1%e5%ad%a6%ef%bc%9a%e4%bb%80%e4%b9%88%e6%98%af%e5%81%8f%e5%ba%a6%ef%bc%9f/