异常值与每个信号的多数值

Exclusive, high-quality data for premium business insights.
Post Reply
rakibhasanbd4723
Posts: 551
Joined: Sun Dec 22, 2024 5:12 am

异常值与每个信号的多数值

Post by rakibhasanbd4723 »

第一个挑战是理解算法的范围。通过查看数据范围(每个位置的最小值和最大值),对比位置(第 15 位与第 1 位),对于一些潜在的排名信号,我们可以清楚地看到这些范围非常大。(它们非常广泛,以至于许多网站都足以位于第 1 位范围内。)那么为什么我们不都排在第 1 位呢?

图 8-排名第 15 位的对数值范围对阵 1 号涵盖更广泛的信号。 注意:Alexa 排名是衡量网站整体流量水平的指标。

了解异常值
最终,这些巨大的范围被统计学家 卡塔尔电报筛选 称为数据离群值的东西扭曲了。从统计学上讲,这些数据点与各自数据集中的大多数数据相距甚远,但可能会产生误导。使用 正态分布,我们可以确定大多数数据在每个范围内的位置,以及每个数据点(每个排名位置)与平均值的偏差,从而检测出这些离群值。

每个信号的数据分布.jpg
图 9 - 每个信号的大部分数据都落在平均值的一个标准差范围内

通常,在正态分布的数据集中,至少 95% 的数据落在均值点的两个偏差范围内,68% 的数据落在均值点的一个偏差范围内,而位于 -2/+2 偏差之外的少数数据很可能是异常。

叠加偏差
通过将偏差数据叠加在原始范围图上,我们可以更好地了解对于给定信号和位置,哪些值可以归类为异常。在这种情况下,我们将假设任何大于一个偏差的值都是潜在的风险或不足的水平。


图 10 - 对数比较位置 1 和位置 15 的值范围并突出显示值偏差

修剪这些异常(通常是与整个数据集相比过大或过小的少数值)可得到精确的目标范围,进而缩小每个信号的理想位置范围。这可确保您坚持大多数。
Post Reply