建模比赛中经常出现需要描述数据统计特征的问题, 此时需要我们针对原始数据进行分析.
我们知道,利用图表展示数据可以让我们对数据的分布形状和特征有一个直观大致的了解,但要全面把握数据分布特征,还需要找到反映数据分布特征的各代表值。
数据分布特征可以从集中趋势、离散程度、分布的形状三个方面进行测度和描述,它们分别反映了数据分布特征的不同侧面。
反映各数据向其中心值靠拢或聚集的程度。
(1)分类数据:众数
众数(mode)是一组数据中出现次数最多的变量值。是一个位置代表值,不受数据中极端值的影响。
一般情况下,只有在数据量较大的情况下众数才有意义。
(2)顺序数据:中位数
中位数(median)是一组数据排序后处于中间位置的变量值。是一个位置代表值,不受极端值的影响。
中位数主要用于测度顺序数据的集中趋势,也适用于测度数值型数据的集中趋势,但不适用于分类数据。
(3)数值型数据:平均数
平均数也称为均值(mean),它是一组数据相加后除以数据个数得到的结果。
主要适用于数值型数据,而不适用于分类数据和顺序数据。
2、离散程度
反映各数据远离其中心值的趋势。
(1)分类数据:异众比率
异众比率(variation ratio)指非众数组的频率占总频数的比例。
异众比率主要用于衡量众数对一组数据的代表程度。
异众比率越大,说明非众数组的频率占总频数的比重越大,众数的代表性越差;反之亦然。
其中, 为变量值的总频数, 为众数组的频数。
(2)顺序数据:四分位差
四分位差(quartile deviation)也称为内距或四分间距,是上四分位数与下四分位数之差。
(3)数值型数据:极差
极差(range)是一组数据的最大值与最小值之差,也称全距。
极差是最简单的描述数据离散程度的测度值,但容易受极端值的影响。
(4)数值型数据:平均差
平均差(mean deviation)也称平均绝对离差,是个变量值与其平均数离差绝对值的平均数。
(5)数值型数据:方差或标准差
方差(variance)是各变量值与其平均数离差平方的平均数,方差的平方根称为标准差(standard deviation)。
方差(或标准差)能较好地反映出数据的离散程度,是应用最广的离散程度的测度值。
(6)相对离散程度:离散系数
离散系数(coefficient of variation)也称为变异系数,是一组数据的标准差与其相应的平均数之比。
主要用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;反之亦然。
3、分布的形状
反映数据分布的偏态和峰态。
(1)偏态系数
如果一组数据的分布是对称的,则偏态系数为0;如果偏态系数明显不等于0,表明分布是非对称的。
(2)峰态系数
峰态系数是与标准正态分布相比较而言的,它说明了分布的尖峰和扁平程度。
4、箱式图
往往统计描述通过箱式图来表现:
以上就是本篇文章【数据统计特征提取】的全部内容了,欢迎阅览 ! 文章地址:http://syank.xrbh.cn/news/6491.html 资讯 企业新闻 行情 企业黄页 同类资讯 首页 网站地图 返回首页 迅博思语资讯移动站 http://kaire.xrbh.cn/ , 查看更多