描述性统计分析是什么?
描述性统计,是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。
描述性统计分析要对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。
①数据的频数分析。在数据的预处理部分,利用频数分析和交叉频数分析可以检验异常值。
②数据的集中趋势分析。用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。
③数据的离散程度分析。主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。
④数据的分布。在统计分析中,通常要假设样本所属总体的分布属于正态分布,因此需要用偏度和峰度两个指标来检查样本数据是否符合正态分布。⑤绘制统计图。用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易地绘制各个变量的统计图形,包括条形图、饼图和折线图等。
衡量数据离散程度的指标有哪些?
根据不同的数据类型,离散程度主要有以下几个测度值:
异众比率
异众比率,适用于类别型数据。它指的是非众数组的频数占总的频数的比例。
∑f[i]是总频数,f[m]是众数组的频数
从公式中不难看出,异众比率越大,说明众数的代表性越差,反之亦然。
四分位差
四分位差又叫内距,它指的是上四分位数和下四分位数的差,用公式可以
Q[U]是上四分位数,Q[L]是下四分位数
简单的说,四分位差主要反映的是中间那50%部分数据的离散程度。
从公式中也能看出,四分位差越大,说明中间这部分数据越分散。
需要注意的是,四分位差主要适用于测量顺序型数据的离散程度,一般并不适合用于分类型数据。
极差
极差,顾名思义,就是指一组数据的最大值和最小值的差。也可以称之为全距,用
公式很简单,也很方便理解。但由于只计算了数据两端的差值,并不能很好的反映数据的离散程度,一般很少使用这个指标。
平均差
平均差,又称之为平均绝对离差。它是每个变量和平均值之间差的绝对值的平均数,看起来有点绕,不过用公式表
n为数据个数
为什么公式中要用绝对值呢?因为如果去掉绝对值的话,那么离差之和就是0了,没有意义。
平均差的实际意义也很明确,平均差越大,表示数据的离散程度越大。
方差和标准差
方差
方差和平均差很类似,只不过是将平均差中的绝对值换成了平方数。也就是说,方差是各个变量和平均数之间离差的平方的平均数。用公式可以表示为:
分母n-1又称为自由度,那为什么要减去1呢?因为我们通常拿到的都是样本。
数据的离散程度用什么表示
数据的离散程度用标准差表示。
离散程度,英文名MeasuresofDispersion,是指通过随机地观测变量各个取值之间的差异程度,用来衡量风险大小的指标。通过对随机变量取值之间离散程度的测定,可以反映各个观测个体之间的差异大小,从而也就可以反映分布中心的指标对各个观测变量值代表性的高低。通过对随机变量取值之间离散程度的测定,可以反映随机变量次数分布密度曲线的瘦俏或矮胖程度。可用来测度观测变量值之间差异程度的指标有很多,在统计分析推断中最常用的主要有极差、平均差和标准差等几种。极差又称全距,是观测变量的最大取值与最小取值之间的离差,也就是观测变量的最大观测值与最小观测值之间的区间跨度。
如何衡量数据的离散程度
衡量数据离散程度的指标有:
1、异众比率,用于测度分类数据的离散程度,衡量众数对一组数据的代表程度;
2、四分位差,用于测量顺序数据的离散程度,衡量中位数对一组数据的代表程度;
3、方差和标准差,用于测度数据离散程度的最常用测度值,衡量均值对一组数据的代表程度。
啥叫数据的离散程度
离散程度是指通过随机地观测变量各个取值之间的差异程度,用来衡量风险大小的指标。
离散程度的测度意义:
1、通过对随机变量取值之间离散程度的测定,可以反映各个观测个体之间的差异大小,从而可以反映分布中心的指标对各个观测变量值代表性的高低;
2、通过对随机变量取值之间离散程度的测定,可以反映随机变量次数分布密度曲线的瘦俏或矮胖程度。