统计分析方法有哪些(统计学的两种基本方法)
嗨~盆友们!
今天的内容很干,大家一定要看~ ~
做数据分析的时候,肯定会涉及到统计学的知识。之前也推了一些统计相关的基础知识。今天,我将分享7种我们可能在统计学中使用的数据分析方法。
一、描述统计描述性统计是用图表或数学方法对数据和资料进行整理和分析,对数据分布、数字特征和随机变量之间的关系进行估计和描述的方法。
描述性统计可以分为三个部分:集中趋势分析、偏离中心趋势分析和相关性分析。
集中趋势分析
集中度趋势分析主要依靠平均值、中位数、众数等统计指标来表示数据的集中度趋势。
偏差趋势分析
偏差趋势分析主要依靠总距离、四分位数差、平均差、方差(协方差:用来衡量两个随机变量之间关系的统计量)和标准差等统计指标来研究数据的偏差趋势。比如想知道两个班的语文成绩哪个更分散,可以和两个班的四分之差或者百分点进行对比。
相关分析
相关性分析讨论数据之间是否存在统计相关性。
二、假设检验假设检验是一种统计推断方法,用于判断样本与样本、样本与总体之间的差异是由抽样误差还是本质差异引起的。
假设检验可分为三类:正态分布检验、正态总体均值分布检验和非参数检验。
正态分布检验
正态分布检验包括三种类型:JB检验、KS检验和Lilliefors检验,用于检验样本是否来自正态分布总体。
正态总体平均分布检验
正态总体平均分布检验检验系统误差对检验结果的影响。从统计学上讲,每个样本的平均值之差应在随机误差的允许范围内。相反,如果不同样本的平均值之间的差异超过允许范围,这意味着除了随机误差之外,平均值之间还有系统误差,导致平均值之间的显著差异。
有两种情况:
t:主要用于样本含量小、总体标准差未知的正态分布数据。它使用T分布理论来推断差异的概率,从而确定两个平均值之间的差异是否显著。
u检验:一般用于检验大样本的均值差,基于样本来自正态总体的假设。它利用标准正态分布理论来推断差异的概率,从而比较两个平均值之间的差异是否显著。国外英语统计大多采用z测试。
非参数检验
非参数检验不考虑总体分布是否已知,只从样本的观测值中应用一些非常直观的信息。适用情况包括:待分析数据不满足参数检验要求的假设,无法应用参数检验;仅由一些等级组成的数据;提出的问题不包含参数;当需要快速结果时。其主要方法包括:卡方检验、秩和检验、二项式检验、游程检验、K-数量检验、符号检验等。
三、相关分析相关性分析是研究现象之间关系的主要方法之一。它可以测量现象之间关系的大小和方向。相关关系的类型可分为:
根据关联程度:完全相关、不相关、不完整。
根据依赖的表现形式:线性相关和非线性相关。
按照相关的方向:正相关和负相关。
根据研究量:单相关和多相关。
相关性的测量方法包括散点图、相关系数等。
四、回归分析回归分析是一种确定两个或多个变量之间定量关系的统计分析方法。根据变量的数量和变量之间关系的类型,可以分为多种回归:
单变量线性回归分析
分析因变量和自变量之间的线性关系。常用的统计指标包括:平均、增减、平均增减。
多次线性回归分析
分析多个自变量和一个因变量之间的线性关系。在实际统计分析中,通常使用软件来估计多元回归模型。
非线性回归分析
自变量和因变量之间因果关系的函数表达式是非线性的,许多非线性回归模型包括对数曲线方程、反函数曲线方程、二次曲线方程、三次曲线方程、复合曲线方程、幂函数曲线方程和S型曲线方程。
还有许多其他回归分析模型。之前写过回归分析的文章,想了解的朋友可以看看,这里就不赘述了!
常见的10种回归分析模型算法,果断收藏。
五、方差分析方差分析,也称为“方差分析”或“f检验”,用于检验两个或两个以上样本的均值差异的显著性。使用条件包括:每个样本必须是独立的随机样本;每个样本来自正态分布总体;每个总体方差相等。
根据分析的测试因素数量,可分为:
单因素方差分析
它用于研究控制变量的不同水平是否对观察变量有显著影响。这里,因为只研究了一个因素。
双因素方差分析
用于分析两个因素的不同水平是否对结果有显著影响,两个因素之间是否存在交互作用。
六、聚类分析聚类分析是一种探索性分析。在分类的过程中,人们不必事先给出一个分类标准。聚类分析可以根据样本数据将数据分为不同的类别或聚类。同一集群中的对象非常相似,而不同集群中的对象则非常不同。
聚类分析的计算方法主要包括:
分割方法
首先,创建k个分区,其中k是要创建的分区数量。然后,通过将对象从一个分区移动到另一个分区,使用圆形定位技术来帮助提高分区质量。典型的分类方法包括:k-means、k-med oid、Clara、CLARA、FCM等。
层序法
创建层次结构来分解给定的数据集可以分为自顶向下(分解)和自底向上(合并)操作。方法包括BIRCH、CURE、ROCK、CHEMALOEN等。
密度法
根据密度。方法包括DBSCAN、OPTICS等。
基于网格的方法
首先将对象空划分为有限个单元,形成网格结构,然后利用网格结构完成聚类。方法包括STING、CLIQUE等。
基于模型的方法
假设每个集群的模型,找到适合相应模型的数据。方法包括COBWEB、CLASSIT等。
七、时间序列分析时间序列是将同一现象在不同时间的观测数据按时间顺序排列得到的序列,也称为动态序列。时间序列的两个基本要素:现象所属的时间和反映不同时间现象的指数值。
时间序列可以分为:
绝对数字时间序列
它是指按时间顺序排列的一系列相似的总指数数据,反映了各个时期现象的绝对水平。它分为时间序列和时间序列。
相对对数时间序列
是指按时间顺序排列相对指标值形成的时间序列,主要反映客观现象的数量对比关系的发展过程。
平均时间序列
指按时间顺序排列的一系列系列相似的平均指数值,主要反映客观现象一般水平的发展变化过程。它可以分为静态平均时间序列和动态平均时间序列。
时间序列的分析模型可以分为:
长期趋势的度量和分析方法:时间区间展开法、移动平均法和最小二乘法。
季节变化的测量和分析方法:同期平均法和移动平均趋势消除法。
循环的测量和分析方法:直接法和剩余法。
当然,统计学远不止这七种数据分析方法,还有很多其他值得深入研究的方法,比如路径分析、因子分析、主成分分析等等。如果你将来想做数据分析,你必须学习更多的统计学基础知识。
下一篇:绝缘材料有哪些(完全绝缘的物质有哪些)上一篇:什么是龙抬头(民间2月初2龙抬头有什么寓意)