数据如何分析(大数据分析方法五种)

2022-04-10 05:15:52 发布:网友投稿
热度:51

一.描述性统计

描述性统计是指利用制表和分类、图形和汇总数据来描述数据的集中趋势、离散趋势、偏度和峰度。

1.缺失值填充:常用方法:消元法、均值法、最小邻居法、比值\回归法、决策树法。

2.正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前有必要进行正态性检验。常用方法:非参数检验的K量检验、P-P图、Q-Q图、W检验和动态差分法。

二.假设检验

1.参数检查

参数检验是对一些主要参数(如均值、百分比、方差、相关系数等)的检验。)在已知种群分布的情况下(一组要求种群服从正态分布)。

1)u检验的使用条件:当样本含量n较大时,样本值符合正态分布。

2)T检验使用条件:当样本含量n较小时,样本值符合正态分布。

单样本t检验:推断该样本的总体均值与已知的总体均值0(通常为理论值或标准值)无差异;

b配对样本t检验:当总体均值未知且两个样本可以配对时,同一对中的两个样本在可能影响治疗效果的各种情况下相似;

两个独立样本的C t检验:找不到两个各方面非常相似的样本进行配对比较。

2.非参数测试

非参数检验不考虑人口分布是否已知,往往不针对人口参数,而是检验人口的一些一股假设(如人口分布的位置是否相同,人口分布是否正态)。

应用:顺序数据,其分布通常未知。

A虽然是连续数据,但总体分布未知或异常;

虽然B-volume分布是正态的,数据是连续的,但样本量极小,比如小于10;

主要方法包括:卡方检验、秩和检验、二项式检验、游程检验、K-数量检验等。

三.可靠性分析

检查测量的可靠性,如问卷等资源网络的真实性。

分类:

1.外部信度:量表在不同测量时间的一致性程度,用常用方法进行重测信度。

2.内部可靠性;每个量表是否衡量单一概念,以及两个量表内部项目的一致性,常用的方法是对半信度。

四.列联表分析

用于分析离散变量或训练变量之间是否存在相关性。

卡方检验可用于二维表格,门特尔-汉斯泽尔层次分析法可用于三维表格。

列联表分析还包括成对计数数据的卡方检验和相关性检验,其中行和列是序列变量。

动词 (verb的缩写)相关分析

研究现象之间是否存在一定的依存关系,讨论具体依存现象的相关方向和程度。

1.单相关:两个因素之间的相关称为单相关,即研究中只涉及一个自变量和一个因变量;

2.多重相关性:三个或三个以上因素的相关性称为多重相关性,即研究涉及两个或两个以上的自变量和因变量;

3.偏相关:当某一现象与许多现象相关时,当假设其他变量不变时,两个变量之间的相关性称为偏相关。

不及物动词方差分析

使用条件:每个样品必须是独立的随机样品;每个样本来自正态分布总体;每个总体方差相等。

分类

1.单向方差分析:当实验中只有一个影响因素或有多个影响因素时,只分析一个因素与反应变量的关系。

2.多因素有交互方差分析:首先,实验中影响因素较多。分析多个影响因素与响应变量之间的关系,考虑多个影响因素之间的关系。

3.多因素非交互方差分析:分析多个影响因素与反应变量之间的关系,但各影响因素之间没有或没有影响关系。

4.协方差分析:传统的方差分析存在明显的弊端,分析中的一些随机因素无法控制,影响了分析结果的准确性。协方差分析是将线性回归和方差分析相结合的分析方法,主要分析消除协变量影响后的主要效果。

七、回归分析

分类:

1.单变量线性回归分析:只有一个自变量X与因变量Y相关,X和Y都必须是连续变量,因变量Y或其残差必须服从正态分布。

2.多次线性回归分析

使用条件:分析多个自变量与因变量Y的关系,X和Y都必须是连续变量,因变量Y或其残差必须服从正态分布。

1)变量筛选法:选择最优回归方程的变量筛选法包括全横向法(CP法)、逐步回归法、前向引入法和后向淘汰法。

2)横向诊断方法:

残差检验:观测值和估计值之间的差异很难正态分布。

b .强影响点判断:搜索方法一般分为标准误差法和马氏距离法。

共线性诊断:

诊断方法:公差、方差展开因子法(又称展开因子VIF)、特征根确定法、条件指标CI、方差比。

方法:增加样本量或选择其他回归如主成分回归和岭回归。

3.逻辑回归分析

线性回归模型要求因变量为连续正态分布,自变量与因变量呈线性关系,而Logistic回归模型对因变量的分布没有要求,一般在因变量离散时使用。

分类:

逻辑回归模型可以分为有条件的和无条件的。条件逻辑回归模型和无条件逻辑回归模型的区别在于参数估计是否使用条件概率。

4.其他回归方法:非线性回归、有序回归、Probit回归、加权回归等。

八、聚类分析

个体样本或指标变量根据其特征进行分类,从而找到合理的统计量来衡量事物的相似性。

1.属性分类:

Q-cluster分析:对样本进行分类,也称样本聚类,利用距离系数作为统计量来度量相似度,如欧氏距离、极值距离、绝对距离等。

r型聚类分析:指标的分类,也称指标聚类分析,利用相似系数作为统计量来度量相似度、相关系数、列联系数等。

2.方法分类:

1)系统聚类法:适用于小样本的样本聚类或指数聚类。通常使用系统聚类方法对索引进行聚类,也称为层次聚类。

2)逐步聚类法:适用于大样本的样本聚类。

3)其他聚类方法:两步聚类、K-means聚类等。

九.判别分析

1.判别分析:根据一批分类明确的样本建立判别函数,使误判的次数最小化,进而判断新样本来自哪个群体。

2.不同于聚类分析

1)聚类分析可以对样本和指标进行分类;判别分析只能应用于样本

2)聚类分析事先不知道事物的类别,不知道如何分类;判别分析必须事先知道事物的类别,也要知道如何分类。

3)聚类分析不需要分类的历史数据,而是直接对样本进行分类;判别分析需要对历史数据进行分类,建立判别函数,然后对样本进行分类。

3.分类:

1)费希尔判别分析:

分类是基于距离的准则,即将样本分类到距离最短的类中,适用于两种判别;

分类是基于概率的,即样本被分类到哪个类别的概率最高,这适用于

适合多类区分。

2)BAYES判别分析:

BAYES判别分析比FISHER判别分析更完善、更先进。它不仅能解决多种判别分析,还能考虑数据的分布,所以一般用得比较多。

X.主成分分析

将一组相互关联的指标转化为一组新的独立指标变量,使用几个新的指标变量可以全面反映原指标变量所包含的主要信息。

XI。要素分析

设计了一种多元统计分析方法,寻找隐藏在多变量数据中但无法直接观察到但影响或支配可测变量的潜在因素,估计潜在因素对可测变量的影响程度以及潜在因素之间的相关性。

与主成分分析相比:

相同:都可以起到理解多个原始变量内部结构关系的作用。

区别:主成分分析侧重于综合原始自适应信息,而因子分析侧重于解释原始变量之间的关系,是一种比主成分分析更深入的多元统计方法。

使用:

1)减少分析变量的数量

2)通过检测变量之间的相关性对原始变量进行分类。

十二、时间序列分析

动态数据处理的统计方法,研究随机数据序列遵循的统计规律,用于解决实际问题;时间序列通常由四个要素组成:趋势、季节变化、周期波动和不规则波动。

主要方法:移动平均滤波和指数平滑法、ARIMA水平型、定量ARIMA水平型、ARIMAX模型、自回归水平型和ARCH族模型。

十三.生存分析

采用统计分析方法,研究生存时间的分布规律以及生存时间与相关因素的关系。

1.内容:

1)描述生存过程,即研究生存时间的分布规律。

2)比较生存过程,即研究两组或两组以上生存时间的分布规律并进行比较。

3)分析风险因素,即研究风险因素对生存过程的影响。

4)建立数学模型,即用数学公式表达生存时间与相关危险因素的关系。

2.方法:

1)统计描述:包括求生存时间的分位数、生存时间的中位数、平均值、生存函数的估计、判断生存时间的图解法,不对分析的数据做任何统计推断结论。

2)非参数检验:检验各组分组变量对应的生存曲线是否一致,对生存时间分布没有要求,检验危险因素对生存时间的影响。

产品极限法

生命表法

3)半参数水平回归分析:在一定假设下,建立生存时间随多种风险因素变化的回归方程,用Cox比例风险回归分析表示。

4)参数模型回归分析:当已知生存时间服从特定的参数剖面时,拟合相应的参数模型,更准确地分析确定变量之间的变化规律。

十四.典范相关分析

相关分析一般分析两个变量之间的关系,而典型相关分析是分析两组变量(如三项学业能力指标和五项学业成绩指标)之间相关性的统计分析方法。

典型相关分析的基本思想与主成分分析相似。它把对一组变量与另一组变量之间多重线性相关性的研究转化为对几对综合变量之间简单线性相关性的研究,这几对变量所包含的线性相关性信息几乎涵盖了原变量组所包含的所有相应信息。

十五.R0C分析

R0C曲线资源网络是按照一系列不同的二元分类方法(边界值或决策阈值)绘制的曲线,以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异性)为横坐标。

使用:

1.R0C曲线可以很容易地显示出在任意边界值下识别疾病的能力。

使用;

2.选择最佳诊断极限值。R0C曲线越靠近左上角,测试的准确度越高。

3.两种或两种以上不同疾病识别能力诊断试验的比较。一个是R0C曲线下的面积,以反映诊断系统的准确性。

十六.其他分析方法

  资源网多重响应分析、距离分祈、项目分祈、对应分祈、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。

下一篇:莴苣为什么会有软腐病 莴苣软腐病有什么危害
上一篇:拼多多如何推广(拼多多商家新手要如何推广)