时间序列分析基于r r语言时间序列分析报告

牵着乌龟去散步百科 2025-03-07 30

大家好，感谢邀请，今天来为大家分享一下时间序列分析基于r的问题，以及和r语言时间序列分析报告的一些困惑，大家要是还不太明白的话，也没有关系，因为接下来将为大家分享，希望可以帮助到大家，解决大家的问题，下面就开始吧！

本文目录

转录组时间序列数据处理
什么是平稳的时间序列
读《不等长时间序列滑窗STS距离聚类算法》 ***

一、转录组时间序列数据处理

1、所谓时序分析(time series *** ysis)在 data science中是非常重要的一个方向。对大多数商业行为而言如果能够通过已有不同时间数据来进行预测就有可能大大提高自己的胜率。通常时间序列数据会包括趋势部分和不规则部分，我们需要做的就是剔除不规则部分然后找到趋势所在，再进行预测。在预测过程中通常可以采用移动平均法、局部加权回归法、指数平滑法和自回归整合移动平均等 *** 。

2、生物学的时间相关数据本身预测属 *** 和商业数据相比要弱很多。一种是单一条件的纯时间序列，主要看不同基因的表达模式，根据相似的表达谱将基因归为多个类有助于找到功能相似的基因。另一种情况是含有对照和处理的时间序列，需要再考察不同条件的差异基因。

3、关于时间序列转录组数据分析的工具，近三年来有两篇偏综述和测评类的文章（一个人写的）。

4、在这两篇文章中还是提到了一些工具，但其中有一些用到 *** tlab（这软件贵啊），有一些年久失修或者不维护或者和最新R版本不兼容，筛筛捡捡能用的且文章里认为还不错的也就剩下三四个。

5、来自于 DESeq的 *** ，下文中提到的 ImpluseDE2和 MaSigPro都使用了这种模型。

6、来自于 *** SigPro *** ，所谓多项式回归区别常见的线 *** 回归，会把一次特征转换成高次特征的线 *** 组合多项式，比使用直线拟合更加准确。但是到底用几次方需要具体分析，次数过高会出现过拟合。在能够解释自变量和因变量关系的前提下，次数应该是越低越好，这也算是奥卡姆剃刀原则吧。

7、所谓自回归是统计上一种处理时间序列的 *** ，用至来预测本期的表现并假设它们为线 *** 关系。简单说就是用自己来预测自己，因为是从回归分析 *** *** 回归发展而来只是用x预测x，所以叫自回归。

8、同样是来自于 DESeq的 *** ，下文中提到的 ImpluseDE2和 MaSigPro也都使用了这种 *** 。

9、似然比检验(likelihood ratio test,LRT)用于比较两个模型的拟合优度进而确定哪个模型与样本数据拟合的更好。其中一个是具有一定数量项的完整模型，另一个是删掉完整模型中一部分项的简化模型。LRT检验中， *** 度等于在简化模型中减少的模型参数数目，LR近似符合卡方分布。一个相对复杂的模型与一个简单模型比较，如果可以显著地适合一个特定数据集，那么这个复杂模型的附加参数就能够用在以后的数据分析中。

10、为了测试多个时间点的任何差异，可以使用包含时间因子的设计和时间因子在简化公式中被删除的另一个设计。对于包括对照和实验组的时间序列，可以使用包含条件因子，时间因子和两者相互作用的公式。在这种情况下，使用具有不包含相互作用项的简化模型的似然比检验将测试该条件是否在参考水平时间点（time 0）之后的任何时间点可以诱导基因表达的变化。

11、 EBseq-HMM采用的 *** ，来自于 BEseq。

12、这个软件最早发表在2007年，相对老一些好在目前仍然在维护，其主要目的是给时序数据进行基于模糊聚类算法的聚类。我们常见的聚类算法可以分为严格聚类(hard clustering)和模糊聚类(Fuzzy clustering)(也叫做宽松聚类 soft clustering)。严格聚类会将一个基因只聚到一类中，kmeans就属于严格聚类。而模糊聚类允许同一数据属于多个不同的类，其聚类结果是一个数据对聚类中心的隶属度，0到1之间。对于分类很开的数据使用严格聚类是没问题的。但对于时序表达量数据来说，不同的类常常会有重叠，所以可以尝试宽松聚类 *** 。算法需要首先设定一些参数，若初始化参数不合适，可能影响聚类结果的正确 *** 。

13、在使用 Mfuzz时首先应该进行数据标准化处理，可以使用类似于 FPKM或者 TPM的表达结果也可以使用 DESeq2矫正后的结果进行比较分析，另外不支持值为0的数据，所以需要加上 pseudocount。除此之外，Mfuzz接受的数据格式为 ExpressionSet，需要对矩阵进行转换。

14、这个包只能进行聚类，是找不了有处理对照组的差异基因的。需要注意。

15、有两点内容需要注意：对于无对照的单一时序数据处理 *** ；以及处理转录数据时的特殊参数。因为这个包不会对数据进行标准化，所以应该提前做好，使用 DESeq2即可。

16、另外，在实际分析的时候可能会出现 glm.fit: algorithm did not converge的警告。这是由于进行 logistic回归时，依照极大似然估计原则进行迭代求解回归系数，glm函数默认更大迭代次数是 25，当数据不太好时 25次迭代可能还不收敛，一方面可以增大迭代次数。但当增大迭代次数仍然不收敛就需要对数据进行异常值检验等进一步处理。通常把一些表达量极低或者极高的基因删除掉，这个问题就可以解决。

17、 ImpulseDE2是最近才出来的一个R包，在前面提到的综述评测文章中认为这个包找时序数据中的差异基因效果更好，它可以用来解决两类问题。

18、这个包中，有一个 plotHeat *** p函数，可以借助 ComplexHeat *** p对数据整体进行热图的绘制同时提取不同类的基因，也可以使用 plotGenes看某一个基因的表达情况。

19、在展示的热图中会出现四部分，包括 transient and transition trajectorie，其中每一种 tarjectorie又包括 up和 down两类。所谓的 transient可以理解为时序数据在中间某一个时间点存在up或者 down peak，即在某一个时间点存在表达的更大或者最小值；而所谓的 transient可以理解为一个持续的变化，比如持续的升高或者持续的降低。

20、 EBSeq-HMM是基于 EBSeq二次开发的工具，主要用于分析时序数据。在计算的时候首先基于负二项分布对参数进行估计，然后利用自回归隐马模型将基因的表达进行分类。比较神奇的是，最终给到的结果会标示为 Up-Up-Down-Down-Down之类的若干 path，然后你可以选出你感兴趣的 path进行后续分析。

21、因为目前做的数据是没有对照的单一时间序列数据，所以还不能体会哪一个找出的差异基因更准确些。但是如果只是想把所有的基因根据不同的时间点分为若干表达 pattern，似乎结合 Mfuzz和 ImpulseDE2就可以了。

22、当然，涉及到聚类，尤其是非监督聚类的时候通常主观因素还是较强，如果能对关键基因或者数据有一个大致的估计预判 *** 作起来会相对轻松些，如果没有，可能就需要结合不同类的生物学意义等角度来找合适的聚类数目了。

23、

24、

25、

26、

27、

二、什么是平稳的时间序列

问题一：如何深入理解时间序列分析中的平稳 *** 声明：本文中所有引用部分，如非特别说明，皆引自Time Series Analysis with Applications in R.

接触时间序列分析才半年，尽力回答。如果回答有误，欢迎指出。

对之一个问题，我们把它拆分成以下两个问题：

Why stationary?（为何要平稳？）

Why weak stationary?（为何弱平稳？）

Why stationary?（为何要平稳？）

每一个统计学问题，我们都需要对其先做一些基本假设。如在一元线 *** 回归中（），我们要假设：①不相关且非随机（是固定值或当做已知）② *** 同分布服从正态分布（均值为0，方差恒定）。

在时间序列分析中，我们考虑了很多合理且可以简化问题的假设。而其中最重要的假设就是平稳。

The basic idea of stationarity is that the probability laws that govern the beh *** ior of the process do not change over time.

平稳的基本思想是：时间序列的行为并不随时间改变。

Strict stationarity: A time series{} is said to be strictly stationary if the joint distribution of,,・・・, is the same as that of,,・・・,for all choices of nat *** al number n, all choices of time points,,・・・, and all choices of time lag k.

强平稳过程：对于所有可能的n，所有可能的,,・・・,和所有可能的k，当,,・・・,的联合分布与,,・・・,相同时，我们称其强平稳。

Weak stationarity: A time series{} is said to be weakly(second-order, or co-variance) stationary if:

① the mean function is constant over time, and

②γ(t, t? k)=γ(0, k) for all times t and lags k.

时间序列分析基于r r语言时间序列分析报告-第1张图片-

弱平稳过程：当①均值函数是常数函数且②协方差函数仅与时间差相关，我们才称其为弱平稳。

此时我们转到第二个问题：Why weak stationary?（为何弱平稳？）

两种平稳过程并没有包含关系，即弱平稳不一定是强平稳，强平稳也不一定是弱平稳。

一方面，虽然看上去强平稳的要求好像比弱平稳强，但强平稳并不一定是弱平稳，因为其矩不一定存在。

例子：{} *** 服从柯西分布。{}是强平稳，但由于柯西分布期望与方差不存在，所以不是弱平稳。（之所以不存在是因为其并非绝对可积。）

另一方面，弱平稳也不一定是强平稳，因为二阶矩 *** 质并不能确定分布的 *** 质。

例子：,,互相 *** 。这是弱平稳却不是强平稳。

知道了这些造成差别的根本原因后，我们也可以写出两者的一些联系：

一阶矩和二阶矩存在时，强平稳过程是弱平稳过程。（条件可简化为二阶矩存在，因为）

当联合分布服从多元正态分布时，两平稳过程等价。（多元正态分布的二阶矩可确定分布 *** 质）

而为什么用弱平稳而非强平稳，主要原因是：强平稳条件太强......>>

问题二：什么是平稳时间序列，能举个生活中的平稳时间序列的例“平稳时间序列”是天文学专有名词。来自中国天文学名词审定 *** 会审定发布的天文学专有名词中文译名，词条译名和中英文解释数据版权由天文学名词委所有。

英文原名/注释stationarytime series：小波消噪与时间序列分析 *** 在预测领域中应用十分广泛,但是在降雨量的预测中应用不多。在基于小波消噪的基础上应用时间序列中平稳时间学列 *** 对降雨量进行预测,结果显示,应用该 *** 有效地提高了降雨量的预测精度。用丹东地区1971-2006年的降雨量作为历史数据,建立降雨量预测模型,结果表明新模型算法简单、精度较高,比传统的拓扑预测模型效果更好,为降雨量预测提供了一种行之有效的 ***

问题三：平稳时间序列和非平稳时间序列的区别要对非平稳时间序列进行平稳化处理有利于资源的合理利用

问题四：检验时间序列平稳 *** 的 *** 有哪两种 1、时间序列取自某一个随机过程，如果此随机过程的随机特征不随时间变化，则我们称过程是平稳的；假如该随机过程的随机特征随时间变化，则称过程是非平稳的。 2、宽平稳时间序列的定义：设时间序列，对于任意的,和，满足：则称宽平稳。 3、Box-Jenkins *** 是一种理论较为完善的统计预测 *** 。他们的工作为实际工作者提供了对时间序列进行分析、预测，以及对ARMA模型识别、估计和诊断的 *** *** 。使ARMA模型的建立有了一套完整、正规、结构化的建模 *** ，并且具有统计上的完善 *** 和牢固的理论基础。 4、ARMA模型三种基本形式：自回归模型（AR：Auto-regressive），移动平均模型（MA：Moving-Average）和混合模型（ARMA：Auto-regressive Moving-Average）。（1）自回归模型AR(p)：如果时间序列满足其中是 *** 同分布的随机变量序列，且满足：，则称时间序列服从p阶自回归模型。或者记为。平稳条件：滞后算子多项式的根均在单位圆外，即的根大于1。（2）移动平均模型MA(q)：如果时间序列满足则称时间序列服从q阶移动平均模型。或者记为。平稳条件：任何条件下都平稳。（3） ARMA(p,q)模型：如果时间序列满足则称时间序列服从(p,q)阶自回归移动平均模型。或者记为。特殊情况：q=0,模型即为AR(p)，p=0,模型即为MA(q)。二、时间序列的自相关分析 1、自相关分析法是进行时间序列分析的有效 *** ，它简单易行、较为直观，根据绘制的自相关分析图和偏自相关分析图，我们可以初步地识别平稳序列的模型类型和模型阶数。利用自相关分析法可以测定时间序列的随机 *** 和平稳 *** ，以及时间序列的季节 *** 。 2、自相关函数的定义：滞后期为k的自协方差函数为：，则的自相关函数为：，其中。当序列平稳时，自相关函数可写为：。 3、样本自相关函数为：，其中，它可以说明不同时期的数据之间的相关程度，其取值范围在-1到1之间，值越接近于1，说明时间序列的自相关程度越高。 4、样本的偏自相关函数：其中，。 5、时间序列的随机 *** ，是指时间序列各项之间没有相关关系的特征。使用自相关分析图判断时间序列的随机 *** ，一般给出如下准则：①若时间序列的自相关函数基本上都落入置信区间，则该时间序列具有随机 *** ；②若较多自相关函数落在置信区间之外，则认为该时间序列不具有随机 *** 。 6、判断时间序列是否平稳，是一项很重要的工作。运用自相关分析图判定时间序列平稳 *** 的准则是：①若时间序列的自相关函数在k>3时都落入置信区间，且逐渐趋于零，则该时间序列具有平稳 *** ；②若时间序列的自相关函数更多地落在置信区间外面，则该时间序列就不具有平稳 *** 。 7、 ARMA模型的自相关分析 AR(p)模型的偏自相关函数是以p步截尾的，自相关函数拖尾。MA(q)模型的自相关函数具有q步截尾 *** ，偏自相关函数拖尾。这两个 *** 质可以分别用来识别自回归模型和移动平均模型的阶数。ARMA(p,q)模型的自相关函数和偏相关函数都是拖尾的。三、单位根检验和协整检验 1、单位根检验①利用迪基―福勒检验（ Dickey-Fuller Test）和菲利普斯―佩荣检验（Philips-Perron Test）,我们也可以测定时间序列的随机 *** ，这是在计量经济学中非常重要的两种单位根检验 *** ，与前者不同的事，后一个检验 *** 主要应用于一阶自回归模......>>

问题五：如果时间序列平稳,那该做什么检验我们计算自相关系数，如果有18组数据，则有17个自相关系数的数据，如果时间序列是平稳的，那么服从一个正态分布。所以我们根据每一个自相关系数的值，对应置位区间即可。

也可检验对所有k>0，自相关系数都为0的联合假设，这可通过如下Q *** 统计量进行

该统计量近似地服从 *** 度为m的c2分布（m为滞后长度）。因此:如果计算的Q值大于显著 *** 水平为a的临界值，则有1-a的把握拒绝所有rk(k>0)同时为0的假设。

注意利用Q *** 统计量，原假设是平稳的，根据更大的滞后项来判断即可。

三、读《不等长时间序列滑窗STS距离聚类算法》 ***

1）时间序列聚类的研究一般采用等长划分，会丢失重要特征点，对聚类结果有负面影响。

2）采用时间序列测量值不能准确度量相似度。

如下埃博拉出血热、 *** 在数值上很相似，但 *** 和 *** 在形状更相似。若是以形状作为度量传统的欧氏距离可能就不太合适了。

不等长时间序列滑窗STS聚类算法：

1）通过标准分数z_score预处理，消除时间序列观测值数量级差异的影响。

2）更改了相似度计算的方式，采用基于滑窗的 *** 计算不等长序列的距离。

3）采用类k-means的聚类算法的中心曲线计算 *** 。

时间序列数据因其趋势信息的直观展现形式，广泛应用于社交 *** 、互联网搜索和新闻媒体数据分析中。例如：Google应用搜索流感的相关信息的时间序列预测流感爆发趋势。根据某话题热度时间序列数据趋势的规律 *** ，通过聚类区分不同类型的时间序列数据。同一类簇的Twitter话题具有相同或相似的发展趋势，进而应用于话题的发展趋势的预测。

时间序列聚类算法可以分为两类。

1）基于原始数据的时间序列聚类算法。

2）基于特征的时间序列聚类算法。

基于特征的时间序列聚类算法指根据原始数据从时间序列中提取形态特征（极值点位置、分段斜率）、结构特征（平均值、方差等统计值特征）、模型特征（模型的预测值），从而根据这些特征值进行聚类。这类 *** 的优点解决了不等长时间序列聚类问题，缺点是减弱了原始数据值得影响，聚类的形状趋势信息往往比较粗糙。

STS距离计算的是累加时间序列间每个时间间隔斜率差的平方，公式

如上图所示，g1、g2和g2、g3的欧式距离的数值更相近。g1、g2的STS距离大于g2、g3的数值。在形状距离上，STS距离计算方式表现更好，一定程度上可以解决欧式距离度量时间序列局部特征信息确实和受观测数值数量级差异影响大的问题，但是依旧无法度量不等长时间序列的距离。

如上图所示，当计算不同长度的时间序列的s和r的距离时，先不断平移时间序列s，然后找到s和r距离最近的字段，就如同上图虚线之间的位置，此时s和r距离最近，这个最近距离作为s和r之间的距离。

z-score标准分数用数据观测值和观测值平均值的距离代替原观测值。z-score处理后的数据平均值为0，标准差为1。标准差的作用是统一量纲，去除数值的数量级差异影响。

本 *** 提出了形状距离的不等长时间序列的聚类 *** 。我们可以学到的有

1）z-score统一量纲，消除数值数量级差异，聚类效果更好。

2）计算x和y时间序列的STS距离，可以平移其中一个时间序列，求最小值作为STS距离值，这就消除了同一时间序列不同起始点的影响。

好了，关于时间序列分析基于r和r语言时间序列分析报告的问题到这里结束啦，希望可以解决您的问题哈！