马尔可夫链(Markov Chain, MC)是概率论和数理统计中具有马尔可夫性质(Markov property)且存在于离散的指数集(index set)和状态空间(state space)内的随机过程(stochastic process)
[1-2]
。适用于连续指数集的马尔可夫链被称为马尔可夫过程(Markov process),但有时也被视为马尔可夫链的子集,即连续时间马尔可夫链(Continuous-Time MC, CTMC),与离散时间马尔可夫链(Discrete-Time MC, DTMC)相对应,因此马尔可夫链是一个较为宽泛的概念
[2]
。
马尔可夫链可通过转移矩阵和转移图定义,除马尔可夫性外,马尔可夫链可能具有不可约性、常返性、周期性和遍历性。一个不可约和正常返的马尔可夫链是严格平稳的马尔可夫链,拥有唯一的平稳分布。遍历马尔可夫链(ergodic MC)的极限分布收敛于其平稳分布
[1]
。
马尔可夫链可被应用于蒙特卡罗方法中,形成马尔可夫链蒙特卡罗(Markov Chain Monte Carlo, MCMC)
[2-3]
,也被用于动力系统、化学反应、排队论、市场行为和信息检索的数学建模。此外作为结构最简单的马尔可夫模型(Markov model),一些机器学习算法,例如隐马尔可夫模型(Hidden Markov Model, HMM)、马尔可夫随机场(Markov Random Field, MRF)和马尔可夫决策过程(Markov decision process, MDP)以马尔可夫链为理论基础
[4]
。
马尔可夫链的命名来自俄国数学家安德雷·马尔可夫(Андрей Андреевич Марков)以纪念其首次提出马尔可夫链和对其收敛性质所做的研究
[5]
。
马尔可夫链历史
编辑马尔可夫链的提出来自俄国数学家安德雷·马尔可夫(Андрей Андреевич Марков)。马尔可夫在1906-1907年间发表的研究中为了证明随机变量间的独立性不是弱大数定律(weak law of large numbers)和中心极限定理(central limit theorem)成立的必要条件,构造了一个按条件概率相互依赖的随机过程,并证明其在一定条件下收敛于一组向量,该随机过程被后世称为马尔可夫链
[1]
[5-6]
。
在马尔可夫链被提出之后,保罗·埃伦费斯特(Paul Ehrenfest)和Tatiana Afanasyeva在1907年使用马尔可夫链建立了Ehrenfest扩散模型(Ehrenfest model of diffusion)
[7]
。1912年亨利·庞加莱(Jules Henri Poincaré)研究了有限群上的马尔可夫链并得到了庞加莱不等式(Poincaré inequality)
[8-9]
。
1931年,安德雷·柯尔莫哥洛夫(Андрей Николаевич Колмогоров)在对扩散问题的研究中将马尔可夫链推广至连续指数集得到了连续时间马尔可夫链,并推出了其联合分布函数的计算公式
[10]
。独立于柯尔莫哥洛夫,1926年,Sydney Chapman在研究布朗运动时也得到了该计算公式,即后来的Chapman-Kolmogorov等式
[10]
。
1953年,Nicholas Metropolis等通过构建马尔可夫链完成了对流体目标分布函数的随机模拟
[11]
,该方法在1970年由Wilfred K. Hastings进一步完善,并发展为现今的梅特罗波利斯-黑斯廷斯算法(Metropolis-Hastings algorithm)
[12]
。
1957年,Richard Bellman通过离散随机最优控制模型首次提出了马尔可夫决策过程(Markov Decision Processes, MDP)
[13]
。
1959-1962,前苏联数学家Eugene Borisovich Dynkin完善了柯尔莫哥洛夫的理论并通过Dynkin公式(Dynkin formula)将平稳马尔可夫过程与鞅过程(martingale process)相联系
[14-15]
。
马尔可夫链定义
编辑马尔可夫链是一组具有马尔可夫性质的离散随机变量的集合。具体地,对概率空间
内以一维可数集为指数集(index set) 的随机变量集合
,若随机变量的取值都在可数集内:
,且随机变量的条件概率满足如下关系
[2]
:
上式在定义马尔可夫链的同时定义了马尔可夫性质,该性质也被称为“无记忆性(memorylessness)”,即t+1步的随机变量在给定第t步随机变量后与其余的随机变量条件独立(conditionally independent):
[2]
。在此基础上,马尔可夫链具有强马尔可夫性(strong Markov property),即对任意的停时( stopping time),马尔可夫链在停时前后的状态相互独立
[1]
。
解释性例子
马尔科夫链的一个常见例子是简化的股票涨跌模型:若一天中某股票上涨,则明天该股票有概率p开始下跌,1-p继续上涨;若一天中该股票下跌,则明天该股票有概率q开始上涨,1-q继续下跌。该股票的涨跌情况是一个马尔可夫链,且定义中各个概念在例子中有如下对应:
- 随机变量:第t天该股票的状态;状态空间:“上涨”和“下跌”;指数集:天数。
- 条件概率关系:按定义,即便已知该股票的所有历史状态,其在某天的涨跌也仅与前一天的状态有关。
- 无记忆性:该股票当天的表现仅与前一天有关,与其他历史状态无关(定义条件概率关系的同时定义了无记忆性)。
- 停时前后状态相互独立:取出该股票的涨跌记录,然后从中截取一段,我们无法知道截取的是哪一段,因为截取点,即停时t前后的记录(t-1和t+1)没有依赖关系。
n-阶马尔可夫链(n-order Markov chain)
n-阶马尔可夫链拥有n阶的记忆性,可视为马尔可夫链的推广。类比马尔可夫链的定义,n-阶马尔可夫链满足如下条件:
马尔可夫链理论与性质
编辑马尔可夫链转移理论
马尔可夫链中随机变量的状态随时间步的变化被称为演变(evolution)或转移(transition)。这里介绍描述马尔可夫链结构的两种途径,即转移矩阵和转移图,并定义了马尔可夫链在转移过程中表现出的性质。
转移概率(transition probability)与转移矩阵(transition matrix)
主词条:转移矩阵
上式表明,马尔可夫链直接演变n步等价于其先演变n-k步,再演变k步(k处于该马尔可夫链的状态空间内)。n-步转移概率与初始概率的乘积被称为该状态的绝对概率。
转移图(transition graph)
1. 可达(accessible)与连通(communicate)
马尔可夫链的演变可以按图(graph)结构,表示为转移图(transition graph),图中的每条边都被赋予一个转移概率。通过转移图可引入“可达”和“连通”的概念:
若对马尔可夫链中的状态
有:
,即采样路径上的所有转移概率不为0,则状态
是状态
的可达状态,在转移图中表示为有向连接:
。如果
互为可达状态,则二者是连通的,在转移图中形成闭合回路,记为
[1]
。由定义,可达与连通可以是间接的,即不必在单个时间步完成。
2. 闭合集(closed set)与吸收态(absorbing state)
给定状态空间的一个子集,若马尔可夫链进入该子集后无法离开:
,则该子集是闭合的,称为闭合集,一个闭合集外部的所有状态都不是其可达状态。若闭合集中只有一个状态,则该状态是吸收态,在转移图中是一个概率为1的自环。一个闭合集可以包括一个或多个连通类。
3. 转移图的例子
由定义可知,该转移图包含了三个连通类:
、三个闭合集:
和一个吸收态,即状态6。注意到,在上述转移图中,马尔可夫链从任意状态出发最终都会进入吸收态,这类马尔可夫链被称为吸收马尔可夫链(absorbing Markov chain)
[22]
。
马尔可夫链性质
这里对马尔可夫链的4个性质:不可约性、常返性、周期性和遍历性进行定义。与马尔可夫性质不同,这些性质不是马尔可夫链必然拥有的性质,而是其在转移过程中对其状态表现出的性质。上述性质都是排他的,即不具有可约性的马尔可夫链必然是不可约的,以此类推。
不可约性(irreducibility)
如果一个马尔可夫链的状态空间仅有一个连通类,即状态空间的全体成员,则该马尔可夫链是不可约的,否则马尔可夫链具有可约性(reducibility)
[23]
。马尔可夫链的不可约性意味着在其演变过程中,随机变量可以在任意状态间转移
[1]
。
常返性(recurrence)
若马尔可夫链在到达一个状态后,在演变中能反复回到该状态,则该状态是常返状态,或该马尔可夫链具有(局部)常返性,反之则具有瞬变性(transience)的。正式地,对状态空间中的某个状态,马尔可夫链对一给定状态的返回时间(return time)是其所有可能返回时间的下确界(infimum)
[1]
:
由上述瞬变性和常返性的定义可有如下推论:
- 推论:若有限个状态的马尔可夫链是不可约的,则其所有状态是正常返的。
- 推论:若状态B是A的可达状态,且状态B是吸收态,则B是常返状态,A是瞬变状态。
周期性(periodicity)
- 推论:吸收态是非周期性状态。
遍历性(ergodicity)
若马尔可夫链的一个状态是正常返的和非周期的,则该状态具有遍历性
[1]
。若一个马尔可夫链是不可还原的,且有某个状态是遍历的,则该马尔可夫链的所有状态都是遍历的,被称为遍历链。由上述定义,遍历性有如下推论:
- 推论:若状态A是吸收态,且A是状态B的可达状态,则A是遍历的,B不是遍历的。
- 推论:若多个状态的马尔可夫链包含吸收态,则该马尔可夫链不是遍历链。
- 推论:若多个状态的马尔可夫链形成有向无环图,或单个闭环,则该马尔可夫链不是遍历链。
马尔可夫链稳态分析
这里介绍马尔可夫链的长时间尺度行为的描述,即平稳分布和极限分布,并定义平稳马尔可夫链。
平稳分布(stationary distribution)
给定一个马尔可夫链,若在其状态空间存在概率分布
,且该分布满足以下条件:
极限分布(limiting distribution)
若一个马尔可夫链的状态空间存在概率分布
并满足如下关系:
则该分布是马尔可夫链的极限分布。注意到极限分布的定义与初始分布无关,即对任意的初始分布,当时间步趋于无穷时,随机变量的概率分布趋于极限分布
[2]
。按定义,极限分布一定是平稳分布,但反之不成立,例如周期性的马尔可夫链可能具有平稳分布,但周期性马尔可夫链不收敛于任何分布,其平稳分布不是极限分布
[26]
。
1. 极限定理(limiting theorem)
两个独立的非周期平稳马尔可夫链,即遍历链如果有相同的转移矩阵,那么当时间步趋于无穷时,两者极限分布间的差异趋于0。按随机过程中的耦合(coupling)理论,该结论的表述为:对状态空间相同的遍历链
,给定任意初始分布后有
[2]
:
2. 遍历定理(ergodic theorem)
平稳马尔可夫链(stationary Markov chain)
马尔可夫链特例
编辑伯努利过程(Bernoulli process)
主词条:伯努利过程
伯努利过程也被称为二项马可夫链(Binomial Markov chain),其建立过程如下:给定一系列相互独立的“标识”,每个标识都是二项的,按概率
取正和负。令正随机过程
表示n个标识中有k个正标识的概率,则其是一个伯努利过程,其中的随机变量服从二项分布(binomial distribution)
[2]
:
赌徒破产问题(gambler's ruin)
参见:赌徒输光定理
随机游走(random walk)
主词条:随机游走
马尔可夫链推广
编辑马尔可夫过程(Markov process)
主词条:马尔可夫过程
马尔可夫过程也被称为连续时间马尔可夫链,是马尔可夫链或离散时间马尔可夫链的推广,其状态空间是可数集,但一维指数集不再有可数集的限制,可以表示连续时间。马尔可夫过程与马尔可夫链的性质是可以类比的,其马尔可夫性质通常有如下表示
[2]
:
马尔可夫模型(Markov model)
主词条:马尔可夫模型
马尔可夫链或马尔可夫过程不是唯一以马尔可夫性质为基础建立的随机过程,事实上,隐马尔可夫模型、马尔可夫决策过程、马尔可夫随机场等随机过程/随机模型都具有马尔可夫性质并被统称为马尔可夫模型。这里对马尔可夫模型的其它成员做简要介绍:
1. 隐马尔可夫模型(Hidden Markov Model, HMM)
HMM是一个状态空间不完全可见,即包含隐藏状态(hidden status)的马尔可夫链,HMM中可见的部分被称为输出状态(emission state),与隐藏状态有关,但不足以形成完全的对应关系。以语音识别(speech recognition)为例,需要识别的语句是不可见的隐藏状态,接收的语音或音频是和语句有关的输出状态,此时HMM常见的应用是基于马尔可夫性质从语音输入推出其对应的语句,即从输出状态反解隐藏状态
[16]
[18]
。
2. 马尔可夫决策过程(Markov decision process, MDP):
MDP是在状态空间的基础上引入了“动作”的马尔可夫链,即马尔可夫链的转移概率不仅与当前状态有关,也与当前动作有关。MDP包含一组交互对象,即智能体(agent)和环境,并定义了5个模型要素:状态(state)、动作(action)、策略(policy)、奖励(reward)和回报(return),其中策略是状态到动作的映射,回报是奖励随时间步的折现或积累。在MDP的演化中,智能体对环境的初始状态进行感知,按策略实施动作,环境受动作影响进入新的状态并反馈给智能体一个奖励。智能体接收“奖励”并采取新的策略,与环境持续交互。MDP是强化学习(reinforcement learning)的数学模型之一,被用于模拟智能体可实现的随机性策略与回报
[31]
。MDP的推广之一是部分可观察马尔可夫决策过程(partially observable Markov decision process, POMDP),即考虑了HMM中隐藏状态和输出状态的MDP
[31]
。
3. 马尔可夫随机场(Markov Random Field, MRF)
MRF是马尔可夫链由一维指数集向高维空间的推广。MRF的马尔可夫性质表现为其任意一个随机变量的状态仅由其所有邻接随机变量的状态决定。 类比马尔可夫链中的有限维分布,MRF中随机变量的联合概率分布是所有包含该随机变量的团(cliques)的乘积。MRF最常见的例子是伊辛模型(Ising model)
[17]
[32]
。
哈里斯链(Harris chain)
马尔可夫链应用
编辑马尔可夫链MCMC
构建以采样分布为极限分布的马尔可夫链是马尔可夫链蒙特卡罗(Markov Chain Monte Carlo, MCMC)的核心步骤,MCMC通过在马尔可夫链上不断迭代时间步以得到近似服从采样分布的随机数,并使用这些随机数逼近求解目标对采样分布的数学期望
[2]
[3]
:
马尔可夫链其它
在物理学和化学中,马尔可夫链和马尔可夫过程被用于对动力系统进行建模,形成了马尔可夫动力学(Markov dynamics)
[35-36]
。 在排队论(queueing theory)中,马尔可夫链是排队过程的基本模型
[37]
。在信号处理方面,马尔可夫链是一些序列数据压缩算法,例如Ziv-Lempel编码的数学模型
[38-39]
,在金融领域,马尔可夫链模型被用于预测企业产品的市场占有率
[40]
。
- 参考资料
-
- 1. Brémaud, P..Markov chains: Gibbs fields, Monte Carlo simulation, and queues (Vol. 31) :Springer Science & Business Media,1999:Chapter 2-4, pp.53-156
- 2. Serfozo, R..Basics of applied stochastic processes. :Springer Science & Business Media.,2009:pp.1-99, 241-242
- 3. Brooks, S., Gelman, A., Jones, G. and Meng, X.L. eds..Handbook of markov chain Monte Carlo:Chapman & Hall/CRC press,2011:pp.1-8
- 4. Brown, K., Markov model fundamentals. In Markov modeling for reliability .MathPages.2017[引用日期2018-12-30]
- 5. Gagniuc, P.A..Markov Chains: From Theory to Implementation and Experimentation:John Wiley & Sons,2017:pp.1-32
- 6. Hayes, B., 2013. First links in the Markov chain. American Scientist, 101(2), p.252.
- 7. Takács, L., 1979. On an urn problem of Paul and Tatiana Ehrenfest. In Mathematical Proceedings of the Cambridge Philosophical Society (Vol. 86, No. 1, pp. 127-130). Cambridge University Press.
- 8. Poincaré, H., 1912. Sur un théoreme de géométrie. Rendiconti del Circolo Matematico di Palermo (1884-1940), 33(1), pp.375-407.
- 9. Ledoux, M., Poincaré inequalities in probability and geometric analysis .Institut de Mathématiques de Toulouse.2016[引用日期2018-12-30]
- 10. Kendall, D.G., Batchelor, G.K., Bingham, N.H., Hayman, W.K., Hyland, J.M.E., Lorentz, G.G., Moffatt, H.K., Parry, W., Razborov, A.A., Robinson, C.A. and Whittle, P., 1990. Andrei Nikolaevich Kolmogorov (1903–1987). Bulletin of the London Mathematical Society, 22(1), pp.31-100.
- 11. Metropolis, N., Rosenbluth, A.W., Rosenbluth, M.N., Teller, A.H. and Teller, E., 1953. Equation of state calculations by fast computing machines. The journal of chemical physics, 21(6), pp.1087-1092.
- 12. Hastings, W.K., 1970. Monte Carlo sampling methods using Markov chains and their applications.
- 13. Bellman, R., 1957. A Markovian decision process. Journal of mathematics and mechanics, pp.679-684.
- 14. Cramér, H., 1976. A century with probability theory: Some personal recollections. The annals of probability, 4(4), pp.509-546.
- 15. Brasche, J. and Demuth, M., 2005. Dynkin's formula and large coupling convergence. Journal of Functional Analysis, 219(1), pp.34-69.
- 16. Baum, L.E. and Petrie, T., 1966. Statistical inference for probabilistic functions of finite state Markov chains. The annals of mathematical statistics, 37(6), pp.1554-1563.
- 17. Kindermann, R., 1980. Markov random fields and their applications. American mathematical society.
- 18. Rabiner, L.R. and Juang, B.H., 1986. An introduction to hidden Markov models. IEEE ASSP Magazine (IEEE Signal Processing Magazine), 3(1), pp.4-16.
- 19. Adan, I., Markov chains and Markov processes. In Course QUE: Queueing Theory .Faculteit Wiskunde en Informatica, Technische Universiteit Eindhoven.2003[引用日期2018-12-27]
- 20. Snavely, N., CS1114: Markov chains. .Computer Science, Cornell University.2009[引用日期2018-12-25]
- 21. Shahshahani, M.M., Markov chain. In Statistics 217/218. Introduction to stochastic processes .Stanford University.2003[引用日期2018-12-24]
- 22. Durand, D., Lecture Notes: Markov chains. In Computational Genomics and Molecular Biology .School of Computer Science, Carnegie Mellon University.2014[引用日期2018-12-25]
- 23. Sigman, K., Limiting distribution for a Markov chain. In Stochastic modeling I .Columbia University.2009[引用日期2018-12-27]
- 24. Levéque, O., Lecture notes on Markov chains .Hamilton Institute, National University of Ireland Maynooth.2011[引用日期2018-12-25]
- 25. Gravner, J., Markov chains: Classification of states. In MAT-135B: stochastic processes .Department of Mathematics, University of California, Davis.2011[引用日期2018-12-27]
- 26. Pinsky, M. and Karlin, S..An introduction to stochastic modeling:Academic press,2010:Chapter 4, pp.199-264
- 27. Nielsen, B.F., Discrete time Markov chains, limiting distribution and classification. In 02407 stochastic processes .Department of Mathematics and Computer Science, Technical University of Denmark.2018[引用日期2018-12-28]
- 28. Asmussen, S. and Glynn, P.W., 2011. A new proof of convergence of MCMC via the ergodic theorem. Statistics & Probability Letters, 81(10), pp.1482-1485.
- 29. Huang, Cheng-Chi, 1977. Non-homogeneous Markov chains and their applications. Doctor of Philosophy Thesis. Iowa State University. Retrospective Theses and Dissertations. 7614.
- 30. Polykovskiy, D. and Novikov, A., Bayesian Methods for Machine Learning .Coursera and National Research University Higher School of Economics.2017[引用日期2018-12-28]
- 31. 邱锡鹏 著,神经网络与深度学习,第14章 深度强化学习 .Github Inc..2018-6-15[引用日期2018-12-30]
- 32. Vidakovic, B., Markov Random Fields. In Bayesion Statistics for Engineers .H. Milton Stewart School of Industrial and Systems Engineering (ISyE), Georgia Institute of Technology[引用日期2018-12-30]
- 33. Baxendale, P., 2011. TE Harris's contributions to recurrent Markov processes and stochastic flows. The Annals of Probability, pp.417-428.
- 34. Polykovskiy, D. and Novikov, A., Bayesian Methods for Machine Learning .Coursera and National Research University Higher School of Economics.2017[引用日期2018-12-30]
- 35. Lecomte, V., Appert-Rolland, C. and Van Wijland, F., 2007. Thermodynamic formalism for systems with Markov dynamics. Journal of statistical physics, 127(1), pp.51-106.
- 36. Anderson, D.F. and Kurtz, T.G., 2011. Continuous time Markov chain models for chemical reaction networks. In Design and analysis of biomolecular circuits (pp. 3-42). Springer, New York, NY.
- 37. Constantin, H., Markov chain and queueing theory. In VIGRE program .Department of Mathematics, University of Chicago.2011[引用日期2018-12-30]
- 38. Ziv, J. and Lempel, A., 1977. A universal algorithm for sequential data compression. IEEE Transactions on information theory, 23(3), pp.337-343.
- 39. Cormack, G.V. and Horspool, R.N.S., 1987. Data compression using dynamic Markov modelling. The Computer Journal, 30(6), pp.541-550.
- 40. 唐小我, 曾勇, 曹长修. 市场预测中马尔科夫链转移概率的估计[J]. 电子科技大学学报, 1994(6):643-648.
- 收起