回帰不連続デザイン

出典: フリー百科事典『ウィキペディア(Wikipedia)』
回帰不連続デザインのイメージ

回帰不連続デザイン(かいきふれんぞくデザイン、: regression discontinuity design, RDD)とは、統計学計量経済学政治学疫学や他の関連分野において、その点以上もしくは以下で介入がなされるカットオフもしくは閾値を割り当てることで、介入の因果効果を取り出す準実験的事前事後テストデザインである。閾値の両側の近くに位置する観測値を比較することで、ランダム化できない環境における局所的平均処置効果を推定することが可能になる。回帰不連続デザインは Donald Thistlewaite と Donald Campbell英語版 により奨学金プログラムの評価のために初めて使われて[1]から、近年より一般的になってきている[2]

[編集]

回帰不連続デザインの背後にある直観的な考え方は成績優秀者向けの奨学金の評価を検討することでよく表現できる。このような介入の因果効果の測定に関する主要な問題は、処置の割り当ての内生性である。評価の高い学生は成績優秀者向け奨学金を得ると同時に優秀な成績を残すであろうから、成績優秀者向け奨学金を得た人とそうでない人の成績を比較することは、推定における上方バイアスを導くだろう。成績優秀者向け奨学金が成績を全く向上させないとしても、奨学金を得た人は奨学金を貰わなかった人よりよいパフォーマンスを見せるだろう。なぜならば単純に事前に成績の良かった生徒に対して奨学金が与えられるからである。

実験デザインが無いのにもかかわらず、回帰不連続デザインは因果効果を取り出すために介入の外生的な特徴を利用することができる。もしある特定の成績-例えば80%以上-を残した生徒すべてに奨学金が与えられるのであれば、80%のカットオフ点付近の生徒を比較することで局所的処置効果を取り出すことが出来る。これは直感的には、成績が79%だった生徒は成績が81%だった生徒と非常に似ているが、しかしながら事前に決められた閾値80%が与えられた下で、片方の生徒は奨学金を得られない一方でもう一方の生徒は奨学金が得られる。奨学金を得られた生徒(処置群)の成績と奨学金を得られなかった生徒(対照群)の処置がなされなかった(: counterfactual)成績を比較することで、局所的な処置効果が取り出される。

方法論[編集]

回帰不連続デザインを用いた推定には、二つの一般的なアプローチがあり、それはノンパラメトリックな方法とパラメトリックな方法(通常は多項式回帰である。)である。

ノンパラメトリック推定[編集]

回帰不連続デザインの文脈で最も一般的なノンパラメトリック推定方法は局所線形回帰である。それは以下のような線形回帰式で表される。

ここで であり、 は処置のカットオフ点、 ならば1、 ならば0であるバイナリ変数、そして は使用されるデータのバンド幅である。カットオフの両側でデータにフィットする傾き切片は異なる。典型的には、矩形カーネルか三角カーネルが用いられる。三角カーネルの方が好まれるが[3]、矩形カーネルはより直感的な解釈ができる[4]

回帰不連続デザインによるノンパラメトリックな推定法を用いる大きな利点は、カットオフ付近のデータによる推定量が得られることであり、それは直感的にも分かりやすい。カットオフ付近での非連続性を推定する為に、カットオフ点から離れたデータを用いることによって生じたバイアスを減らす効果もある[4]。より正確に言えば、局所線形回帰はバイアスに関する良い性質[3]と収束に関する良い性質[5]を持つために好まれる。しかしながら、パラメトリックな方法とノンパラメトリックな方法の両方を使うことは、それが可能ならば、推定結果が推定手法に過度に依存しないことを議論するための有益な方法となる。

パラメトリック推定[編集]

他の例[編集]

  • 年齢適格要件(年金や飲酒可能年齢)によって決まる処置の政策[6][7]
  • 僅差の投票結果となった選挙[8]
  • 処置プログラムに生徒を分類する、教育におけるクラス分け[9]

必要とされる仮定[編集]

回帰不連続デザインにおいては、処置についての閾値において"できるだけランダムに"処置が割り当てられることが要求される[8]。もしそうであれば、処置状態は事実上ランダムなので、まさにかろうじて処置を受けた人々をかろうじて処置を受けられなかった人と比較することができる。

処置変数がランダムであり、処置を受ける主体(個人、企業など)が完全にその処置状態を操作できないのであれば、閾値における処置割り当ては"できるだけランダムに"なっている。例えば、処置が試験において50%以上の成績を取ることで割り当てられるのであれば、その例は、成績のランダム性や学生の成果のランダム性によりある程度ランダムに成績が決まる限り、回帰不連続デザインの例として妥当である。

学生は自身の処置状態を完全に決めるために、自身の成績を完全に操作してはいけない。生徒が恩情による合格を得るために教師に便宜を図ることができたり、試験を合格するまで再試験が可能な場合は完全に自分の処置状態を決めることができる例になる。前者の例では、ぎりぎりで落第したものの恩情合格で通過した生徒とぎりぎりで落第したものの恩情合格が出来なかった生徒は異なる。これは、処置群と対照群が異なるために、選択バイアスを引き起こす。後者の例では、ある生徒は再試験を受けようと決心するだろうし、一度通過してしまえば再試験を辞めるだろう。これもまた、その生徒のみが再試験を受けることを決められるので、選択バイアスを引き起こす[4]

仮定の妥当性についての検定[編集]

処置を受ける主体が完全に自身の処置状態を決定できるかどうかの決定的な検定は実行不可能である。しかしながら、いくつかの検定では回帰不連続デザインの妥当性が支持できるか出来ないかの証拠を得ることが出来る。

密度検定[編集]

Lee, Moretti, and Butler (2004)[10] のデータによる McCrary (2008)[11] の密度検定。

McCrary (2008) は処置変数の観測値の密度関数を検定することを提案した[11]。もし処置についての閾値における処置変数の密度関数に不連続性があるのならば、それはある主体が自身の処置状態を完全に操作可能であることを示唆している。

例えば、いくつかの生徒が恩情合格できるのであれば、ぎりぎり落第した生徒よりぎりぎり合格した生徒が多いはずである。同様に、生徒が合格するまで再試験ができるのであれば、似たような結果となる。どちらのケースにおいても、試験成績の密度関数が確かめられると明らかになるだろう。このような方法による"システムとのゲーム"が推定された処置効果にバイアスをもたらしうる。

観測変数の連続性[編集]

回帰不連続デザインの妥当性はぎりぎり処置を受けられなかった人々と同じくらいにぎりぎり処置を受けられた人々にも依存するので、これらのグループの観測変数は似たようなものになるかどうかを確かめることは妥当であろう。初期の例においては、ぎりぎり処置を受けた人々がぎりぎり処置を受けられなかった人々に比べ異なる特性(人口統計上の特徴、家計収入など)を持つかどうかを検定していた。ランダムな機会に基づいたこの二つのグループについて、先にあげた変数のうちいくつかは異なるけれども、ほとんどすべての変数は同じはずである[10]

反証検定[編集]

事前に決定される変数[編集]

観測変数の連続性と同様に、処置のカットオフにおいて事前に決定する変数の連続性も考えられる。このような変数は処置が決定する前に決まるので、処置状態からは何の影響も受けない。最初の成績優秀者向け奨学金の例を考えよう。興味のある結果が将来の成績ならば、奨学金は事前の成績に影響を与えたとは考えられないだろう。事前に決定する変数の不連続性が処置のカットオフ点あたりで見られるのであれば、回帰不連続デザインの妥当性も疑われる。

他の不連続性[編集]

まったく予想だにしないような点において処置変数の不連続性が見られるのであれば、それは回帰不連続デザインに疑念をもたらす。アメリカの飲酒規制の影響を調査した Carpenter and Dobkin (2011) の例[7]を考えよう。21歳で飲酒可能になるのであれば、それは様々な変数、死亡率や疾病率などの変化をもたらす。死亡率や疾病率が他の年齢において同時に上がるのであれば、21歳における不連続性の解釈に疑念をもたらすことになる。

共変数の追加と除外[編集]

推定したパラメータがモデルに共変数を追加、または除外することに鋭敏ならば、それは回帰不連続デザインの妥当性に疑念をもたらす。有意な変化はぎりぎり処置を受けた人々の共変数がぎりぎり処置を受けなかった人々とは異なることを示唆している。共変数を取り入れることはこのバイアスを取り除くだろう。もしバイアスが過大であり、共変数がそのバイアスの多くを有意に説明するのであれば、その共変数を取り入れるかどうかで推定したパラメータは顕著に変わりうる[4]

長所[編集]

  • 適切に実行され、解析されるのであれば、回帰不連続デザインは局所処置効果のバイアスの無い推定量をもたらす[12]。回帰不連続デザインは処置効果を測定する点でランダム化実験とほぼ同等に良い。
  • 回帰不連続デザインは準実験と同じく事前のランダム化を必要とせず、ランダム割り当てについての倫理的問題を避けることができる。
  • よい回帰不連続デザインにおける処置効果の測定結果はランダム化実験と似たようなものになる[13][14]

短所[編集]

  • 統計的検出力は同じサンプルサイズのランダム化実験に比べて相当に低く、処置の効果を誤って見積もる危険性が増加する(第二種の過誤)[15]
  • 処置と結果の関連性が正しくモデル化されている時に限り、推定された効果はバイアスが存在しない。もっとも一般的に注意されるのは非線形の関係性を誤って非連続性と考えてしまうことである。
  • 他の処置による汚染。他の処置が同じ割り当て変数の同じカットオフ点で行われるのであれば、結果変数の不連続性は部分的にはその他の処置によるものになる。例えば、研究者は飲酒可能年齢の下限における回帰不連続デザインを用いてメンタルヘルスにおける飲酒の法的許可の影響を調べたいとする。この影響は同じ年齢で解禁されるギャンブルへの法的許可の影響と区別がつかない。

拡張[編集]

ファジーなRDD[編集]

因果効果の識別は、カットオフ点はシャープである、つまりこの付近では処置割り当てがなされる確率が0から1になるという不連続性が存在しているという重大な仮定により決まる。しかしながら、実際はしばしばカットオフ点は厳密に設定されず(例えば、閾値にぎりぎり達しなかった生徒への裁量など)、ゆえに推定量は統計的なバイアスを持つ。

シャープな回帰不連続デザインとは対照的に、ファジーな回帰不連続デザイン: fuzzy regression discontinuity design, FRDD)は割り当て確率のシャープな非連続性を必要とせず、割り当て確率が異なりさえすれば適用可能である。ファジーな回帰不連続デザインの背後にある直感的な考え方は、操作変数: instrumental variable)法や処置意図英語版: intention to treat)と関連している。

回帰ねじれデザイン[編集]

割り当て変数が連続であり(例えば学生補助)、他の観測変数(例えば家計収入)に依存する時、処置関数の傾きのシャープな変化を用いて処置効果を識別することができる。この技法は Nielsen, Sørensen, and Tabe (2010) によって回帰ねじれデザイン: regression kink design)と名づけられている(ただ彼らは似たような先行研究を参照している)[16]。彼らは次のように述べている。『この方法は回帰不連続の考え方に似ている。年金所得関数の水準の不連続性の代わりに、その関数の傾きの不連続性を我々は得ている。』("This approach resembles the regression discontinuity idea. Instead of a discontinuity of in the level of the stipend-income function, we have a discontinuity in the slope of the function.")厳密な理論的基礎は Card et al. (2012) により与えられている[17]

回帰ねじれ(もしくはねじれた回帰)は一種の分割回帰を意味している。

脚注[編集]

  1. ^ Thistlewaite, D.; Campbell, D. (1960), “Regression-Discontinuity Analysis: An alternative to the ex post facto experiment”, Journal of Educational Psychology 51 (6): 309–317, doi:10.1037/h0044319 
  2. ^ Imbens, G.; Lemieux, T. (2008), “Regression Discontinuity Designs: A Guide to Practice”, Journal of Econometrics 142 (2): 615–635, doi:10.1016/j.jeconom.2007.05.001 
  3. ^ a b Fan; Gijbels (1996). Local Polynomial Modelling and Its Applications. London: Chapman and Hall. ISBN 0-412-98321-4 
  4. ^ a b c d Lee, David S.; Lemieux, Thomas (2010), “Regression Discontinuity Designs in Economics”, Journal of Economic Literature 48 (2): 281–355, doi:10.1257/jel.48.2.281 
  5. ^ Porter (2003), “Estimation in the Regression Discontinuity Model”, Unpublished Manuscript, http://www.ssc.wisc.edu/~jrporter/reg_discont_2003.pdf 
  6. ^ Duflo, Esther (2003), “Grandmothers and Granddaughters: Old-age Pensions and Intrahousehold Allocation in South Africa”, World Bank Economic Review 17 (1): 1–25, doi:10.1093/wber/lhg013 
  7. ^ a b Carpenter, Christopher; Dobkin, Carlos (2011), “The Minimum Legal Drinking Age and Public Health”, Journal of Economic Perspectives 25 (2): 133–156, doi:10.1257/jep.25.2.133, JSTOR 23049457, PMC 3182479, PMID 21595328, https://jstor.org/stable/23049457 
  8. ^ a b Lee, David S. (2008), “Randomized Experiments from Non-random Selection in U.S. House Elections”, Journal of Econometrics 142 (2): 675–697, doi:10.1016/j.jeconom.2007.05.004 
  9. ^ Moss, B. G.; Yeaton, W. H.; Lloyd, J.E. (2014), “Evaluating the Effectiveness of Developmental Mathematics by Embedding a Randomized Experiment Within a Regression Discontinuity Design.”, Educational Evaluation and Policy Analysis 36 (2): 170–185, doi:10.3102/0162373713504988 
  10. ^ a b Lee, David S.; Moretti, Enrico; Butler, Matthew J. (2004), “Do Voters Affect or Elect Policies? Evidence from the U.S. House”, Quarterly Journal of Economics 119 (3): 807–859, doi:10.1162/0033553041502153 
  11. ^ a b McCrary, Justin (2008), “Manipulation of the Running Variable in the Regression Discontinuity Design: A Density Test”, Journal of Economic Literature 142 (2): 698–714, doi:10.1016/j.jeconom.2007.05.005 
  12. ^ Rubin, Donald B. (1977), “Assignment to Treatment on the Basis of a Covariate”, Journal of Educational and Behavioural Statistics 2 (1): 1–26, doi:10.3102/10769986002001001 
  13. ^ Shadish, William R.; Clark, M. H.; Steiner, Peter M. (2008), “Can Nonrandomized Experiments Yield Accurate Answers? A Randomized Experiment Comparing Random and Nonrandom Assignments”, Journal of the American Statistical Association 103 (484): 1334, doi:10.1198/016214508000000733 
  14. ^ Moss, B. G.; Yeaton, W. H.; Lioyd, J. E. (2013), “Evaluating the Effectiveness of Developmental Mathematics by Embedding a Randomized Experiment Within a Regression Discontinuity Design”, Educational Evaluation and Policy Analysis 36 (2): 170, doi:10.3102/0162373713504988 
  15. ^ Angrist, J. D.; Pischke, J.-S. (2008). “Getting a Little Jumpy: Regression Discontinuity Designs”. Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press. pp. 251–268. ISBN 978-0-691-12035-5 
  16. ^ Nielsen, H. S.; Sørensen, T.; Taber, C. R. (2010), “Estimating the Effect of Student Aid on College Enrollment: Evidence from a Government Grant Policy Reform”, American Economic Journal: Economic Policy 2 (2): 185–215, doi:10.1257/pol.2.2.185, JSTOR 25760068, https://jstor.org/stable/25760068 
  17. ^ Card, David; Lee, David S.; Pei, Zhuan; Weber, Andrea (2012), “Nonlinear Policy Rules and the Identification and Estimation of Causal Effects in a Generalized Regression Kink Design”, NBER Working Paper No. w18564, SSRN 2179402, http://www.nber.org/papers/w18564 

参考文献[編集]

  • Angrist, J. D.; Pischke, J.-S. (2008). “Getting a Little Jumpy: Regression Discontinuity Designs”. Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press. pp. 251–268. ISBN 978-0-691-12035-5 
  • Cook, Thomas D. (2008), “‘Waiting for Life to Arrive’: A history of the regression-discontinuity design in Psychology, Statistics and Economics”, Journal of Econometrics 142 (2): 636–654, doi:10.1016/j.jeconom.2007.05.002 
  • Imbens, Guido W.; Wooldridge, Jeffrey M. (2009), “Recent Developments in the Econometrics of Program Evaluation”, Journal of Economic Literature 47 (1): 5–86, doi:10.1257/jel.47.1.5 

関連項目[編集]

外部リンク[編集]