この記事では、統計的因果推論の一つである回帰不連続デザインについて説明します。
回帰不連続デザインとは
回帰不連続デザイン(RDD:Regression Discontinuity Design)とは、ある点以上もしくは以下で介入がなされる閾値を割り当てることで、介入の因果効果を取り出す方法です。閾値の両側の近くに位置する観測値を比較することで、ランダム化できない環境における局所平均因果効果を推定することが可能です。
背景
RDD では、人為的なルールによって生まれる境界を利用して因果効果を推定します。多くの事象では近い値を持つサンプルは似たもの同士であるはずです。しかし人為的なルールによって分断され、一方にのみ介入された場合、その介入による影響分が境界前後で結果に現れます。その結果の差異を比較することで因果効果を推定します。
人為的なルールはサンプルに関係なく設けられたものであるため、境界付近ではランダム化比較試験で分割された群と同質になります。
そのため平均因果効果(ATE)が因果効果として使用できます。
しかし、因果効果として使用できるのは境界付近の局所的なサンプルのみに限られ、その平均効果を局所平均因果効果(LATE: Local Average Treatment Effect)となります。

RDD には閾値によって介入が確実に行われる場合に行う Sharp RDD と、介入が確率的に行われ、閾値によって確率が変わる場合に行う Fuzzy RDD があります。
ここでは、一般的な Sharp RDD の説明をします。
RDD を用いるための前提条件は以下になります。
- 介入の割り付けルールと閾値が明確にわかっている
- 閾値の周辺において結果に影響を与える対象以外の因子が大きく変わることはない
- 閾値の対象となる変数は閾値の周辺で連続
- 結果は閾値の周辺で連続
上記の前提条件を満たして入れば、結果Yのモデルとして任意のモデルで考えていいのですが、例えば下式で示す回帰モデルとなります。
Y=β0+β1T+β2C+ϵ
ただし、Tは介入/非介入群を示す値(介入群:1, 非介入群:0)、Cは閾値の対象となる変数を示します。
このとき、LATE は閾値をcとして、C=cのときのT=0,1でのYの差分をとることで以下のように求められます。
LATEamp;=YT=1,C=c−YT=0,C=camp;=(β0+β1+β2c+ϵ)−(β0+β2c+ϵ)amp;=β1
方法
以下の手順で行います。
- 結果をYの回帰モデルを推定
- 閾値をcとして、C=cのときのT=0,1でのYの差分を LATE とする
また、ノンパラメトリックに行う方法もあり、以下の手順で行います。
- 閾値付近から推定の対象とする範囲の幅(バンド幅)を決定する
- 閾値をc、バンド幅をwとして、(c−w,c)と(c,c+w)の介入/非介入の 2 群の平均値を求める
- 2 群の平均値の差分を LATE とする
事例
参考