計量政治学

-- 2.B.A Statar --

Regression

 全ての基本は回帰分析です.これは係数付きで足しあわされた複数の独立変数から従属変数を説明しようとする手法です.ここで説明というのは各独立変数の係数(パラメーター)を推定し,係数の符号が正か負か,そして各独立変数がどの程度重要か,を知ろうとすることです.係数の符号が正であればその独立変数が増えると従属変数も増えます.逆に負であればその独立変数が増えると独立変数は減ることになります.つまり独立変数と従属変数のおおよその関係がわかるわけです.各独立変数の重要性はどのようにしたら知ることができるでしょう?係数の値がゼロのときにはその変数は従属変数の説明に全く貢献しないわけですから,標準誤差で割った値がゼロからどの程度離れているかでその変数の説明力がわかります.というのも標本から求まる標準誤差で割った値はt分布に従うことが知られているので,どの分析でも安心してt値を見るという共通の手続きをとることができるからです.大ざっぱに言ってその変数のt値が2以上であればその変数の説明力=0ではないと言い切っていいでしょう.正確に言えば「その変数の説明力=0」という帰無仮説の下ではそれほど大きなt値は約5%水準で有意(=めったにない)ということになります.つまり本当は説明力がないのに確率的偶然であたかも説明力があるかのような結果が出てしまう可能性が5%しかない,日常的感覚で無視できるレベルだ,ということです.t値が2というのは偏差値で言えば70ぐらいに当たる珍しい事象なわけですから.

OLS

 回帰分析に用いられる推定法は最小自乗法と呼ばれます.データの誤差の自乗を最小化するように線を引く(つまり係数を決める)からです.Xを独立変数を並べたデータ行列とするとき,行列表記では(X'X)^{-1}X'yという式で真の係数ベクトルβが推定されます.この推定値の平均の期待値は真の値βに一致しますが,その分散の期待値はσ^2(X'X)^{-1}となります.ここでσ^2は攪乱項の分散です.

MLE

 より一般的な推定法として「最尤法」があります.これはデータを前提としてそれがある分布から抽出されたものと見て,尤度の積として表される当該データ抽出の確率が最大になるように分布のパラメータを独立変数から決める方法です.例えば,データがあって,それが正規分布から出てきたとするなら,そうしたデータが最も発生しやくなるように正規分布のパラメータ(つまり平均と分散)を決めます.分散は通常均一とされるので,問題は平均です.この平均をあたかも回帰分析の従属変数のような形で独立変数から説明しようとするわけです.因に驚くべきことに最小自乗法も最尤法から導かれます.最尤法は非常に強力なのですが,原理は20c初頭に提唱されていたにもかかわらず実際に使われだしたのは近年のことです.解析的にきれいに解けない場合数値的にごりごりやるのですが,そうした計算能力を人類が手にしたのはごく最近のことだからです.実際の計算では尤度の積の対数(対数尤度)を数値的に最大化していくことになります.

Multicollinearity

 日本語では「多重共線性」あるいは「マルチコ」等と言われるとか.これは独立変数のうちに相関の強いものが含まれることで係数の推定の信頼性が著しく損なわれる状態を指しています.データ行列を考えると分かりやすいでしょう.各独立変数はデータ行列Xの各列ベクトルに対応しています.これら列ベクトルのうち他の列ベクトルとの線形結合で表されるものがあれば,それらは推定を損なう可能性があります.というのも,他の列ベクトルとの線形結合で表されるということは一部の列ベクトル同士が平行になっているわけで,行列式=0になりますから,逆行列(X'X)^{-1}が存在しないことになります.つまり最小自乗法が使えないのです.もちろん現実には二つの列ベクトルが完全に一致することはありません.よって行列式はなんとか計算できるわけですが,0に近いことにはかわりありません.分母にくるべき行列式が0に近くなると結果として出てくる推定値の分散σ^2(X'X)^{-1}は無限大に近くなります.つまりそのとき逆行列(X'X)^{-1}の各要素が巨大になるため,推定は信頼性が著しく損なわれ,とても推定には使えなくなるわけです.当然推定の信頼区間はバカでかくなり,t値は限りなくゼロに近づきます.これが「マルチコ」です.

Heteroscedasticity

 日本語では「分散不均一性」と言います.誤差項の分散が一定でない状態を指します.お手軽にはHuber+Whiteの頑強推定というのを使えばいいのですが,陽に解決したいときには分散の部分にexp()なんかを入れて独立変数とともに広がっていく様子を取り入れたりします.このときは最尤推定を行うことになります.

Logit&Probit

 従属変数が0-1の値をとる場合の回帰分析です.そのまま通常の回帰分析をすると予測値が0-1の範囲を飛び出てしまったりしてまずいので,それを避けるために0-1の従属変数に特殊な変換を施して[-∞,+∞]になるようにしてやります.こうしておいて好きなだけ推定してから逆の変換を施します.そうすれば予測値は見事[0,1]に収まるというわけです.この変換にロジスティック関数を用いるのがLogit,累積正規分布関数を用いるのがProbitです.本当はNormitの方が相応しい名前かもしれませんが….LogitとProbit,どういう基準で使い分けるべきか?というのが初心者共通の悩みですが,これはどちらでもいいです.どちらを用いても違いはありません.同じです.なぜ片方しか使わないかというとredundantだからです.別に両方載せてもいいんですが,同じなら紙面が無駄になるので. 若干の違いがあるとすれば 1.レアなイベント 2.拡張版の相性 ぐらいです.1について.累積正規分布関数よりロジスティック関数の方がtailがheavyなので自分の関心がレアなイベントにあるときはProbitよりLogitの方がよいとか.もっとtailがheavyな関数を使ったものとしてCauchyというのもあります. 2について付け加えると,例えば,multiple probit, heteroscedastic logitは技術的に困難だそうです.

Event Count Models

 俗に「ポアソン回帰」と呼ばれます.あまり頻繁には起こらない事象が各観測対象につき何回起こったかを従属変数とします.戦争,革命,クーデタ,なんかの説明に使われます.事象の起こり方に(正負どちらでも)相互連関があるときは「負の二項分布(Negative Binomial)回帰」が用いられます.

Event History Models

 俗に「Survival Analysis」「Duration Analysis」「Failure Analysis」とも呼ばれます.各観測対象についてある事象が起きるまでどの程度の時間を要したかを従属変数とします. 内閣の寿命,民主化への移行タイミング,和平の崩壊,同盟の崩壊などに応用されています.従属変数の非負性,観測の途中打ち切りの問題(censoring=>後述)をうまく扱えるのが特徴的です.従属変数の分布に特定の関数(指数,ワイブル,等)を仮定するパラメトリックモデルと比例ハザードによるセミ(セマイ)パラメトリックモデルがありますが,後者がよく用いられているようです.後者はハザード関数を二つの部分,すなわち時間だけに依存して観測対象間には依存しないベースラインハザードの部分と個々の観測対象によって決まるe(-Xβ)の部分とに分解します.こうすると観測対象間でハザードの比をとるとベースラインハザードは全て落ちてe(-Xβ)の部分だけが問題となるわけです.どこがうれしいかというと,「ある観測対象のハザード関数」と「その時点まで生き残った全ての観測対象のハザード関数の和」の比として「部分尤度」なるものを定義してやれば,この部分尤度の積を最大化してやることでefficiencyを殆ど損なうことなくパラメーター推定ができてしまう点です.ベースラインハザードの部分は部分尤度として比をとるときにきれいに消えてしまうので分布の形に悩む必要ないわけで,半分しかパラメーターが出てこないという意味でセミ(=半)パラメトリックモデルと呼ばれているわけです.

Selection Bias

 シャーロック・ホウムズの中に飼い犬が吠えなかった事実から犯人を推理する話(「名馬シルバーブレイズ」)があります.我々は普段起きた事象にしか注目しませんが,起きなかったことの中にも重要な事実が隠されていることが往々にしてあるわけです.「セレクション・バイアス(sample or case) selection bias」とは表面に現れたものにしか目を向けないことによる推定の偏りのことを指します.水面下に隠されたものに注目すると全然別の話になっているかもしれないということです.その最も基本的なものとしてcensoredなもの(独立変数は一応観測されるけど対応する従属変数の値が隠れている場合)とtruncatedなもの(独立変数も観測されない場合)があります.具体的なモデルとしてはTobitやHeckmanが有名です.




-----------------------------168071508944249 Content-Disposition: form-data; name="userfile"; filename=""