毎日がんばれあたん

計量社会学に関するメモとモチベーションを高めてくれる推しについて

リンク関数について

おつかれあたんです

 

よく一般化線形モデル(Generalized linear model)を説明する際にしばしば出てくる「リンク関数」という言葉を自分もよくわからんままスルーしていた時期があり,同じようにいまいち理解していない人もいるのかなと思うので,いちおう自分の理解をまとめています.

 

まず一般化線形モデルとは,ざっくり言えばいわゆる残差を任意に設定できるモデルことです.つまり,いわゆる最小二乗法(OLS)線形回帰やロジスティック回帰,プロビット回帰,ポアソン回帰などがすべて一般化回帰モデルの一族といます.名前が似ているものとして,「一般線形モデル」というものがありますが,これはいわゆる最小二乗法に従うモデルのことで一般化線形モデルの一つです.

 

具体例として,ロジスティック回帰分析を考えてみます.ロジスティック回帰分析は従属変数が2値,つまりは1か0をとるときに用いる手法です.多くの統計分析の教科書にあるように,こうした二値の値を取るような事象(表か裏か,成功か失敗かなど)はベルヌーイ分布(二項分布)に従うとされています.その中でも特にロジスティクス分析に従うものをロジスティック回帰分析と呼びます.

 

ここで最初のつまずきポイントになるのが,さっき「ベルヌーイ分布に従うといったのになぜロジスティック分布が登場するのか」という点だと思います.

 

まず,「ベルヌーイ分布に従う」の部分について説明します.ここでいう「ベルヌーイ分布に従う」とはあくまでY(従属変数)の分布のことを言っているわけです.ロジスティック回帰分析はYが1か0かをとる事象を確率分布として示すことができますが,これがベルヌーイ分布に従っていると定めていることになります.

重要な点はXの値に関係なくYの分布だけ見た時にどうなっているか,を考える点です.

 

たとえば社会学だと,結婚しているか否かという分析を行う際に「結婚を1,未婚を0とする変数の分布形は何か?」ということを考えることになります.これはまさにYの分布を考えているわけでたとえば,「ベルヌーイ分布に従う」と設定して分析を行うわけです.

もちろんベルヌーイ分布に従うという仮定がいつでも正しいわけではないため,二項分布がおかしな場合には別の分布形を考えていくことになります.

 

次にリンク関数です.これは,「XとYの関係を示すのに最適な分布は何か?」と考えることに他なりません.たとえば,あるデータについてYの分布をベルヌーイ分布を仮定したとします.そして次にXとYの関係をロジスティック分布で表す,ということになります.

ここでは図示しませんが,ネットで「ロジスティック分布」,と検索すれば,どんな分布かすぐに出てきます.その特徴としては,

①範囲が0~1に収まる(OLSではこの上限下限がない点で大きく異なる)

②曲線で,単調増加(Xが増加すると,Yは常に増加する).

③Xが小さい時はYの増加も小さく,Xが中間点ではYの増加も大きく,また,最後にYの増加が小さくなる.

というような形をしています.特に①がOLSとの違いとして強調される点です.

先ほどの具体例に即するならば,結婚できるかどうかという確率は,年収によって異なる,とするならば,Xを年収,Yを結婚とする分析になるわけですが,

この「年収と結婚(確率)の関係をロジスティック分布として示す」ということになります.

 

ここで,重要なのはYがベルヌーイ分布に従えばそのリンク関数は必ずロジスティック分布である,というわけではないということです.あくまでも「ベルヌーイ分布の特徴に加えXとYの関係を示す際のロジスティック分布の①~③の特徴を考えると,OLSよりも当てはまりが良さそうな分布形だな」,ということを考えて分布形を設定しているにすぎません.

つまり,XとYの関係を示すリンク関数として(累積)正規分布を仮定してもよいわけです.リンク関数として(累積)標準正規分布を仮定する場合がプロビット分析,というわけです.

 

 ちなみに,ロジスティック分布と(累積)正規分布はかなり形状が似通っています.共通点は①で言ったように0~1までにどちらも収まるということ,さらには②と同様に単調増加です.相違点は曲率です.つまりは,Xが1単位増加した時のYの増加分はロジスティック分布と(累積)標準正規分布では少し違っています.

 

最初にもう一度戻して考えると,リンク関数とはXとYの関係を示す分布のことであって,このリンク関数を任意に設定できるものが一般化線形モデルである,と理解することができます.

 

個人的な印象としてはここまで理解するのに3ステップあるのかなと思います.

1ステップ目が「Yが0か1かの場合にはロジスティック分析かプロビット分析を用いる」

ということを理解しているか,

2ステップ目が「Yがベルヌーイ分布に従う」とはどういうことが理解しているか,

3ステップ目が「それぞれのリンク関数はロジスティック分布と(累積)正規分布に従う」ということをリンク関数という言葉の意味を含めて理解しているか,

という3ステップかなと思います.SPSS,STATA,SAS,Rなどの統計ソフトを回すだけであれば,1ステップ目さえ理解しておけば大きな問題はないと思いますが,近年増えてきた一般化線形モデルやその先に進むには,3ステップ目まで理解しておくことが必須になるのかなと思っています.

 

ちなみに近年では1段階目にあるようにYが0か1かの場合にいつもロジスティック回帰やプロビットを用いることに疑義が向けられており,OLS回帰を用いるような例もあるため注意も必要です.

 

 

 

がんばれあたん