ロジスティック回帰モデルの最尤推定値

2017/09/21 20:00

推定の有望な手段は次の２つがある.
①　MHによる、因子調整
②　glm系（GAM含む）による推定

　②では、調査した因子がモデルに含まれていないと、推定した切片の値が異常*となることで、因子が「ほかにある」ことを知れる.これは、食中毒であったかどうかの判断に数値的ヒントを与える.
　*異常とは、その切片から計算した発生率が”非曝露群としては異常に高い”ことを示す.
　なお、切片が異常である場合でも、因子ごと推定係数はわりとまともである.

　ロジスティック回帰モデルについて具体的に調べる.
　モデルの一般的な説明はしない.
　ある事例の平均発生率はロジスティック関数を使って、下式（１）のように表せる.βnはNull modelにおける推定係数であり、同時に事例の発生オッズのlnでもある.　

　　　　　　　　　　　　　　　　　・・・（１）
　　　　　　　　　　　　　　　　　　　　　　＊　事例平均が1/2なら、βn=0 .

　事例の発生率ないしβnと曝露因子の推定係数（切片β。、係数βi）の関係をみる.
　Null modelに限らず、eの肩にかかる数は-∞~+∞の間の値をとれ、（１）自身は0〈かつ〈1にある.
　さて、この事例に、因子xiが関わっており、非０非１な曝露状況があれば、発生数は2分され、下式（２）の2つの項、左項は、暴露時発生確率×暴露率、右項は非暴露時発生確率×非暴露率となる.
　

　　　　　　　　　　　　　　　　・・・　（２）
　　　　　　　ここで、全体の対象者数は変化ないものとし、暴露の比をｒとする.
　　　　　　　　　　　　　　　　　　　＊　因子iなしなら、(2)がβnullそのものになる.

[係数関係の拘束]
　（２）は、曝露の都合で2分された（１）なのだから、βnが決める（１）の値（平均発生率）はｘ、B。の関係を拘束する.また、同一事例のデータを基にしながらも、因子の置き方（曝露の都合）により、異なった推定係数の組み合わせは無数に現れうる.
　（１）,（２）式とも、単調増加するロジスティック関数（「L関数」と略す）であり、r は、因子ごとに異なるが、因子の効果の大きさと関係しない定数と扱える.
　（２）のL関数2つの式をみると、βiが増加するとXが小さくなり（2）左項は増加する.一方、2つの式の和は定数であり、右項は小さくならねばならないからB。は大きく、つまりβ。は小さくなって”バランス”する.よって、推定される係数βi、β。は定数であるβnに束縛されながら、互いに逆符号方向へ増減する、”バランス”機構のうえでの自由性があるとわかる.

[glmによる最尤推定の具体計算]
　ここでglmの推定機構は最尤推定であり、これもまたその事例の発生率を目指した係数をはじき出す（下表）.生起因子のみのモデルでは、生起因子と切片で、発生率をめいっぱい説明するような推定結果を出す.また、生起因子をreduceしたモデル（「サプレッサーのみ」）では、係数は負側に大きく、切片は正側に大きくなってしまう.

　観光船事例：　　　　　　　　　　　　
　　　　　　　　　　事例全体　　　生起因子のみ　　　サプレッサーのみ
　　　切片　　　　βn　-0.227　　　　β。 -2.54　　　　　　-0.18
　　　因子係数　　　　　-　　　　　βi　   2.65　　　　　　-0.45　
　　　　　　　　　　　　　　　　β。+βi    -2.54+2.65　　　 -0.63　　　　　　
　   　発生率　　　　　0.443　　　　　　　0.443　　　　　0.444

・より尤もらしいモデルは、推定値がデータとつじつまのあうモデルであるはず.平均を目指す一方、曝露状況に応じて、推定されること（最尤推定）だけでなく、因子間にも関係を想定すべきことが要求されるのは、必然だと知らされる.

morの解析ブログ

解析疫学、リスクにまつわるメモや計算

ロジスティック回帰モデルの最尤推定値