ロジスティック回帰モデルの最尤推定値
推定の有望な手段は次の2つがある.
① MHによる、因子調整
② glm系(GAM含む)による推定
②では、調査した因子がモデルに含まれていないと、推定した切片の値が異常*となることで、因子が「ほかにある」ことを知れる.これは、食中毒であったかどうかの判断に数値的ヒントを与える.
*異常とは、その切片から計算した発生率が”非曝露群としては異常に高い”ことを示す.
なお、切片が異常である場合でも、因子ごと推定係数はわりとまともである.
ロジスティック回帰モデルについて具体的に調べる.
モデルの一般的な説明はしない.
ある事例の平均発生率はロジスティック関数を使って、下式(1)のように表せる.βnはNull modelにおける推定係数であり、同時に事例の発生オッズのlnでもある.
・・・(1)
* 事例平均が1/2なら、βn=0 .
事例の発生率ないしβnと曝露因子の推定係数(切片β。、係数βi)の関係をみる.
Null modelに限らず、eの肩にかかる数は-∞~+∞の間の値をとれ、(1)自身は0〈かつ〈1にある.
さて、この事例に、因子xiが関わっており、非0非1な曝露状況があれば、発生数は2分され、下式(2)の2つの項、左項は、暴露時発生確率×暴露率、右項は非暴露時発生確率×非暴露率となる.
・・・ (2)
ここで、全体の対象者数は変化ないものとし、暴露の比をrとする.
* 因子iなしなら、(2)がβnullそのものになる.
[係数関係の拘束]
(2)は、曝露の都合で2分された(1)なのだから、βnが決める(1)の値(平均発生率)はx、B。の関係を拘束する.また、同一事例のデータを基にしながらも、因子の置き方(曝露の都合)により、異なった推定係数の組み合わせは無数に現れうる.
(1),(2)式とも、単調増加するロジスティック関数(「L関数」と略す)であり、r は、因子ごとに異なるが、因子の効果の大きさと関係しない定数と扱える.
(2)のL関数2つの式をみると、βiが増加するとXが小さくなり(2)左項は増加する.一方、2つの式の和は定数であり、右項は小さくならねばならないからB。は大きく、つまりβ。は小さくなって”バランス”する.よって、推定される係数βi、β。は定数であるβnに束縛されながら、互いに逆符号方向へ増減する、”バランス”機構のうえでの自由性があるとわかる.
[glmによる最尤推定の具体計算]
ここでglmの推定機構は最尤推定であり、これもまたその事例の発生率を目指した係数をはじき出す(下表).生起因子のみのモデルでは、生起因子と切片で、発生率をめいっぱい説明するような推定結果を出す.また、生起因子をreduceしたモデル(「サプレッサーのみ」)では、係数は負側に大きく、切片は正側に大きくなってしまう.
観光船事例:
事例全体 生起因子のみ サプレッサーのみ
切片 βn -0.227 β。 -2.54 -0.18
因子係数 - βi 2.65 -0.45
β。+βi -2.54+2.65 -0.63
発生率 0.443 0.443 0.444
・より尤もらしいモデルは、推定値がデータとつじつまのあうモデルであるはず.平均を目指す一方、曝露状況に応じて、推定されること(最尤推定)だけでなく、因子間にも関係を想定すべきことが要求されるのは、必然だと知らされる.
.