morの解析ブログ

解析疫学、リスクにまつわるメモや計算

「推定」のまわりをさぐる.教科書では「解析はMHにより行う、因子が多ければ重回帰を用いる」という風で詳しい例は少ない.独自(のつもり)な思いつきで具体に試行.
 数理を用いるべきアセスメントにも切り込む.

ロジスティック回帰モデルの最尤推定値

推定の有望な手段は次の2つがある.
① MHによる、因子調整
② glm系(GAM含む)による推定


 ②では、調査した因子がモデルに含まれていないと、推定した切片の値が異常*となることで、因子が「ほかにある」ことを知れる.これは、食中毒であったかどうかの判断に数値的ヒントを与える.
 *異常とは、その切片から計算した発生率が”非曝露群としては異常に高い”ことを示す.
  なお、切片が異常である場合でも、因子ごと推定係数はわりとまともである.


 ロジスティック回帰モデルについて具体的に調べる.
 モデルの一般的な説明はしない.
 ある事例の平均発生率はロジスティック関数を使って、下式(1)のように表せる.βnはNull modelにおける推定係数であり、同時に事例の発生オッズのlnでもある. 

          

                 ・・・(1)
                      * 事例平均が1/2なら、βn=0 .


 事例の発生率ないしβnと曝露因子の推定係数(切片β。、係数βi)の関係をみる.
 Null modelに限らず、eの肩にかかる数は-∞~+∞の間の値をとれ、(1)自身は0〈かつ〈1にある.
 さて、この事例に、因子xiが関わっており、非0非1な曝露状況があれば、発生数は2分され、下式(2)の2つの項、左項は、暴露時発生確率×暴露率、右項は非暴露時発生確率×非暴露率となる.
 

             

                ・・・ (2)
       ここで、全体の対象者数は変化ないものとし、暴露の比をrとする.
                   * 因子iなしなら、(2)がβnullそのものになる.


[係数関係の拘束]
 (2)は、曝露の都合で2分された(1)なのだから、βnが決める(1)の値(平均発生率)はx、B。の関係を拘束する.また、同一事例のデータを基にしながらも、因子の置き方(曝露の都合)により、異なった推定係数の組み合わせは無数に現れうる.
 (1),(2)式とも、単調増加するロジスティック関数(「L関数」と略す)であり、r は、因子ごとに異なるが、因子の効果の大きさと関係しない定数と扱える.
 (2)のL関数2つの式をみると、βiが増加するとXが小さくなり(2)左項は増加する.一方、2つの式の和は定数であり、右項は小さくならねばならないからB。は大きく、つまりβ。は小さくなって”バランス”する.よって、推定される係数βi、β。は定数であるβnに束縛されながら、互いに逆符号方向へ増減する、”バランス”機構のうえでの自由性があるとわかる.


[glmによる最尤推定の具体計算]
 ここでglmの推定機構は最尤推定であり、これもまたその事例の発生率を目指した係数をはじき出す(下表).生起因子のみのモデルでは、生起因子と切片で、発生率をめいっぱい説明するような推定結果を出す.また、生起因子をreduceしたモデル(「サプレッサーのみ」)では、係数は負側に大きく、切片は正側に大きくなってしまう.


 観光船事例:            
          事例全体   生起因子のみ   サプレッサーのみ
   切片    βn -0.227    β。  -2.54      -0.18
   因子係数     -       βi    2.65      -0.45 
                β。+βi    -2.54+2.65     -0.63      
     発生率      0.443       0.443       0.444



・より尤もらしいモデルは、推定値がデータとつじつまのあうモデルであるはず.平均を目指す一方、曝露状況に応じて、推定されること(最尤推定)だけでなく、因子間にも関係を想定すべきことが要求されるのは、必然だと知らされる.


.

×

非ログインユーザーとして返信する