morの解析ブログ

解析疫学、リスクにまつわるメモや計算

「推定」のまわりをさぐる.教科書では「解析はMHにより行う、因子が多ければ重回帰を用いる」という風で詳しい例は少ない.独自(のつもり)な思いつきで具体に試行.
 数理を用いるべきアセスメントにも切り込む.

交絡の「コントロールグループの充分性による定義」を解き明かす


■ コントロールグループの充分性による定義を考える.
on definition of confound on sufficiency of control group
 佐藤氏が紹介する、「曝露しなっかった群の発症リスク(平均)が暴露した群の、曝露しなかった場合のリスク平均に一致しないとき、交絡である」の定義を検討する.
 統計数理研究所hpなどから「疫学研究における交絡と効果の修飾」 http://ismrepo.ism.ac.jp/dspace/bitstream/10787/2212/1/TS42-1_010.pdf  を元データとする.
 CHDのリスクは、
           曝露しなっかった群の発症リスク(平均)= 0.209(CHD)
である.
 曝露した群が、もし暴露していないとした場合の発症リスク(平均)は測れないので、model(この例では交互作用項投入model)を用いて期待値を求めると、
               期待リスク平均 = 0.267
となり、値が明らかに異なり、交絡があるとの結論になる.
 これは、何を意味するか.
■ ロジスティックglm係数から考える 
 glmでは、単純な例で考えれば、暴露しない場合の群の発症確率(交互作用項を投入しない場合)は、β。とβ2で決まり、非曝露群のそれもまた、β。とβ2で決まる.
 くわしくは、以下の通り.
例により、線形予測子をなす係数を
    β。+ β1 + β2 
     β。:切片、β1:生起因子(暴露)、
     β2:交絡を疑う因子 
とおくと、非交絡層の曝露した群での
  ある1人の発症確率      :pe1c0、
  曝露しなかった群での発症確率 :pe0c1
  交絡群でのそれぞれ      :pe1c1,pe0c0
として、
 曝露群の 暴露しなかった場合の2つの群での確率は、
   1群 pe’0c1  =  logisitic(β。+ β1-β1 + β2)
   2群 pe’0c0  =  logisitic(β。+ β1-β1 )
からなるリスク平均であり、これが、非暴露群の2つの群での確率
   3群   pe0c1 = logisitic(β。+ β2)
   4群   pe0c0 = logisitic(β。)
からなるリスク平均との同異をしらべる、ということになる.
test : compare coefficients & odds
in glm ,coefficients between exposure groups ,non-exposure g.
in stratification ,odds between exposure groups , non-exposure g.
unique or not


 正しいモデルでは、β。β1,2が群間で一致し、glmは交絡を調整した係数を与える. 
 また、交互作用がない(取り除かれている)なら、β1とβ2は独立で作用し、ねじれがなくみえる.
 1,2群についてβ1を差し引くことで、”暴露しなかった場合”の発症確率となるが、3,4群の発症率に対応する発症確率をみれば、一致する.
 これは、確率の場合である.


■ 同一発症確率でのリスクの違い
 リスクに換算していくと、g各セルの人数とのかかわりが生じてくる.確率のみの比較でなく、いったん構成する人数に乗除することになる.ここで1,2群のセル人数は、3,4群と異なる(ほとんどの場合)が、リスク値は、β2≠0を条件として、1,2群の、暴露群のβ2に対する曝露状況は、3,4群非曝露群のβ2に対する曝露状況と異なることになる.したがってそれら群のリスク値に、違いが現れる.
■ リスクに換算したことの、交絡定義の意味
 コントロールグループの充分性による交絡の定義は、1,2群において、β1の曝露を(人為的に)キャンセルした結果が、2,4群の結果(2,4群の結果を信頼してベースにする)と異なることを示すものだが、これは、新たな暴露状況を作り出して交絡因子β2≠0を確認する作業である.
 つまりβ2の存在をセル人数組成の違いで浮かび上がらせることに他ならない.



×

非ログインユーザーとして返信する