morの解析ブログ

解析疫学、リスクにまつわるメモや計算

「推定」のまわりをさぐる.教科書では「解析はMHにより行う、因子が多ければ重回帰を用いる」という風で詳しい例は少ない.独自(のつもり)な思いつきで具体に試行.
 数理を用いるべきアセスメントにも切り込む.

メモ:glmで推定した係数のseが大きい

・Rが推定する係数のse
 数~10前後の因子についてglm logistic回帰をして係数を得る.x1が生起因子とわかる.
 因子をこれ1つとしたモデルをつくり、seなどを比較する.
      8因子モデル   x1   se   切片   se   AIC
                  0.679   -2.55  0.735  266.58
      単純化model   x1    se      切片     se      AIC 
                  0.618     -2.54  0.600  271.66
   
  2つのモデルにおいて、切片のseは単純化modelの方が小さい.
  AICはまあまあ満足できる値である.事例を特徴は、x1のみでうまく表現できるから、ここではまあ良いモデルとしておく.
 さて、因子、切片の2seからとりうる範囲の発生確率を計算すると、盛大にばらつく.
 いずれも結果に対する範囲から規定される値でないからだろう.では、係数の2seは、何の意味があるだろうか.
 定数項ともいわれる切片β。は”意味がない”とされることがあるが、2×2表を思い浮かべれば、非曝露群コントロールグループの発生率を決定し、曝露群の発生率にも入り込む重要な数である.
 さてその切片係数のseは、0.135だが、±2seに対応する発生率の範囲は、0.38-0.51となる.しかし、上の2モデルの係数からその率は、

         0.072~0.073

であった.これを期待確率としておく.
 曝露しなかった45人に対して、発生数の観測値は3人であったが、期待確率から期待値2.9人となり、実態と食い違いがないといってよい.コントロールグループの充分性についていえば、1因子モデルは結果的によく発生状況を現したが、これらから考えれば、係数のse範囲はいかにも大きく、一方で点推定値は、なんといい塩梅ででてきたものかと.


 ここにきて、点推定で押しまくってきたこともまんざら外した話ではなかった.
 それにしてもなぜ、推定されるseはかくも大きいのか?
  


 1つの解法:
記事 超幾何分布から信頼下限を決める 加筆+微修正 - morの 推定 勉強ブログ
生起因子を率に戻して員数とすると曝露数下で二項分布によりばらつきを推定できる.

×

非ログインユーザーとして返信する