morの解析ブログ

解析疫学、リスクにまつわるメモや計算

「推定」のまわりをさぐる.教科書では「解析はMHにより行う、因子が多ければ重回帰を用いる」という風で詳しい例は少ない.独自(のつもり)な思いつきで具体に試行.
 数理を用いるべきアセスメントにも切り込む.

曝露パターンgを調べる・・その2

 重複した因子を曝露パターンでまとめると、そのgは独立し、元の因子の関係;生起、抑制、交互作用が俯瞰できた.gを推定して何がみえるか. 
 (g)lm、optim、線形回帰とlogistic回帰により最小二乗 mls Σ(p-y)^2と 最尤推定 NLL  -Σ (yln(p)+(1-y)ln(1-p))による推定値を調べる.普通の重複あるデータと独立データそれぞれ試す.

 
  横軸:lm;線形回帰最小二乗による推定値から率を計算したもの 
  縦軸:各推定値から率を計算したもの


・左図;普通データ
     青 optimによる線形回帰最小二乗推定
     赤 glm logistic回帰最尤推定 (一部結果プロット省略)
 optimと(g)lmでは、線形どうし、logisticどうしは極めて類似するが、線形とlogisticは差が大きい.


・右図;因子まとめg化したものの推定 
 optimによる線形回帰最小二乗推定、logistic回帰による最尤推定、最小二乗推定、glmによる logistic回帰、最尤推定のプロットは重なり、値は一致.
 独立データは推定法2つのどちらでも、結論が変わらない.


・普通データでは、線形回帰とlogistic回帰とで差があった.
 このことだけから理由を考えると・・・ひとつにデータの曝露重複のせいか.


・曝露gに分けた新たな因子の試行は、むしろ推定モデルの違いをあらわにした.

×

非ログインユーザーとして返信する