メモ：glmで推定した係数のseが大きい

2022/01/11 08:00

・Rが推定する係数のse
　数~10前後の因子についてglm logistic回帰をして係数を得る.x1が生起因子とわかる.
　因子をこれ１つとしたモデルをつくり、seなどを比較する.
     　8因子モデル　　　x1　　　se　　　切片　　se　　　AIC
　      　　　　　　　　　　　0.679　　 -2.55　　0.735　 266.58
　     単純化model　　　x1　　 se   　　切片    　se　　    AIC　
　　      　　　　　　　　　　0.618　 -2.54　　0.600　 271.66
　　　
　　2つのモデルにおいて、切片のseは単純化modelの方が小さい.
　　AICはまあまあ満足できる値である.事例を特徴は、x1のみでうまく表現できるから、ここではまあ良いモデルとしておく.
　さて、因子、切片の2seからとりうる範囲の発生確率を計算すると、盛大にばらつく.
　いずれも結果に対する範囲から規定される値でないからだろう.では、係数の2seは、何の意味があるだろうか.
　定数項ともいわれる切片β。は”意味がない”とされることがあるが、２×２表を思い浮かべれば、非曝露群コントロールグループの発生率を決定し、曝露群の発生率にも入り込む重要な数である.
　さてその切片係数のseは、0.135だが、±2seに対応する発生率の範囲は、0.38-0.51となる.しかし、上の２モデルの係数からその率は、

　　　　　　　　　0.072~0.073

であった.これを期待確率としておく.
　曝露しなかった45人に対して、発生数の観測値は3人であったが、期待確率から期待値2.9人となり、実態と食い違いがないといってよい.コントロールグループの充分性についていえば、1因子モデルは結果的によく発生状況を現したが、これらから考えれば、係数のse範囲はいかにも大きく、一方で点推定値は、なんといい塩梅ででてきたものかと.

　ここにきて、点推定で押しまくってきたこともまんざら外した話ではなかった.
　それにしてもなぜ、推定されるseはかくも大きいのか？
　　

　1つの解法：
記事　超幾何分布から信頼下限を決める　加筆＋微修正 - morの推定勉強ブログ
生起因子を率に戻して員数とすると曝露数下で二項分布によりばらつきを推定できる.

morの解析ブログ

解析疫学、リスクにまつわるメモや計算

メモ：glmで推定した係数のseが大きい