むやみにモデリング→手計算へと

2022/03/15 02:02

■　いつも使うデータは、glmやMHの大変いい勉強材料となっている.が因子の曝露重複がつよく、コントロールｇが小さく交互作用項をいれると発散も頻繁である.交互作用に頼った解析ができないので、しかたなくいろいろ工夫してみる.

■　モデリングでは、尤もらしい結果が簡単に取り出せる.因子を増やせばモデルの数だけ違った結果が出る.データをモデルに入れて係数の変化をみておく.

　　　　　　　　推定係数からのリスク値増減率
　　　　　　　　　　　　　　　　　　8因子モデル　（対12因子モデル）　　　　　
　　glm　　　　　　　　＋側に振れた係数からのリスク　 +13.9 %　 - 側　 + 7％
　　 lm　　　　　　　　　〃　　　　　　　　　　　　　 + 6.0％　　〃　 -17％　

　12因子を入れたモデルの推定値に比べ、8因子としたものでは多くの因子が係数を変化させる.また、めしでは符号を変える（どちらが真に近いかは決められない）.
　このようなクセを忘れず頭に置く必要がある；自戒.

　lmの推定では、個々因子の変化は小さめだが、推定された切片が0.11（11%)を示す.
　この値は、N=219の集団では24 IDのメンバーが説明のつかないリスクを持つことに相当し、切片0を指定すると抑制因子のはずのお茶の係数は生起側になる（！）.これはMHや別の検討結果と矛盾するから因子が線形で効いていない、観察のyiが、推定値；piの単純な加算減算ではないことを解らせる.もちろん推定係数のstderrorは大きく、信頼性は小さいと推定してくれてはいるが・・.

■　また、推定の方法は、lm系推定では、最尤推定や最小二乗など、すべてのデータが参加して、ある量を最小にするような係数を探してくる.glmﾛｼﾞｽﾃｨｯｸ回帰では、最尤推定による；①平均値をまもる②曝露因子が発生数を決めるの鉄則から推定される.このことも頭に置かないと右往左往する.最小二乗などで都合が悪いときは、lm系を使わないでいい.
　ここでlmを持ち出したのは、推定値が単純な加算減算を前提にしているなら因子の関係を手計算するときも調べやすいと見込んだからなのだ.上のようなこともあろうが、上手く推定するところはそれなりに使い、都合悪いならこれをヒントに手動でリスク値を試すことにする.

■　因子関連を考えようとするが、現状生起、抑制因子を並べただけでは足りず、さりとてモデリングで発生に無関係とみえても切りすてることができない.過去記事のように、式でもって因子の関係を入れて手計算で試す必要がある.

morの解析ブログ

解析疫学、リスクにまつわるメモや計算

むやみにモデリング→手計算へと