morの解析ブログ

解析疫学、リスクにまつわるメモや計算

「推定」のまわりをさぐる.教科書では「解析はMHにより行う、因子が多ければ重回帰を用いる」という風で詳しい例は少ない.独自(のつもり)な思いつきで具体に試行.
 数理を用いるべきアセスメントにも切り込む.

 logit変換値から縦軸偏差で最適化する

 logit変換して得た因子効果から合成値を得て、それと観察値との、差の二乗和で効果を最適化してみる.
 異常値の影響を減らして、因子効果の精度を上げる手計算.
                       ここではstdevによる値を偏差という


■ 観察したgからlogit変換で差を取り、推定した因子をもとに、gのlogit値を再現できた. t、sは大Ngから係数が作れて信頼でき、値を固定しておく.m、pは、Nの十分な比較gが少ないためlogit差を決めるペアに中N異常値も含まれ、不安*がある.また、過去調べたrisk順位とも違っている.
     * m;小Nによるペアしかない
       p;N=9 を含むか小Nによるペアしかない
 よって、m、pを調べる.これらの値を揺らせば、観察値との偏差が増減し、偏差の少ない方の値が、更新できる.


 Y:観察 率のlogit変換値
 X:合成 Yから推定した因子の係数和;初期値
 最適値を探すためstdevを使う.

    

 曝露状況が一致するYとXの計算をする.


■ 最適化
・観察値gから決めた推定値と観察logitとのvarをとる.

 

 について、j 番目の Xj を ε だけ変化させると、ℒは、

  

  だけ変化する.最低値が探せそうだ.
  
■ 結果
・mは初期値-0.268であったが、-0.30~-0.33でdevの変化が緩やか、最小値のある範囲.
   m    -0.29   -0.30   -0.33   -0.34
   dev    0.7773  0.7772   0.7772   0.7773
・pについて初期値は-0.322であったが、-0.28~-0.30.
    p     -0.28      -0.30     -0.31
   dev       0.7766     0.7766  0.7767 
くりかえすと、 m-0.31,p-0.29など. 


・最もふさわしい係数は、m=-0.31、p = -0.29 でよかろう.


        ア  層化による推定値

                         イ  logit変換による初期推定値    
                 偏差最適値 ;模式 



■ まとめ
 線形回帰に任せるなら、最小二乗法でデータ丸ごと計算させることになるが、例題に対しては、手探りで別な方法;データの選別 をとってきた.異常値はg単位で捨て、大Nのgを選んで適切な係数を得て、ここで固定してしまい、よいgの観測値に対して残りの係数の最適な値を手動で”回帰”させる.
 小Nなgの異常値を排除しないまま、回帰分析に入れればかえって結果は乱されるだろう.
 0,1だけのデータから異常値を摘発してID削除することはできずにいたが、これを具体化するには、曝露状況で分けたgが大Nであるかを使えばいい.


・縦方向の改善
 stdevは最小二乗との類似性に注目した.むしろ偏差の増減が2次式だということを手計算で体験できた.偏差の変化は小刻みだった、そもそもN大で異常でないという条件で初期値、係数を決めたことも理由か.結果、 m < p となって、以前の検討で得た、mの弱い抑制性を支持する自然な帰結.

×

非ログインユーザーとして返信する