morの解析ブログ

解析疫学、リスクにまつわるメモや計算

「推定」のまわりをさぐる.教科書では「解析はMHにより行う、因子が多ければ重回帰を用いる」という風で詳しい例は少ない.独自(のつもり)な思いつきで具体に試行.
 数理を用いるべきアセスメントにも切り込む.

メモ 回帰線と二乗和

■ 回帰線と線長の二乗和
 観測点とその回帰線を考える.観測obs、回帰線;傾きβ、角度φとする.
 obsからy軸方向の線長を1とすると、回帰線への垂線長は、 cosφ となる.
  

                                     

 最小二乗和をs1とすると、
           s1=Σ(yi-y)^2      
 同一の回帰線への垂線二乗和をs2とすると、
           s2 = Σ{(yi-y)cosφ }^2 ・・・式1
              =  s1cos^2φ
 となる.

      

 なのだから、  

        

 と表せる.
 ・s1はβの二次関数、s2はそれをβの二次関数で割った形.
 また、

     

 とも表せる. 
 0 <|β|である限り、常にs2 < s1である.
 ・垂線和は、y和より常に小さく、よりらしく思える.  

      


■ 推定
・具体的に
 手元データ;yは率からlogit、xは因子曝露(1つ.適当に単純したもの)から得た数値、
   x分散   5.67 
   xy共分散 1.59
   y分散   0.80   程 
 を使用して 式1,2から 二乗和を調べ、βをみる.
 

     

        βによる2つの二乗和


              赤 msqによる β推定値は、0.274、平方和 0.355
              青 mleによる  〃     0.297、 〃     0.327
 同一データから、2つの二乗和を調べると、異なる β、回帰線が計算される.
  

          


垂線長二乗和からβを推定することは、最尤推定となるとかなんとか.しかも主成分分析かいっ.
 mleの推定値は比較的大きく、二乗和は小さい.  

        

         
 mleとmsqからなる平面上で、
  βの動く軌道は、右上から左下へ、そしてやや右 上方に向かう.
  それらの微妙な推定値の違いがみえる.
  算術平均による点は、はるか右上にある.
 2つの最適値のあいだが気にかかる.


 
・適当な曝露xと対の観察結果yがあれば、msq、mleが描けて、それぞれの最小値が推定できる.
・msqとmleの最適なβとそれを与える最小値はそれぞれ異なる.

×

非ログインユーザーとして返信する