morの解析ブログ

解析疫学、リスクにまつわるメモや計算

「推定」のまわりをさぐる.教科書では「解析はMHにより行う、因子が多ければ重回帰を用いる」という風で詳しい例は少ない.独自(のつもり)な思いつきで具体に試行.
 数理を用いるべきアセスメントにも切り込む.

var; 超幾何関数の分散というもの

varとはなにか

 

を 度数table

    

  からみると、

  var =    (N-k)k/N * (N-y)y/N  /(N-1)  から、

    k1k2/N * y1y2/N   /(N-1)  

1/(1/k1+1/k2) * 1/(1/y1+1/y2) / (N-1)

 なので、曝露に関する調和平均の半値発生に関する調和平均の半値からなるとわかる ■ 事例にみるvar

 1:15因子ごと  vg <-(53-osmx[2,])*osmx[2,]*(53-37 )*37/(53-1)/53/53 だが、

 因子の曝露数;kを 1個づつ動かすと
    vark <-(53-k)*k*(53-37 )*37/(53-1)/53/53  
 は、放物線となって、2Gで差をとると打ち消しあい一様な0となる

二乗し差を平方根とするとvarkにもどる 

・varの逆数

 vark^-1 は、k=0,Nのとき無限大、10

    

         vg           vg^-1

   hhm<- 1/(1/osmx[2,]+1/osmx[4,]) として

              (53-37)*37/(53-1)/53 = 0.2148041

 結局、 

   var = hhm * 0.2148041

となる

・参考作図

  plot( xlim=c(0,3),ylim=c(0,3) ,"")    

text ( x=hhm*0.2148,y=vg,"*") 
text ( x=hhm*0.2148,y=vg,colnames(osmx),cex=0.7) 

      k1k2の調和平均の半値に比例するvar




 超幾何関数の分散 と 同じ次元をもたせたRDN指標

■ 超幾何関数の分散は、次元が度数と同じであり、起こりうるばらつきを示す
 これは曝露数を変数とするから因子ごとに幅が異なり、凸な曲線を描く
 観察したリスク値を同じ次元に加工すれば、その分散と対比できると考え試した
▼ 超幾何関数の分散;var 

        k、N-kは 因子ごとに異なる

・因子ごとのvar ; vg を求める 
  各因子について、ベクトルとし、
       vg  : 曝露群についてのvar
      kは、osmx[2,] 曝露数である 
vg <-(53-osmx[2,])*osmx[2,]*(53-37 )*37/(53-1)/53/53 #N=53 Y=37
vg_ : 非曝露群についてのvar
vg_ <-(53-osmx[4,])*osmx[4,]*(53-37 )*37/(53-1)/53/53 
     vg=vg_ となる
 plot(xlim=c(1,50),ylim=c(0,4),osmx[2,],vg)     # 因子 曝露数ごと

   


     因子のkによって変わる hypergeo variance   横軸、曝露数k

            G内発生すべてをYとするvar
 
 偶然起こりうる幅は実データの曝露数により異なる、3あたりまでの正の数となる
 観察した因子の発生効果を「人」次元に 

 因子の効果は、人次元ではないので 発生数差から考え始める
曝露、非曝露各Gで発生数の差を 単純に計算
  osmx[1,]-osmx[3,]
      y yakih   spi  pote  cabe  jero   rol  tyap  milk  cafe   wat  cake 
  37 17 13 7 -5 -7 5 -3 -33 -1 -13 11
  vice choco salad
  31 15 -31
 なのだが、k1k2により荒れる それぞれで除して差をとる 
   osmx[1,]/osmx[2,]-osmx[3,]/osmx[4,]
    y     yakih    spi   pote   cabe   jero
  1.00000000 0.04385965 -0.07432432 -0.02678571 0.04985337 0.02678571
    rol     tyap    milk   cafe   wat    cake
  
-0.04985337 0.07246377 -0.21428571 -0.01139601 -0.10371517 -0.09803922
         vice        choco         salad 
   0.49069767 -0.11904762 -0.10833333
 とするのだが、ID 1つあたりのrisk;RDと同じものになる kの<10の因子は捨てる
 これは、ID 1つあたりの数値であるから、Nを乗じて
          RD・N  
 因子ごとのrisk人数;G全体が曝露した場合の となる
 


・分散と効果の対比 

 起こりうる幅vgは、3までの数値となる これを基準0からの幅とする

 その幅は、kの異なる因子に応じて変化:拡大縮小する

 各因子RD・Nとともに図示する     

  plot(xlim=c(1,15),ylim=c(-15,10), (osmx[1,]/osmx[2,]-osmx[3,]/osmx[4,])*51)

  text(x=1:15,y=( osmx[1,]/osmx[2,]-osmx[3,]/osmx[4,])*51+0.5,colnames(oamz),cex=0.7)

  text(x=1:15,y=vg,"-------",cex=1,col="blue")

text(x=1:15,y=-vg,"-------",cex=1,col="blue")

 

               RD×N と 分散幅  

                     RD(・N)=0 が 因子効果なしを示す水準

 RDNは因子の性格を示す一つの指標とみえる 

▼ 蛇足

 起こりうる範囲vgをそのまま判断基準とすると、多くの因子は弱い抑制性を持つようだ ;過去記事の結論に近い

 RDNでは、 tyapに 阻止性、spi,wat,cake,chocoに抑制性があるとみえる;cakeは生起前提であったのでこの場合2面性

 この結論は、記事「Rで 度数行列からriskの信頼性、quantileで起こりにくさをみる記述-- 因子の選択」のものと同じとなる

 判断基準としたこの方法は つまり、因子選択の別法