■ 超幾何関数の分散は、次元が度数と同じであり、起こりうるばらつきを示す
これは曝露数を変数とするから因子ごとに幅が異なり、凸な曲線を描く
観察したリスク値を同じ次元に加工すれば、その分散と対比できると考え試した
▼ 超幾何関数の分散;var
k、N-kは 因子ごとに異なる
・因子ごとのvar ; vg を求める
各因子について、ベクトルとし、
vg : 曝露群についてのvar
kは、osmx[2,] 曝露数である
vg <-(53-osmx[2,])*osmx[2,]*(53-37 )*37/(53-1)/53/53 #N=53 Y=37
vg_ : 非曝露群についてのvar
vg_ <-(53-osmx[4,])*osmx[4,]*(53-37 )*37/(53-1)/53/53
vg=vg_ となる
plot(xlim=c(1,50),ylim=c(0,4),osmx[2,],vg) # 因子 曝露数ごと ○
因子のkによって変わる hypergeo variance 横軸、曝露数k
G内発生すべてをYとするvar
偶然起こりうる幅は実データの曝露数により異なる、3あたりまでの正の数となる
▼ 観察した因子の発生効果を「人」次元に
因子の効果は、人次元ではないので 発生数差から考え始める
曝露、非曝露各Gで発生数の差を 単純に計算
osmx[1,]-osmx[3,]
y yakih spi pote cabe jero rol tyap milk cafe wat cake
37 17 13 7 -5 -7 5 -3 -33 -1 -13 11
vice choco salad
31 15 -31
なのだが、k1k2により荒れる それぞれで除して差をとる
osmx[1,]/osmx[2,]-osmx[3,]/osmx[4,]
y yakih spi pote cabe jero
1.00000000 0.04385965 -0.07432432 -0.02678571 0.04985337 0.02678571
rol tyap milk cafe wat cake
-0.04985337 0.07246377 -0.21428571 -0.01139601 -0.10371517 -0.09803922
vice choco salad
0.49069767 -0.11904762 -0.10833333
とするのだが、ID 1つあたりのrisk;RDと同じものになる kの<10の因子は捨てる
これは、ID 1つあたりの数値であるから、Nを乗じて
RD・N
因子ごとのrisk人数;G全体が曝露した場合の となる
・分散と効果の対比
起こりうる幅vgは、3までの数値となる これを基準0からの幅とする
その幅は、kの異なる因子に応じて変化:拡大縮小する
各因子RD・Nとともに図示する
plot(xlim=c(1,15),ylim=c(-15,10), (osmx[1,]/osmx[2,]-osmx[3,]/osmx[4,])*51)
text(x=1:15,y=( osmx[1,]/osmx[2,]-osmx[3,]/osmx[4,])*51+0.5,colnames(oamz),cex=0.7)
text(x=1:15,y=vg,"-------",cex=1,col="blue")
text(x=1:15,y=-vg,"-------",cex=1,col="blue")
RD×N と 分散幅
RD(・N)=0 が 因子効果なしを示す水準
RDNは因子の性格を示す一つの指標とみえる
▼ 蛇足
起こりうる範囲vgをそのまま判断基準とすると、多くの因子は弱い抑制性を持つようだ ;過去記事の結論に近い
RDNでは、 tyapに 阻止性、spi,wat,cake,chocoに抑制性があるとみえる;cakeは生起前提であったのでこの場合2面性
この結論は、記事「Rで 度数行列からriskの信頼性、quantileで起こりにくさをみる記述-- 因子の選択」のものと同じとなる
判断基準としたこの方法は つまり、因子選択の別法