少数グループ発生数をみる+超幾何分布(改
曝露パターンでg化したgの発生率の振れを考えたい
ID数;Nの小さなgの率を考えるとき、超幾何関数でいじったら何かいえないか
■ 経過
多数の因子からなる事例を因子1対1の層化解析、MH調整で検討し、また多数の因子のまま線形独立とみなした推定から、生起因子、抑制因子の判別ができた.しかし、他の因子にも、結果に影響しそうな性質が否定できず、また関連しない因子をはっきりと除外できずにいた.数個の因子なら重複する曝露パターンに応じて、データをグループ化;g化できて、比較すると、因子に多面性がありうるとわかった.そのような因子は、lmの段階で係数のSEが大きいと知れ、因子判断に使えそうだった.
しかし、gの発生率は構成するID数が少ないことがあり、振れの影響が懸念される.これを考える.生起因子であるt以外の効果を除外した.
■ 因子削減後残った因子の曝露組み合わせによるg化
曝露パターンによるg化を行い、その発生率を計算する.簡単のためm,t,p,sの因子とする. ベン図風に、グループごとの発生率を図示する.
メンバー数:省略
網目;s曝露
枠で囲わない、t曝露したグループたちは発生率が高め、mやsとの曝露重複で発生抑制されることなどがみてとれる.
■ g間の率差
例えばp”あり”gから”なし”gの率の差;率差をみて、pの効果を調べられる.
理想的には、
mstp曝露したgの発生率 - msp曝露したgの発生率 = pの発生率
となる.
因子ごと率差を計算する式と率
率順
字の大きさで、gのN(小さいほう)の大きさを表す
率差が(-)を示すものは茶色字
率差から計算した因子の効果は、幅広く、往々生起側と抑制側にまたがり、独立推定時にSEが大きいのも当然と思える.Nが大きいgの率差に限っても、同じ因子の率差はかなり幅がある.
各因子の”重心”に注目すると、lmでの推定値に対応するようすがある.
しかし、Nが少ないgを扱うとき、gの発生率が振れ、差もまた不安定ではないかが気にかかる.これを調べたいので、方法を考えてみる.
■ 小数gの発生数を超幾何関数で調べる
あるgと別g’を比べる.g(N,Y)とg’(n,y)としたとき、gg’に差がないと仮定するとgからn個取り出したときの分布において、g’の観察発生数yはその期待値周辺にあるはずである.もしかけ離れたら別な性質があると考える.
小Nのgどうしの比較は無謀だろう.一方のNを大きくできれば、比較の対象とできる.例えば、p因子についてみるには、mp、mspなど複数のNおよびYを和したgを新たに作る.このgから、いくつかの個数を取り出したものの分布をみて、観察した発生数と比べる.
■ 計算例
mにかかるg率差ペアは次の3つがある.左辺はNが大きく右辺はいずれもNが小さいため、3ペアを縦に和す(3:3).
msp - sp
mstp - stp
mtp - tp
Y1 116 5
N 195 10
mありから、10個ID取り出す超幾何分布を調べ、5と比べる.
つまり、mありとmなしに差はないとの仮説を立て、mの性質を調べることとなる.
x<-c(0: 10)
plot ( x , dhyper( x ,116 ,195-116, max(x) ) , type="l" )
mについて10取り出すと、6あたりが得やすいとみられるところ、観察値は5であったので、mありgたちとのかけ離れは小さく、仮説は否定できない.
あえて、mなしが低め;mがやや生起性があるか阻止性が捨てきれない、とてNが小さいため阻止性は調べられそうにない、といったところ.
■ 結論風
率ゼロ付近のg;N=4では分布からも差がはっきりしない.Nがやや大きくなると、ある程度傾向がみえる.
このデータは、Nが十分なg間では、同一因子についての発生差、率差もその強弱が明瞭で、同一因子のなかで効果に相当の幅があったことになる.率差、分布は相裏付けているようである.
一方、取り入れていない因子による影響、同一因子の不均一な生起性や阻止性の変化も考えられる.
■ まとめ的に
・因子の効果は、一様とは限らず小Nでは説明がつかない違いをみることがある.
・和したgによって比較する方法では、どのgを和すかが課題とはいえる.
・小Nでの発生の起こり方を超幾何分布で観察できる.
続く記事では、やや小数例を含む計算をしてみる.