g化してprを logit変換し、logisticモデルにする
g化は便利な反面、小Nのgが多く表れ、悩ましい.大Ngの頑丈さに依拠して率をlogit変換する方法を試す.
層化での率差をlogisticモデルの係数へ拡張する試み.
■ 手順
・データgの率のlogitをとり、未確定な係数和とみなす;zoi.
・率差のように、Nの比較的大きなgから係数和:zoi ペアの差をとって各因子の係数β_を決める.一部N=9のgを含むペアから値を得た.
・g曝露因子に応じて、係数から係数和;z'iを合成する.
・z'iとzoiの差から切片β。を決める.
・zoiに対するz'i: β。+ βixl を得る.
各段階でモデル関数は使用しない.
■ 結果
率の0、1には仮な係数-4,4をあてておく.
* 掲示は一部のみ
g率をlogitをとってペア差をとることは、注目因子のlnORを計算することと同じである.
ただ、それはglmに任せて推定するのではなく、小Nを避け、異常値をみながら手計算して求める.
得た線形予測子から確率、期待発生数を再現できる.これからさらに超幾何分布で調べられるだろう.
線形予測子ベースのまま、観察と合成から散布図を作って調べてみる.
観察値による、合成値;係数ベース
全gについてプロット
赤下線は、小Ng
pr:0,1を-4,+4とした
大Nなgでよい回帰線が引ける.
合成係数和の、観察データ係数和とのズレは、観察値の率が小さめなもの5g、大きめのもの4g あった.mtではN16であるが観察値は過小と判断される.ほか、Nが小なgはズレが大きかった.つまり、1つのg;N=16 を除き、小Nのgが合成値を外れた.
■ 率とlogistic式
線形独立logisticのまま、式としておく
率;prを推定する式
e..:..因子の曝露有無
■ いったんまとめ
未g化データから一気にモデリングすると、SEに表れる特徴が興味深いが、腑に落ちない点は残る.主な因子を選びg化すれば因子に迫れると期待し、小Ngの補正操作、注意点からいくらか見通しがよくなる感触はあった.
logisticモデルによる場合も、小Nに気を付けて試す意味はあると気づいた.大Nのgに依拠すれば視点を変えて、手動で係数を決められる.
互いに独立な因子による発生と仮定し、手動で得た係数からは、大Ngで良好な回帰が見出せた.
合成と外れるgは、小Ngと、ただ1つ N=16のg; mtであって、人数として4ほどであった.
大Nに依拠する(し小Ngの発生に目をつむる)と、交互作用の問題は気にならない.