ｇ化してprを logit変換し、logisticモデルにする

2023/02/15 00:00

　ｇ化は便利な反面、小Ｎのｇが多く表れ、悩ましい.大Nｇの頑丈さに依拠して率をlogit変換する方法を試す.
　層化での率差をlogisticモデルの係数へ拡張する試み.

■　手順
・データｇの率のlogitをとり、未確定な係数和とみなす;zoi.
・率差のように、Nの比較的大きなｇから係数和：zoi ペアの差をとって各因子の係数β_を決める.一部N=9のｇを含むペアから値を得た.
・g曝露因子に応じて、係数から係数和；z'iを合成する.
・z'iとzoiの差から切片β。を決める.
・zoiに対するz'i： β。+ βixl を得る.

　各段階でモデル関数は使用しない.

■　結果
　率の０、１には仮な係数-4，4をあてておく.

　　　　　　　　　　　　　　　　　　　　　　　　　　　　＊　掲示は一部のみ
　ｇ率をlogitをとってペア差をとることは、注目因子のlnORを計算することと同じである.
　ただ、それはglmに任せて推定するのではなく、小Nを避け、異常値をみながら手計算して求める.

　得た線形予測子から確率、期待発生数を再現できる.これからさらに超幾何分布で調べられるだろう.
　線形予測子ベースのまま、観察と合成から散布図を作って調べてみる.
　

　　　　　　　観察値による、合成値；係数ベース
　　　　　　　　　　　　　　　　　　　　全ｇについてプロット
　　　　　　　　　　　　　　　　　　　　赤下線は、小Ｎｇ
　　　　　　　　　　　　　　　　　　　　pr：0,1を-4，+4とした
　大Nなｇでよい回帰線が引ける.
　合成係数和の、観察データ係数和とのズレは、観察値の率が小さめなもの５ｇ、大きめのもの４ｇ　あった.mtではＮ16であるが観察値は過小と判断される.ほか、Nが小なｇはズレが大きかった.つまり、１つのｇ；N=16 を除き、小Nのｇが合成値を外れた.

■　率とlogistic式
　線形独立logisticのまま、式としておく
　　　　　率；prを推定する式
　

　　　　　ｅ..：..因子の曝露有無

■　いったんまとめ
　未ｇ化データから一気にモデリングすると、ＳＥに表れる特徴が興味深いが、腑に落ちない点は残る.主な因子を選びｇ化すれば因子に迫れると期待し、小Nｇの補正操作、注意点からいくらか見通しがよくなる感触はあった.
　logisticモデルによる場合も、小Nに気を付けて試す意味はあると気づいた.大Nのｇに依拠すれば視点を変えて、手動で係数を決められる.　
　互いに独立な因子による発生と仮定し、手動で得た係数からは、大Nｇで良好な回帰が見出せた.
　合成と外れるｇは、小Ｎｇと、ただ１つＮ=16のｇ； mtであって、人数として4ほどであった.
　大Nに依拠する（し小Nｇの発生に目をつむる）と、交互作用の問題は気にならない.

morの解析ブログ

解析疫学、リスクにまつわるメモや計算

ｇ化してprを logit変換し、logisticモデルにする