morの解析ブログ

解析疫学、リスクにまつわるメモや計算

「推定」のまわりをさぐる.教科書では「解析はMHにより行う、因子が多ければ重回帰を用いる」という風で詳しい例は少ない.独自(のつもり)な思いつきで具体に試行.
 数理を用いるべきアセスメントにも切り込む.

g化してprを logit変換し、logisticモデルにする

 g化は便利な反面、小Nのgが多く表れ、悩ましい.大Ngの頑丈さに依拠して率をlogit変換する方法を試す.
 層化での率差をlogisticモデルの係数へ拡張する試み.


■ 手順
・データgの率のlogitをとり、未確定な係数和とみなす;zoi.
・率差のように、Nの比較的大きなgから係数和:zoi ペアの差をとって各因子の係数β_を決める.一部N=9のgを含むペアから値を得た.
・g曝露因子に応じて、係数から係数和;z'iを合成する.
・z'iとzoiの差から切片β。を決める.
・zoiに対するz'i: β。+ βixl を得る.


 各段階でモデル関数は使用しない.


       

■ 結果
 率の0、1には仮な係数-4,4をあてておく.

                            * 掲示は一部のみ
 g率をlogitをとってペア差をとることは、注目因子のlnORを計算することと同じである.
 ただ、それはglmに任せて推定するのではなく、小Nを避け、異常値をみながら手計算して求める.


 得た線形予測子から確率、期待発生数を再現できる.これからさらに超幾何分布で調べられるだろう.
 線形予測子ベースのまま、観察と合成から散布図を作って調べてみる.
 

      


       観察値による、合成値;係数ベース
                    全gについてプロット
                    赤下線は、小Ng
                    pr:0,1を-4,+4とした
 大Nなgでよい回帰線が引ける.
 合成係数和の、観察データ係数和とのズレは、観察値の率が小さめなもの5g、大きめのもの4g あった.mtではN16であるが観察値は過小と判断される.ほか、Nが小なgはズレが大きかった.つまり、1つのg;N=16 を除き、小Nのgが合成値を外れた.


■ 率とlogistic式
 線形独立logisticのまま、式としておく
     率;prを推定する式
 

      e..:..因子の曝露有無


■ いったんまとめ
 未g化データから一気にモデリングすると、SEに表れる特徴が興味深いが、腑に落ちない点は残る.主な因子を選びg化すれば因子に迫れると期待し、小Ngの補正操作、注意点からいくらか見通しがよくなる感触はあった.
 logisticモデルによる場合も、小Nに気を付けて試す意味はあると気づいた.大Nのgに依拠すれば視点を変えて、手動で係数を決められる. 
 互いに独立な因子による発生と仮定し、手動で得た係数からは、大Ngで良好な回帰が見出せた.
 合成と外れるgは、小Ngと、ただ1つ N=16のg; mtであって、人数として4ほどであった.
 大Nに依拠する(し小Ngの発生に目をつむる)と、交互作用の問題は気にならない.

×

非ログインユーザーとして返信する