logit変換値から縦軸偏差で最適化する
logit変換して得た因子効果から合成値を得て、それと観察値との、差の二乗和で効果を最適化してみる.
異常値の影響を減らして、因子効果の精度を上げる手計算.
ここではstdevによる値を偏差という
■ 観察したgからlogit変換で差を取り、推定した因子をもとに、gのlogit値を再現できた. t、sは大Ngから係数が作れて信頼でき、値を固定しておく.m、pは、Nの十分な比較gが少ないためlogit差を決めるペアに中N異常値も含まれ、不安*がある.また、過去調べたrisk順位とも違っている.
* m;小Nによるペアしかない
p;N=9 を含むか小Nによるペアしかない
よって、m、pを調べる.これらの値を揺らせば、観察値との偏差が増減し、偏差の少ない方の値が、更新できる.
Y:観察 率のlogit変換値
X:合成 Yから推定した因子の係数和;初期値
最適値を探すためstdevを使う.
曝露状況が一致するYとXの計算をする.
■ 最適化
・観察値gから決めた推定値と観察logitとのvarをとる.
について、j 番目の Xj を ε だけ変化させると、ℒは、
だけ変化する.最低値が探せそうだ.
■ 結果
・mは初期値-0.268であったが、-0.30~-0.33でdevの変化が緩やか、最小値のある範囲.
m -0.29 -0.30 -0.33 -0.34
dev 0.7773 0.7772 0.7772 0.7773
・pについて初期値は-0.322であったが、-0.28~-0.30.
p -0.28 -0.30 -0.31
dev 0.7766 0.7766 0.7767
くりかえすと、 m-0.31,p-0.29など.
・最もふさわしい係数は、m=-0.31、p = -0.29 でよかろう.
ア 層化による推定値
イ logit変換による初期推定値
偏差最適値 ;模式
■ まとめ
線形回帰に任せるなら、最小二乗法でデータ丸ごと計算させることになるが、例題に対しては、手探りで別な方法;データの選別 をとってきた.異常値はg単位で捨て、大Nのgを選んで適切な係数を得て、ここで固定してしまい、よいgの観測値に対して残りの係数の最適な値を手動で”回帰”させる.
小Nなgの異常値を排除しないまま、回帰分析に入れればかえって結果は乱されるだろう.
0,1だけのデータから異常値を摘発してID削除することはできずにいたが、これを具体化するには、曝露状況で分けたgが大Nであるかを使えばいい.
・縦方向の改善
stdevは最小二乗との類似性に注目した.むしろ偏差の増減が2次式だということを手計算で体験できた.偏差の変化は小刻みだった、そもそもN大で異常でないという条件で初期値、係数を決めたことも理由か.結果、 m < p となって、以前の検討で得た、mの弱い抑制性を支持する自然な帰結.