観察からはずれて欲しくない1つのこと
データである発生数y1にどのようにpiを寄せるかが宿題であった.
生起因子が判明、決定した後に、ある式を仮定し推測する際の準備
■ 推定piを観察に近づける
観察y1に対して推定piをあてる.推定は観察に近づけたいが、どのように近づけるかは推定法によってちがう.
線形回帰、非線形回帰 ・・ 最尤推定、最小二乗・・
これらがいずれも調べようとすることに合わないので、いろいろやってみる.
■ はずれ数
・対象集団個々人のリスク値とyiが大きくちがってしまう場合を考える.
見積り不足 yi - pi1 > 0.5
見積り過ぎ yi - pi1 < - 0.5
としてみる.
実際のデータではどうなっているか、上をあてはめ、はずれ具合を調べてみる.
モデルととあるシミュレーションしたものが、つぎのもの.
見積過小 過大 範囲内
モデル1 45 36 138
sim関係式 7 74 138
範囲内のメンバー数はモデルとsimとは同数である.はずれ具合でみれば、どちらもまあまあの予測ができているのだろう.モデルの方は、過小過大がほぼ均衡しているが、simでは確率小な方にはずれは少なく、大な方にy1が寄っている.
■ はずれて困るのは、何か
しかし、そもそも生起因子がなければ、発生は最小、あれば大いに発生する、かもしれないしまぁ発生しなくてもしかたない.推定した高確率なものに発生があってほしいのであって、推定した低確率なものに、発生がめだっては困るのではないか.とすれば、simに一理あり.
■ はずれ具合をしらべる方法は何が違うのか
2×2表を調べる指標はいろいろある.同じデータを用いてy1y0とΣPIからなる2×2表をモデル2とsimとで作り、指標を算出して比べてみる.
モデル2 sim
2×2表 のグラフ化 青yi 1 : pi低 2 : pi高
モデル2 sim
ファイ 0.266 0.252
Q 0.499 0.663
r 0.331 0.271
RD 0.264 0.369
OR 2.99 4.93
この比較ではまずQ値の様子が違っている.また、RDは、モデルないしsimで0.5<となったもののうちy1であったものと0.5>のy1の、割合の差だが、Q値と同様、simのほうに高値が寄っている(根本の計算が似通っている).simでは高いpiのほうにyiがかたまっていて歩留まりがよくなっている.ORを計算してみても、やはりsimでは高値となっている.
ファイ、rのような一致度を測る指標、一方でQなどのy1の方向に推定するリスクを寄せているかの指標とはちがいをみせる.
■ はずれないでほしいこと
・ある曝露機会あるなしを考えてみる.
kの曝露機会があったもののなかに発生があり、kがなければ、発生はなく、曝露の機構xkがあれば、推定の結果リスクを担うことになる.曝露なければ発生0である.よってpi=β。+xi・・・ ではβ。=0.そして、これを2×2表としてみればx1y1にかかるOddsは大と推定していくことになる.
ある曝露xk=1 曝露なしxk=0
発生 y1 Expos×pi 0
発生無し y0
N
N:機会に参加したメンバー数
曝露機会は、イベントであっても、細かな曝露因子であってもよい.
xkの推定係数;βkは大きくあるのが当然である.曝露gでの発生が大きくあってほしいのであって、曝露ありの発生なしが小さくあるべきとの理由はない.そして曝露なしの発生は、ごく小さくなければ根本的に矛盾する.
■ 曝露gの発生なしという「はずれ」と非曝露gの発生ありという「はずれ」は 意味が違っており、2つのはずれの和なり積が少なければよいとはいいきれない.前者の発生無しはかまわず、後者の発生ありという、はずれを小さくするpiを追うべきだということになる.
それ以外のなにを得て観察にすり寄る必要があるだろうか・・.
■ これはつまりは、推定方程式が
Σxipi = Σyi
ということ