morの解析ブログ

解析疫学、リスクにまつわるメモや計算

「推定」のまわりをさぐる.教科書では「解析はMHにより行う、因子が多ければ重回帰を用いる」という風で詳しい例は少ない.独自(のつもり)な思いつきで具体に試行.
 数理を用いるべきアセスメントにも切り込む.

生起因子を欠くモデルから 係数計算の試行

■ この記事(ブログ)では”感染症”を”食中毒以外の感染による事例”とする.コホートとみなせる集団で、発生時期が近接し、時間的にグループ分けせず、単一暴露な事例を想定する.
 glmを用いて食品のメニューを因子としたモデルをベースにすれば、試行しやすい.
 事例の観察から得たデータを見るが、ここでは因子を出し入れして数モデルから情報を得る方法を試す.
■ モデリングに含まれたり含まれない、感染機会因子
・感染の機会(特定の室利用、既知感染者との接触など)を因子として調査した場合.
 これはそのまま、食中毒の生起因子のごとく、とびぬけた、係数を持つ因子が疑わしい因子となる.
     下表 ”生起因子を含む” データ:観光船事例 ;生起因子=卵焼き;tam
・感染機会を因子として調べていない場合.
 ない因子の係数はRでも出せないから、工夫が要る.これが、この記事のキモである.さらに、推定係数は、glmによっても調整しきれず、因子の疑わしさが残ってしまう.
      (代償性変化)
 このような場合はどうしたらよいか.
 まず、「ない因子」をどうにか推定する.観察されなかった、感染機会をモデリングにより解析するため、生起因子がわかっている事例から作ったモデルと、それを欠いたモデルを調べてみる.
   下表;”生起因子を含む”、”生起因子を欠く”


 まず、ic;切片の値が因子削除;reduceによって大きく変化するのがわかる.しかし、わからない因子はわからないままである.
[1] そこで、さらに他の因子を削減する.wie,pot,re,shelについて、それぞれを欠くモデルをつくる(上表右の4カラム).異なる因子を削減することで、複数のモデルをつくり、データを揺さぶって立体的に調べようとしているわけだ.


 それらの推定係数をみると、次のようなことがわかる.
 ・切片と他推定係数和に直線関係がある.


      係数和 = -1.16×切片推定値 -0.62    ・・ 下図


                〈注意:回帰係数、回帰切片は事例ごとに異なる.〉


 ・生起因子を含んだモデルの切片、係数和が位置する点は、ほぼこの直線の延長上に存在する. 


 これは何を意味するか、glmは、推定値の間で、ある種バランスを保つようにみえる.もし、係数がこの線を大きく外れれば、尤度、期待発生数もまた、大きく外れるのが明らかだ.                                     
 このことを利用して、感染機会の曝露状況がわからない(このデータでは、tam;卵焼きを隠してそれを模した)場合の係数を見当つけてみる.

 
 その計算手順は、概略、次のようである.
 ①切片の数値を -1 から -3 あたりまで 0.5刻みで決めておく.
  回帰式にそれぞれの切片値を当てはめ、期待される係数和を求める.
 ②既知の因子の係数は、暴露状況の違いでモデルごと変化しているから、
  安定した係数を選び出す(サプレッサーの値などは、安定している).
  不安定な係数は、適当な重みをつけて、小さくしてやる.
 ③期待される係数和から、②の係数和を減じたものが、モデルの”外”にある因子の係数となる.


 結果は、切片-2に対し、外因子の係数1.05、-2.5に対し、1.93 、-3に対し2.68
であった.
■ 検算、確かめ
・標準化的方法 2×2表において、発症者の数をみると、ご飯の曝露g中発症者及び、”弁当”と一括りした曝露gの発症者数は、92人、98 人である.
 Σβiはβ。から回帰推定された値だから、β。+Σβiはβ。毎に異なり、それから患者数が推定されるが、1.93に対応した確率から、暴露状況を加えて計算した患者数は90人前後となった.
 よって、外れている(隠れている)因子の係数は1.93辺りと見当がつく.


・コントロールグループの充分性に基づく確認
 コントロールグループの感染率をβ。から率化し、人数算定すると全体発生患者の1割程度にとどまるから、まずまずの値とみられる.


■ 推定した”知られざる係数”
 モデル外の因子係数 1.93辺りというのは、
  ・他の因子係数よりはるかに大きなものである.
  ・生起因子欠けモデルの因子正の係数では se 0.3-0.5である.
   推定した”知られざる係数”のseは、それらと同程度かもしれない.


■ 生起因子の、他因子への影響
 各係数には、代償性変化がみられ、元のモデルと比べて値が変化していることに留意して処理する必要がある.


** tuk;佃煮 は、みかけの高値を示す因子である.たとえ、いずれかのモデルで”有意”になったとしても、惑わされてはならない.
[2] 係数による近似法 
 nullmodelの発生率から係数を得る.βn

 ctrlgの係数を得る.β。

 βn=β。+βi近似よりβiを求める.
 調べようとするモデルの推定値のうち、最大のβjをβiと比べる.
 βiが、十分にβjより大きければ、そのモデルの外に生起因子はある.
 


ほかに、標準化を行って比較する方法も考えられる.

×

非ログインユーザーとして返信する