reduceモデルで保たれる、残因子coefficients
( yahooブログ2015/12/8(火) 午後 8:52転載)
◆ 要約
一般化線形回帰モデルglmに現れるinterceptは、知られていない性質がある.reduce modelにおいて、intercept、因子係数にはreduceされた因子の影響が映されるが、残された因子の係数はその性質を保つことがある.
◆ 概要
同一事例のデータについて様々なreduceモデルをつくるとき、切片β。が値を変化させる.この変化は他の係数にも及ぶことがある(代償性変化とよぶ).代償性変化が起こるときについて調べる.複数の事例を解析すると、reduceされる因子係数が負のとき、切片では正へと変化する.
・切片が、null modelでは、全体発症率や群発症率によって起点的に数値が決まる(これを起点的数と呼ぶ).
・一方で、一部因子を投入されたモデルでは、null modelのものとは異なる値となる.
・この違いはreduceされている因子の係数に関連し、隠れた因子の影響が現れている(暗示因子的数値と呼ぶ).
係数に起こる変化のうち、因子間に代償性変化があるときは、やや複雑で、モデルに残った因子の係数が、みかけ上増強され、切片の値、SEも変化し、残った因子の実質的な信頼度は下がる.このことは、残された因子係数を単純に判断することが危険であり、これに応じた解釈を要することになる.
《試行》 reduceされた因子に応じて切片を含むcoefficientsに及ぶが、これが、投入されていない(不明な)因子を探る手がかりとなる.不明な因子を探索する手段になる.
◆ 詳細
簡単な回帰モデルで、切片はx=0におけるyの値であり、ロジスティック回帰では、因子の影響なしとしたときのイベント発生割合と理解する(帰無仮説).
*** 事例の全体発症率が、帰無仮説の起点である ***
重回帰ロジスティックを使いながら考える.
eの指数部分、線形予測子;zを
z = β。+ (Σi=1、n)βi ・・・・ ①
n:因子数、 βi;明示的なモデル投入因子
とする.
◆[起点的意味] _改
因子が投入されていないから線形予測子zの実因子部分はすべて無関与(0)となり、
z = βnull
= β。
観光船事例の発生割合から、機械的にnull modelの切片を求めには、
no / N = 98/221 (人) =0.443
no:患者数、N全体人数
率をあらわす式
no / N = exp(z) / (1+exp(z))=0.443
として、z=β。について解けば、
β。= -0.2272
が得られる.
.全体発症率が0.5に近いために、0に近くなっている.この操作を係数化ということにする.または、率をあらわす式を経ないで、
β。= ln(n/(N-n)) = ln(r)-ln(1-r)
r : 事件の発症率
としても導出できる.
この事例の、因子を含んだモデル*のglm推定により、
β。glm = -0.25
* 任意因子から作ったモデル.
reduce modelであるか、交互作用項
投入モデルかにかかわらない
(ただし、影響ある因子がreduceされたり、
発散がないこと)
あたりの大きの切片が見いだされる.
得られた数値;事例の発生割合からのβ。値と null modelにおける値は、おおむね一致し、事例の発生割合がβ。を(ほぼ)決定する場合、切片は起点的意味のみをもっている、とし、起点的値部分が決まる.
この差を誤差とし、引き続き投入した因子からORや、率の検討をすすめることができる.
◆暗示的意味 _改
次に、reduceなどで構成する因子が異なるmodel推定を実施すると、切片であるβ。が異なってくる.これをβ。'とする.この意味づけをする.
* 暗示因子の影響割合(切片差;Δβ。)を式とすると、
Δβ。= β。' - β。 = β。' - { (ln)r)-ln(1-r) }
β。' : reduce model(元modelでもかまわない)のβ。
redude された因子の係数の大きさβiによる、reduce modelの変化を切片差Δβ。として観察すると両者に量的な関係が観察される.
◆ coefficientsへの影響例
単純な例で説明する.reduceされた因子の大きさがβ。にもたらす代償性の変化をみる.
deltabeta 左図は、納豆オクラ事例から8因子modelをつくり、4因子をそれぞれreduceしたときの、因子係数βiによるreduce modelのΔβ。をプロットしたものである.
因子reduceの影響が、横軸での大きさとし、modelごと縦軸:Δβ。の大きさに反映されると予想した.実例で各reduce modelの切片差はreduceされた因子の大きさをリニアに映す.
ここで、reduceされた因子の係数 βi
βi ∝ Δβ。
となることが明らか.
一方、よく調べると係数に対しても変化がおこっている.和したΣβiの変化;差ΔΣβiが、reduceした因子と負の関連を示す.
なお、このようなΔβ。のreduce 因子とのシンプルなリニア関係は、Oswego事例でも確認できる.
・暗示因子は、抑制または生起側への数値を示すが、誤差のみであるかどうかは、0±ε であることを調べる.
ここまでのまとめ
*** β。は、発症率で規定される、ln(r)-ln(1-r) 部分と、 ***
*** 隠れた因子(Δβ。とも記載する)の影響部分から成る ***
*** Δβ。とΔΣβiは、reduceされた因子の係数と関連する **
*** それは、前者で正、後者では、負である ***
□ reduceによって、係数を含むcoefficientsに及ぼされる影響が一定でない例がある.
他の因子がriskyな要素を持ちうる場合である.
□サプレッサー
水 は、サプレッサーとして働いている例がある.
サプレッサーをreduceするとβ。はこれをストレートに反映する.
□交互作用項
交互作用項投入によってもβ。'が動く.お茶-佃煮交互作用モデルでβ。'が大きくなっている.旧yahoo記事;[MH法による調整値とglm推定係数の比較].
◆ 方法の整理
・層化・MH法
・reduceされたかもしれない因子のモデル解析(β。)
・交互作用項投入
◆coefficients の意味をまとめる.
glm、ロジスティック回帰の推定に表れる線形予測子;zを次のように単純化した式で示す.
z = β。+ (Σi=1、n)βi ・・・・ ①
1つの因子をreduceし、代償性変化が起こることを予測式として記述すると、
z' = β。+ Δβ。+ Σβi+ΔΣβi ・・・・ ①’
となる.切片と因子の係数がともに変化することを示す.
*Δβ。とΔΣiの符号が逆であり、また、線形予測子全体z'(各reducemodelの)は、
z' = const
を維持し、事例全体の発症率を保持している.
* 代償性変化の影響は、β。やΣβiに対して一様とは限らない.
◆ 因子reduceにより、モデルの推定値が変化することは、最尤推定が持つ性質によるが、因子間に曝露重複という関連があることも見る必要がある.曝露が偏った因子同士には、みかけの効果が含まれる.ために、層化による観察も必要となる.線形モデルではもともと各因子に独立性を仮定しているが、モデル作成時、あらかじめ知れないものである.