morの解析ブログ

解析疫学、リスクにまつわるメモや計算

「推定」のまわりをさぐる.教科書では「解析はMHにより行う、因子が多ければ重回帰を用いる」という風で詳しい例は少ない.独自(のつもり)な思いつきで具体に試行.
 数理を用いるべきアセスメントにも切り込む.

reduceモデルで保たれる、残因子coefficients

  ( yahooブログ2015/12/8(火) 午後 8:52転載)
◆ 要約
一般化線形回帰モデルglmに現れるinterceptは、知られていない性質がある.reduce modelにおいて、intercept、因子係数にはreduceされた因子の影響が映されるが、残された因子の係数はその性質を保つことがある.
                                                                                                                                 


◆ 概要
 同一事例のデータについて様々なreduceモデルをつくるとき、切片β。が値を変化させる.この変化は他の係数にも及ぶことがある(代償性変化とよぶ).代償性変化が起こるときについて調べる.複数の事例を解析すると、reduceされる因子係数が負のとき、切片では正へと変化する.


・切片が、null modelでは、全体発症率や群発症率によって起点的に数値が決まる(これを起点的数と呼ぶ).
・一方で、一部因子を投入されたモデルでは、null modelのものとは異なる値となる.
・この違いはreduceされている因子の係数に関連し、隠れた因子の影響が現れている(暗示因子的数値と呼ぶ).
 係数に起こる変化のうち、因子間に代償性変化があるときは、やや複雑で、モデルに残った因子の係数が、みかけ上増強され、切片の値、SEも変化し、残った因子の実質的な信頼度は下がる.このことは、残された因子係数を単純に判断することが危険であり、これに応じた解釈を要することになる.


《試行》 reduceされた因子に応じて切片を含むcoefficientsに及ぶが、これが、投入されていない(不明な)因子を探る手がかりとなる.不明な因子を探索する手段になる.
◆ 詳細
 簡単な回帰モデルで、切片はx=0におけるyの値であり、ロジスティック回帰では、因子の影響なしとしたときのイベント発生割合と理解する(帰無仮説).
  *** 事例の全体発症率が、帰無仮説の起点である  ***
重回帰ロジスティックを使いながら考える.
 eの指数部分、線形予測子;zを
          z = β。+ (Σi=1、n)βi      ・・・・ ①
               n:因子数、 βi;明示的なモデル投入因子
 とする.
◆[起点的意味] _改  
 因子が投入されていないから線形予測子zの実因子部分はすべて無関与(0)となり、
          z = βnull
            = β。
 観光船事例の発生割合から、機械的にnull modelの切片を求めには、
      no / N = 98/221 (人) =0.443  
                no:患者数、N全体人数
率をあらわす式
       no / N = exp(z) / (1+exp(z))=0.443 
として、z=β。について解けば、
        β。= -0.2272


が得られる.
 .全体発症率が0.5に近いために、0に近くなっている.この操作を係数化ということにする.または、率をあらわす式を経ないで、
        β。= ln(n/(N-n)) =  ln(r)-ln(1-r) 
              r : 事件の発症率
としても導出できる.
 この事例の、因子を含んだモデル*のglm推定により、
       β。glm = -0.25
             * 任意因子から作ったモデル.
              reduce modelであるか、交互作用項
              投入モデルかにかかわらない
             (ただし、影響ある因子がreduceされたり、
              発散がないこと)
 あたりの大きの切片が見いだされる.
 得られた数値;事例の発生割合からのβ。値と null modelにおける値は、おおむね一致し、事例の発生割合がβ。を(ほぼ)決定する場合、切片は起点的意味のみをもっている、とし、起点的値部分が決まる.
 この差を誤差とし、引き続き投入した因子からORや、率の検討をすすめることができる.
◆暗示的意味 _改
 次に、reduceなどで構成する因子が異なるmodel推定を実施すると、切片であるβ。が異なってくる.これをβ。'とする.この意味づけをする.
* 暗示因子の影響割合(切片差;Δβ。)を式とすると、
      Δβ。= β。' - β。 = β。' - { (ln)r)-ln(1-r) }
         β。' : reduce model(元modelでもかまわない)のβ。
 redude された因子の係数の大きさβiによる、reduce modelの変化を切片差Δβ。として観察すると両者に量的な関係が観察される.  
◆ coefficientsへの影響例
 単純な例で説明する.reduceされた因子の大きさがβ。にもたらす代償性の変化をみる.
deltabeta 左図は、納豆オクラ事例から8因子modelをつくり、4因子をそれぞれreduceしたときの、因子係数βiによるreduce modelのΔβ。をプロットしたものである.
 因子reduceの影響が、横軸での大きさとし、modelごと縦軸:Δβ。の大きさに反映されると予想した.実例で各reduce modelの切片差はreduceされた因子の大きさをリニアに映す.
 ここで、reduceされた因子の係数 βi
           βi ∝ Δβ。 
 となることが明らか.


 一方、よく調べると係数に対しても変化がおこっている.和したΣβiの変化;差ΔΣβiが、reduceした因子と負の関連を示す.
 なお、このようなΔβ。のreduce 因子とのシンプルなリニア関係は、Oswego事例でも確認できる.   
・暗示因子は、抑制または生起側への数値を示すが、誤差のみであるかどうかは、0±ε であることを調べる.
 ここまでのまとめ


    *** β。は、発症率で規定される、ln(r)-ln(1-r) 部分と、   ***
    *** 隠れた因子(Δβ。とも記載する)の影響部分から成る ***


    *** Δβ。とΔΣβiは、reduceされた因子の係数と関連する **
    *** それは、前者で正、後者では、負である       ***


 □ reduceによって、係数を含むcoefficientsに及ぼされる影響が一定でない例がある.
 他の因子がriskyな要素を持ちうる場合である.
 □サプレッサー
 水 は、サプレッサーとして働いている例がある.
 サプレッサーをreduceするとβ。はこれをストレートに反映する.
 □交互作用項
 交互作用項投入によってもβ。'が動く.お茶-佃煮交互作用モデルでβ。'が大きくなっている.旧yahoo記事;[MH法による調整値とglm推定係数の比較].
◆ 方法の整理
 ・層化・MH法
 ・reduceされたかもしれない因子のモデル解析(β。)
 ・交互作用項投入


◆coefficients の意味をまとめる.
 glm、ロジスティック回帰の推定に表れる線形予測子;zを次のように単純化した式で示す.
         z = β。+ (Σi=1、n)βi            ・・・・ ①
 1つの因子をreduceし、代償性変化が起こることを予測式として記述すると、
         z' = β。+ Δβ。+ Σβi+ΔΣβi   ・・・・ ①’
となる.切片と因子の係数がともに変化することを示す. 
*Δβ。とΔΣiの符号が逆であり、また、線形予測子全体z'(各reducemodelの)は、
         z' = const
を維持し、事例全体の発症率を保持している.
* 代償性変化の影響は、β。やΣβiに対して一様とは限らない.


◆ 因子reduceにより、モデルの推定値が変化することは、最尤推定が持つ性質によるが、因子間に曝露重複という関連があることも見る必要がある.曝露が偏った因子同士には、みかけの効果が含まれる.ために、層化による観察も必要となる.線形モデルではもともと各因子に独立性を仮定しているが、モデル作成時、あらかじめ知れないものである.

×

非ログインユーザーとして返信する