morの解析ブログ

解析疫学、リスクにまつわるメモや計算

「推定」のまわりをさぐる.教科書では「解析はMHにより行う、因子が多ければ重回帰を用いる」という風で詳しい例は少ない.独自(のつもり)な思いつきで具体に試行.
 数理を用いるべきアセスメントにも切り込む.

一般化加法モデル;Generalized Additive Model; gam

■ 線形回帰といいながら、glmでは、logistic回帰ができてかなり重宝なのだが、一部のパラメータを2値化してモデル化しても、因子の影響度を考えるときに情報が限られる.
■ gamは、glmを含んだ、より広い関数とみてよい.ただし、係数が取り出しがたい.
■ しかし、連続な変数を生かして(情報を損ねず)考察するためには、「こんな感じで関与している」という機能は貴重だ.
■ よって、gamは使用すべし.


■ オーバーフィットらしきモデル異常が現れると標準化もままならぬ.
■ また、パラメータの中にU字にからむ因子が含まれる.
これは平滑化せずにおれない.gamがこれを回避する一般化加法モデルによる.Rのmgcvパッケージからgam を使用. Rでは、 s()により、平滑化スプラインが適用される.
■ 事例の、連続値を入れたモデルをglmと比較すればかなり、らしい係数(率)が推定される.
■ 2値解析一点張りlogistic onlyだった.poisson分布で交互作用項入り、一部平滑化のモデリングせざるを得ないので、ちょとややこしい.
■ 使用方法の参考は、
 logics of blue 管理人 馬場 真哉 氏
  著作:平均・分散から始める一般化線形モデル入門  2015/7/14  
 これはやりたいことのすべてが書いてある
■ 解析
 ・連続量と平滑化の比較
 glm logisticによって、すっきり回帰しない因子があった.
 logisticでは、因子を2値化、度数区切りを変え・・という操作を繰り返し、試行.s()で平滑化.

■ 平滑化して描かれた回帰曲線と因子の作用について考える.
 gamのs()によって因子の連続量を平滑化するときのメモ.
・因子のパターンと解釈(シミュレーション).
 リスク方向は+にとっておく.
 L字 : 低濃度で因子の抑制が弱い.
      因子が、作用に対して閾値をもつ場合も考えられそう.
     ある種濃度依存的に作用していることも想定される.単純な関係.
       線形回帰段階で、+に関与するとみえるとき、関与ない範囲での
      因子説明がむつかしいパターン.
 U字 : 線形で - の場合、両端の+の解釈が難しい.”過ぎたるはなお及ばざるが如し” 
 凸  : 中庸が好ましくない形.複雑そうなメカニズム.
     U字とも共通するが、全体符号一致なら関与は決まる.水準を跨ぐと面倒そう.
 中二階 : 複雑そう.現実遭遇するか?
くねくね波:
 今扱っている因子には、ないとわかっている.因子1種類1つの性質でもって関与すると前提してs()解析するからこれが現れたら、何かが変.
 もっとも、時間でくねくねを調べる解析もあるが、ここでは、時間は絡めなくてよい.
 くねくねをみたらspを変える.因子そのものを再チェックすることになろう.
■ SE・|β|
 いずれも線形ではSEがでかくて、係数が小さいはず.
 平滑化して、その因子の範囲ごとの影響が”みえる”のは、当ブログの、計算、目で見えるよう図示・・のねらいに合致.


関連記事 gam係数の変化についての記事-> http://moruke.muragon.com/entry/116.html

×

非ログインユーザーとして返信する