morの解析ブログ

解析疫学、リスクにまつわるメモや計算

「推定」のまわりをさぐる.教科書では「解析はMHにより行う、因子が多ければ重回帰を用いる」という風で詳しい例は少ない.独自(のつもり)な思いつきで具体に試行.
 数理を用いるべきアセスメントにも切り込む.

非線形なパラメータ・大規模データ・交互作用モデリング

◆ 中規模事例の後ろ向きコホートに続いて、
 大規模やや複雑な後ろ向き研究.
 決定的な因子が含まれない. ~調べるべきは、因子の効果、因子間の関係.
 低発生率.
 不完全な群が複数混じっている.~もつれた事例になるりそう
 従属変数は2値とカウントデータの2通り.~とりあえず2値のものを扱う.


・解析方針
 サンプルサイズが大きければ、pcのパワー、ソフトの処理時間が心配される.
  ~暇があれば、後ろ向きケースコントロール/マッチドペア、sparse・学習など
  ~まずガリガリと数表/図をつくる.
・処理
  データの整理方針;入力規則はしっかりしないといけない
  データ入力イメージを描く
   R用には、CSVの生成シート データの数値化規則(式設定)
   シートの疑似データテスト
    ~ 一部データを入れ シートの改良
    ~ 層化では、参照:表示計算式の設定(ピボットは煩わしい)
 *もつれた事例になっていて、ついパラメータを単純化しすぎる.
 非線形・カテゴリカル変数の操作 - morの 推定 勉強ブログ(後悔して戻したのだが)


・回帰モデル  glm/gam
 列挙可能な因子を羅列.
 層化と交互作用項、GAMによる非線形回帰・・・・
 パラメータの結果への関与
  分布をみると、時間パラメータが(やはり)非線形になる
  パラメータを操作してみる.
   時間的パラメータxi → xi=x/c(0-c) 、c’(c<)
    ・・あるところまで上昇、以降一定な回帰になる
    ・・これはこれでそれなりの結果が出る
  パラメータを操作しないでおいて、他のパラメータを工夫してみる.
    ~単純化しすぎたパラメータをひとつづつに独立させる.(急がば回れ)


・交互作用
 もつれた事例にありそうな、交互作用を調べる
 7,8個の交互作用項を投入すると発散する.モデルをいくつか作りつつ、3,4個の項を出し入れして、迷走気味ながらも交互作用項を絞る.
 モデルの係数を使ってリスク値を計算し、層化したリスク観察値との当てはまり具合をみると交互作用項を入れたもののほうがよい(説明力が幾分よい).
・非線形性
 非線形な因子はかなりはっきりした回帰を示し、節約・単純化しすぎたパラメータを独立させたことが効いたか.


・モデル、層化の対比
 交互作用項を絞り、パラメータを工夫して、できたモデルを(層化表を)相互に調べる.
 非線形なパラメータの係数は計算せずとも、主な点について推定値と観察値を比較でき、妥当な解析と結論を得る.

×

非ログインユーザーとして返信する