grade-symbol

GRADEシステムとGRADEガイドライン作成

[1] GRADEとは,ガイドライン策定プロセスの確立・パネル
[2] ヘルスケアクエスチョンの設定
[3] アウトカムの相対的重要性
[4] evidence検索・統合、系統的レビュー
左図 [5] 各アウトカムに関するエビデンスの質
[6] 全体的なエビデンスの質
[7] 利益・downside(害、リスク、負担)バランス
[8] 正味の利益とコストとのバランス
[9] 推奨度
右図sof







[10] 実施と評価


・ はじめに(国内現状など) [intro]


[1]: GRADEとは、ガイドラインパネル編成、プロセス確立[top] [FAQ翻訳へ]
 [2] [3] [4] [5] [6] [7] [8] [9] [10]


[2] ヘルスケアクエスチョン: [Define CQs (populations, intervention/comparison, outcome)]:[top] [ref-2a] cq-four
 [1] [3] [4] [5] [6] [7] [8] [9] [10]

CQ-jpg
  • 一般的には、最善のエビデンスを見つけやすくするために、ヘルスケアクエスチョンを、3つの構成部分に分けて、疑問の定式化を考慮することが文献検索を容易にさせることにつながる。(P, I/E, Outcome):右図(aihara-2008)参照。
  • GRADE Profiler利用では、アウトカムは別のフィールドにあり、通常のPICOとして一括とはなっていない。それは、アウトカムを主体とし、アウトカムの種類、相対的重要性などを選択するようにしているからである。
  • GRADEprofilerでは、ヘルスケアクエスチョン(or, クリニカルクエスチョン: CQ)は、原則として4種類として定式化して、プルダウンで選択可能である。
    ( CQの定式化:Question Format.html参照)。
  • 多忙な中でいかに効率的に、高質のエビデンスを探すか・・
  • P (Population): 対象者: 対象となる患者や集団はどのようなものか?
  • I (Intervention/Exposure): 介入または暴露、は何か?
  • O (Outcomes): アウトカム:患者にとって重要なものはなにか?
  • 構造化したCQへの答えを出すためには、どのような種類の研究を見つけたいかという要素も考慮しないといけない。研究の種類とは、研究デザインである。注意すべきは、臨床疑問の種類としては、5つの基本的なタイプがあるが(治療、害、鑑別診断、診断、予後)、現時点のGRADEシステムでは、病因や予後については確定していない。

[3] アウトカムの相対的重要性: [relative importance of the outcomes] :[top] [ref-3a] [ref-3b]
 [1] [2] [4] [5] [6] [7] [8] [9] [10]

アウトカムは1〜9ポイントで相対的に重要性を評価し、さらに7〜9ポイントを重大、4〜6を重要、1〜3を非重要と3段階に分類する。SoFでは、アウトカムは7種類程度にする。
  • GRADEシステムでは、アウトカムの重要性は3段階に分類(右図)するが、システマテイックレビューのための各研究検索では、重大・重要なアウトカムは7個までにする。
  • アウトカムは、重大(スコア:>7)、重要(スコア: 4-6)について、入手可能な最善のエビデンスを特定し、リスアップする。 (Worksheet-1)。従って、重要ではないもの(スコア: 3以下)は検討の対象とはしない。
  • もし、検索中に、追加アウトカムの必要性が新たに出現したならば、さらにデータとして追加する(重要・重大なアウトカム)。エビデンス・プロフィールには、重大、重要なアウトカム、ガイドライン作成者は、どのアウトカムが重要なのか、また“推奨“にとって重大なものがどれなのかを(できるだけ事前に)決定すべきである。
  • 代理アウトカム(surrogate)、 サブグループ解析では、その扱いに非常に注意が必要で、特に後者では、7つの基準を参考にするように明示している。
  • アウトカムの種類としては、2値アウトカム(脳卒中、心筋梗塞、死亡などのイベント発生の割合など)と、連続値アウトカム(潰瘍の症状の減少や日数、輸血量、肺機能の変化など)の2種類がある。前者では、オッズ比相対危険がよく使われるが、後者では、測定尺度の単位が同じ場合は介入群と対照群の平均値の差(加重平均の差 weighted mean difference: WMD)を使って統合し、測定尺度の単位が異なる場合には、標準化平均差(standardized mean difference: SMD)、すなわち、平均の差を標準偏差で除したもので統合する。SMD表示は、Cohen's 係数、OR変換、信頼区間、などいくつかのオプションがある。

[4] システマテイックレビュー(Systematic review):[top] [ランダム誤差とバイアス]
 [1] [3] [4] [5] [6] [7] [8] [9] [10]

quality
  • EBMでのエビデンスは、利用可能な最良のエビデンスであり、エビデンスならなんでも採用ということではない。
    すなわち、あらかじめ設定したエビデンスの組み入れ(inclusion)と除外(exclusion)基準を参考にして、系統的なアプローチ(SR)によるエビデンスの収集・統合が必要である。システマテイックレビュー(SR)という言葉は、バイアスの可能性を減少するようにデザインした方法を用いて、CQ、特に前景疑問を扱う要約ということである。
    非系統的なアプローチでは、誤り(ランダム誤差)だけではなく、バイアス(系統誤差)も生じやすく、介入効果などが過小評価されたり過大評価されたりする。具体的なエビデンス検索手法例としては、右図参照。
  • SR作成者は、組み入れ基準に合致する研究を徹底的に検索する必要があり、そのためには、既報のSRやガイドライン、SRのサマリー(synopsis)を参考にし、さらにはMEDLINNE, EBBASE、コクランレビュー、最新のデータべースを使うべきであり、また、最新の学会発表論文や、製薬会社が実施している試験のデータベースを含めることも重要かも知れない。
  • SRの質評価法として、多数報告されているが、GRADEシステムではアウトカム主体のエビデンスの質の評価であることから、一律のカットオフ基準を設定できるものではないし、そうすべきではない。
  • メタアナリシスは、通常は、post hocのものが多く、結果を要約するために定量的方法を使ったレビューにすぎない。
  • システマティックレビューのステップを通して、GRADEエビデンス・プロフィールを作成する。 すなわち、worksheet-1の一覧を検討して、次に、Worksheet-2  (Cochrane SoF) 表に、アウトカムの重要性に従って、要約としてまとめる。エビデンステーブルの具体例としては、

  • 各アウトカムについてのエビデンス・レベルの評価、SoF作成に必要となるのが、次項のGRADE基準であり、GRADE profilerの使用が便利である。すなわち、例えば、単独あるいは複数の研究で、limitations (risk of bias) は、“Within a study“、および、“Across studies“について評価する、ということである。
  • コクランレビューでは、SoF tableとは別に、’characteristics of included/excluded studies’table, ’Data and analyses’ table/figuresなどがある。GRADE proとRevMan5との間でデータのやりとりが可能である。コクラン handbook(ver 5)参照。|
  • コクランの risk of bias 基準の low, unclear, high判定と、GRADEシステムでのlimitation: none, serious, very seriousでは、意味が微妙に異なっている。また、コクランレビューでは、診断研究については、risk of bias tableを、assessment of methodological quality tableという。下図の例が、risk of bias graphである。
risk of bias table


[5] GRADEシステムのエビデンスレベル(QoE: Quality of evidenve):[top] [GRADE 5rate-down factors]
 [1] [3] [4] [5] [6] [7] [8] [9] [10]

quality
  • GRADEでは、”エビデンスの質”の定義は、”ある推定効果や関連性などについてどの程度確信をおけるか”を示すもので、最終的に4段階評価とする。
  • 研究デザインの等級からスタートし、その後にGRADE評価因子についてチェックする。
    研究デザインによる評価は、ランダム化比較試験= "High", 観察研究="low", その他の研究="very low"の3種類で、この時点では当然ながら、”moderate"はない。"非常に低"のものはレート・アップはなく、なんらかの限界がある観察研究や、深刻な限界のあるランダム化比較試験もも同じくレベル・アップ(3因子について)はない。
  • システマテイックレビューからのエビデンスの質等級づけは、エビデンスの質評価基準(assessment of quality of evidence) や、その要約(summary of findings; SoF)を作成するために使用される。このGRADEエビデンス質判定を含んだSoF表、すなわちGRADE エビデンスプロファイルは、ガイドラインパネルがその後の判定のよりどころとするもので、透明性の高いエビデンスの要約である。メンバー間の合意のため、Worksheet-3表などを利用する。
  • 各アウトカムについてのエビデンスの質を等級づけしてまとめること、つまり、アウトカムの数に準じたエビデンスの質評価が、GRADE profilerを利用することで、CQ定式化からの一連のエビデンスの質の等級判定がより容易なものとなる。GRADEシステムによるエビデンスの質の最終判定は、4つのカテゴリーであるが、その表現は、GRADEシンボルあるいは、文字(A,B,C,D)を使用することもある。
  • 2008年11月、Schunemann H, Brozek J, Oxman A, editors. GRADE handbook(ver 3.2)を日本語翻訳版を作成した(Schunemann, Guyatt教授などの推薦許可のもとで、翻訳プロ、ITプロとともに実施)。http://www.cc-ims.net/gradepro.
    ★希望者は、氏名、所属、使用目的などを明らかにして、相原まで連絡を。GRADEハンドブック日本語版(2008,Nov.10)

注1 エビデンスの質の評価は、研究デザイン、GRADE基準(下記因子)を参考にして実施する。例;RCTsから、serious limitation + inconsistent resultsのために、highから(3段階低下して)、very lowとなることがある。

■5 rate-down
■3 rate-up
  • 効果の程度(関連性, association, magnitude of effects)
  • 交絡因子(confounder)のための過小評価
  • 用量勾配反応

注1: SoF例 :コクランRevManに準じて、7項目は含めるようにする。

  1. アウトカム
  2. 想定リスク(典型的リスク、ベースライン、対照のリスク)
  3. 対応リスク
  4. 介入の相対的・絶対的効果
  5.     
  6. 当該アウトカムに関わる参加者数および研究件数
  7. 各アウトカムについての最終的エビデンスの質
  8. 脚注コメント

注2: GRADE evidence profileは、アウトカム、エビデンスの質、SoFがセットになったものである。
前述(Air_travel_sof.pdfma-GRADE evidence profileなどの例を参照。

注3: エキスパートの意見は、単純にエビデンスがない、とは断定することはできない。[Ref-expert]参照。




GRADE システムによるEvidenceの”質”評価
Study design Rate-Down Rate-Up Quality final final2
・複数のランダム化比較試験= 高
・複数の良質な観察研究= 低
・限界 (-1, -2)
・結果の非一貫性 (-1, -2)
・PICOの非直接性 (-1, -2)
・結果が不精確 (-1, -2)
・報告バイアス(-1, -2)
・関連性(効果の大きさ) (+1, +2)
・交絡因子のために効果が減少 (+1)
・用量反応勾配 (+1)

・High

・moderate

・low

・A

・B

・C

4

3

2

・その他の研究やエキスパート意見 = 非常に低 no grade down/up(no recommendation) ・very low ・D 1


[6] "アウトカム全般にわたるエビデンスの質”決定 [Overall quality of evidence across outcomes]:[top] [ref-6a]
 [1] [2] [3] [4] [5] [7] [8] [9] [10]

  • 既存のシステムでは、全体的なエビデンスの質の判断が、介入による利益を基準としていることが多いが、有害作用のリスクが重大な意味をもち、かつリスクに関するエビデンスよりも弱い場合、害のリスクに関する不確かさを無視することには問題がある。従って、アウトカム全体にわたってエビデンスの質が異なる場合でのGRADEシステムによる推奨決定の原則が重要である。以下参照。

推奨を決定することがない(すべきでない)システマティックレビュー作成者は、”複数のアウトカム”についての”全体的なエビデンスの質”は等級することはなく、単に、各々のアウトカムについてのエビデンスの質を等級づけするだけである。

ガイドラインパネルは、意思決定にとって本質的な、あらゆる重大(critical)なアウトカムにわたっての、”全体的なエビデンスの質”を決定する必要がある。“全てのアウトカム”にわたる、“全体的なエビデンスの質”を決定する際のGRADE原則は、

  1. 重大なアウトカム”についてのみ検討する。
  2. もし、複数の”重大なアウトカム”にわたってエビデンスの質が異なる場合;
  • アウトカムが異なった方向なら(利益と害の両方向)、”最低のエビデンスの質”を採用。
  • 全てのアウトカムが同じ方向ならば(利益、あるいは害)、”最高のエビデンスの質”を採用。
  • 注: 推奨度の決定は、後述ステップのごとく、4つの主要因子を考慮する必要があり、そのひとつが“全体的なエビデンスの質”である。



  • 望ましい効果・望ましくない効果バランスは、アウトカムのベースラインリスク、介入の相対的・絶対的効果、推定効果の正確性などの要素によって決まる。[ref-7a]
  • 望ましい効果とは、健康上の利益や、害が少ない、コストがかからないなどで、望ましくない効果とは害や、負担がかかる、高額であるということである。このバランスの基準として、以下の4つに分類する。
balance2
  • 望ましい効果には、有益な健康アウトカム (例: 健康に関わる生活の質の改善、心血管イベントの減少、または入院の減少)、負担の軽減、コスト節減などが含まれる。
  • 望ましくない効果には、害、負担の増加、コストなどが含まれる。負担とは、患者または介護者 (例: 家族) が好まないであろうと考えられる推奨に遵守しなければならないこと (薬を飲まなければならない、面倒な通院が必要である、など) をさす。
  • LHH=[ (1/NNT) x  s : (1/NNH)] [ref-7b] JAMA users' guide(2F) ; NNTやNNHの利用は、臨床の現場では分かりやすい指標であるが、プールしたデータにおいては非常に注意が必要である。

[8] 正味の利益とコストとのバランス [Balance of net benefits and costs]:[top] [ref-8a] [ref-8b] [ref-8c] [ref-8d]
 [1] [2] [3] [4] [5] [6] [7] [9] [10]

grade-cost
  • 医療資源の配分を考慮する場合、ガイドラインパネルは、「コストについて検討する前に、他のアウトカムに関するエビデンスの質を決定し、メリットとデメリットとを天秤にかける」必要がある。資源活用の重要性に関わる問題についての意思決定は、この最初のステップをベースに行うもので、健康への正味利益が欠如している状況では、資源の影響について考慮しても意味がない。また、介入のメリットがデメリットを大幅に上回る場合は、資源活用の持つ重要性は低くなる。通常、資源活用が重要となってくるのは、メリットとデメリットが逼迫している場合である。
  • GRADEシステムでは、健康上得られる利益増分(net benefits)は、追加的コストに見合うものかどうかを考慮する。このために、 ref8d: balance sheets(evidence profiles)の利用が役立つ。(下記pre-eclampsia例など:ref8xa1)
  • 医療資源は常に限られていため、コストについての検討が推奨度のグレーデイングに重要である。
  • 同じ薬剤に対する費用も国が異なり、規制が異なれば著しく異なってくる。さらに、医療資源もかなりばらつきが大きく、 例えば、同じ高価な薬剤の年間処方費用は、米国の独身看護師1人の給料、ポーランドの看護師6人分、および中国の看護師30人分の給料を支払うことに相当している。
  • 注:costの考慮は難題で、他のアウトカムとの違い、および、医療資源を考慮したGRADE evidence profile作成、QALYだけでの単純比較ではない、など。下記文献4: "経済評価へのアプローチ"の一部は翻訳した。
  1. Resource example資料(ref-8xa1): pre-eclampsiaの重症度と硫酸マグネシウム剤の効果(33カ国で比較)
  2. ref8f: NNT_cost: COPE (ACPJ2008)
  3. ref8xa2: Guyatt G (resource allocation 論文 Chest 2006)

[9] 推奨度の判定 [Strength of recommendation]:[top] [ref-9a] [ref-9b]
 [1] [2] [3] [4] [5] [6] [7] [8] [10]

  • 利益がdownsides(害、リスク、負担、コスト)を上回ることに、どの程度確認をおけるか、ということが推奨の定義である。
  • 推奨の程度(推奨度:強・弱)のグレーデイングには、エビデンスの質、アウトカムの重要性、利益とdownsidesバランス、治療効果の大きさ(相対的、絶対的)、推定効果の正確さ、負担、害、コスト、価値観などであるが、  
    主要因子としては、以下の4項目である。(推奨グレーデイングを参考。)
  1.  エビデンスの質
  2.  望ましい効果と望ましくない効果のバランス
  3.  患者の価値観・好み
  4.  コスト
  • 毎日のワーファリン錠服用やビタミンK摂取量を一定にすること、併用薬剤の注意、抗凝固治療モニターの血液検査、など治療による負担と、出血リスクを比較して、DVT再発を強く嫌う患者は、それらのdownsidesはワーファリン服用に値するものと思うかもしれないし、患者によっては、その利益はリスクに見合ったものでないと考える人もいる。
  • 推奨の方向性は2つであり(recommend for vs against)、推奨度とあわせて考慮すると、推奨の種類としては、4種類となる。GRADEシステムでは、推奨の表現として、強弱の他に、シンボル、あるいは、番号(1,2)を用いる場合もある。
  • 推奨度の判定は、ガイドラインパネルの全メンバーの意見を反映するようにする。(推奨判定表などを利用)
推奨の程度は強弱の2種、方向も2種類で、推奨する、推奨しない。

[10]  実施と評価 [implementation and evaluation]:[top] [RAND], [GRID], [COGS], [AGREE], [WHO-Checklist]
 [1] [2] [3] [4] [5] [6] [7] [8] [9]

  • ガイドライン・ドラフトは、常にコンセンサスを得て、幅広い視点からチェックする。
  • 代表的なツールとしては、AGREE, COGS, Shaneyfelt RAND WHO-ChecklistGRADE-GRID
  • ガイドラインを実施し、実施状況を評価し、ガイドラインの改訂を継続的に行う。
  • 改訂・公開は迅速であるべきで、数年以上も前のガイドラインを一般公開しても、有害無益である。
    また、ガイドライン利用者は、記載されているエビデンスの収集期間にも留意する必要がある。

注:本手順は、私が個人的に作成したもので、GRADEを利用の情報の一つとしていただきたい。
参考:Schunemann H, Brozek J, Oxman A, editors. GRADE handbook for grading quality of evidence and strength of recommendation. Version 3.2 [updated March 2008]. The GRADE Working Group, 2008. Available from http://www.cc-ims.net/gradepro.
(2008年 Nov. 相原。内容は随時変更となる可能性もありますが、誤記を含め、気がついた方は些細な点でも連絡お願いします)