grade-symbol

11/01/2008
2012年2月に内容の一部を修正しました(赤フォントの取り消し線部)。
本ガイドライン手順は、BMJシリーズ(2008年)が発表される前のGRADE関連情報を利用した内容ですが、基本的にはJCEシリーズ(2011〜2012年)とは大きな違いはありません。

GRADEシステムを使った診療ガイドラインの作成

[1] GRADEとは,ガイドライン策定プロセスの確立・パネル
左図 [2] ヘルスケアクエスチョンの設定
[3] アウトカムの相対的重要性
[4] evidence検索・統合、系統的レビュー
[5] 各アウトカムに関するエビデンスの質
[6] 全体的なエビデンスの質
[7] 利益・downside(害、リスク、負担)バランス
[8] 正味の利益とコストとのバランス
[9] 推奨の強さ(推奨度)
右図sof
sof
[10] 実施と評価


・ はじめに(国内現状など) [intro]

[1]: GRADEとは、ガイドラインパネル編成、プロセス確立[top] [FAQ翻訳へ]
 [2] [3] [4] [5] [6] [7] [8] [9] [10]


BMJシリーズ:
  1. Rating quality of evidence and strength of recommendations GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ 2008;336:924-926
  2. Rating quality of evidence and strength of recommendations: What is "quality of evidence" and why is it important to clinicians? BMJ. 2008 May 3;336(7651):995-8
  3. Grading quality of evidence and strength of recommendations for diagnostic tests and strategies. BMJ. 2008 May 17;336(7653):1106-10
  4. Rating quality of evidence and strength of recommendations: Incorporating considerations of resources use into grading recommendations. BMJ. 2008 May 24;336(7654):1170-3
  5. Rating quality of evidence and strength of recommendations: Going from evidence to recommendations. BMJ. 2008 May 10;336(7652):1049-51
  6. Use of GRADE grid to reach decisions on clinical practice guidelines when consensus is elusive. BMJ. 2008 Jul 31;337:a744

[2] ヘルスケアクエスチョン: [Define CQs (populations, intervention/comparison, outcome)]:[top] [ref-2a] cq-four
 [1] [3] [4] [5] [6] [7] [8] [9] [10]

CQ-jpg
  • 一般的には、最善のエビデンスを見つけやすくするために、ヘルスケアクエスチョンを、3つの構成部分に分けて、疑問の定式化を考慮することが文献検索を容易にさせることにつながる。(Patients/population, Intervention, Outcomes):右図参照。
  • GRADE Profilerを利用すると、アウトカムの重要性の入力やアウトカムを中心とした臨床疑問の定式化が容易である。
  • GRADEprofilerを利用すると、ヘルスケアクエスチョン(or, クリニカルクエスチョン: CQ)は、原則として4種類の定式化CQのいずれかをプルダウンで選択可能である。
    ( CQの定式化:Question Format.html 参照)。
  • 多忙な中でいかに効率的に、高質のエビデンスを探すかが問題である。
  • P (Population): 対象者:対象となる患者や集団はどのようなものか?
  • I (Intervention): 介入は何か?
  • O (Outcomes): アウトカム:患者にとって重要なものはなにか?

[3] アウトカムの相対的重要性: [relative importance of the outcomes] :[top] [ref-3a] [ref-3b]
 [1] [2] [4] [5] [6] [7] [8] [9] [10]

アウトカムは1〜9ポイントで相対的に重要性を評価し、さらに7〜9ポイントを重大、4〜6を重要、1〜3を非重要と3段階に分類する。SoFでは、アウトカムは最大7個程度にする。
  • GRADEシステムでは、アウトカムの重要性は3段階に分類(右図)するが、システマテイックレビューのための各研究検索では、重大・重要なアウトカムは7個までにする。
  • アウトカムは、重大(スコア:>7)、重要(スコア: 4-6)について、入手可能な最善のエビデンスを特定し、リスアップする(Worksheet-1)。従って、重要ではないもの(スコア: 3以下)は検討の対象とはしない。
  • もし、検索中に、追加アウトカムの必要性が新たに出現したならば、さらにデータとして追加する(重要・重大なアウトカム)。エビデンス・プロフィールには、重大、重要なアウトカム、ガイドライン作成者は、どのアウトカムが重要なのか、また“推奨“にとって重大なものがどれなのかを(できるだけ事前に)決定すべきである。
  • 代理アウトカム(surrogate)、 サブグループ解析では、その扱いに非常に注意が必要で、特に後者では、7つの基準を参考にするように明示している。
  • アウトカムの種類としては、2値アウトカム(脳卒中、心筋梗塞、死亡などのイベント発生の割合など)と、連続値アウトカム(潰瘍の症状の減少や日数、輸血量、肺機能の変化など)の2種類がある。前者では、オッズ比相対危険がよく使われるが、後者では、測定尺度の単位が同じ場合は介入群と対照群の平均値の差(加重平均の差 weighted mean difference: WMD)を使って統合し、測定尺度の単位が異なる場合には、標準化平均差(standardized mean difference: SMD)、すなわち、平均の差を標準偏差で除したもので統合する。SMD表示は、Cohen's 係数、OR変換、信頼区間、などいくつかのオプションがある。

[4] システマテイックレビュー(Systematic review):[top] [ランダム誤差とバイアス]
 [1] [3] [4] [5] [6] [7] [8] [9] [10]

quality
  • EBMでのエビデンスは、利用可能な最良のエビデンスであり、エビデンスならなんでも採用ということではない。すなわち、あらかじめ設定したエビデンスの組み入れ(inclusion)と除外(exclusion)基準を参考にして、系統的なアプローチ(SR)によるエビデンスの収集・統合が必要である。システマティックレビュー(SR)という言葉は、バイアスの可能性を減少するようにデザインした方法を用いて、CQ、特に前景疑問を扱う要約ということである。
    非系統的なアプローチでは、誤り(ランダム誤差)だけではなく、バイアス(系統誤差)も生じやすく、介入効果などが過小評価されたり過大評価されたりする。具体的なエビデンス検索手法例としては、右図参照。
  • SR作成者は、組み入れ基準に合致する研究を徹底的に検索する必要があり、そのためには、既報のSRやガイドライン、SRの要約(synopses)を参考にし、さらにはMEDLINNE, EMBASE、コクランレビュー、最新のデータべースを使うべきであり、また、最新の学会発表論文や、製薬会社が実施している試験のデータベースを含めることも重要かも知れない。
  • SRの質評価法として多数報告されているが、GRADEシステムではアウトカム主体のエビデンスの質の評価であることから、一律のカットオフ基準を設定できるものではないし、そうすべきではない。
  • メタアナリシスは通常は、post hocのものが多く、結果を要約するために定量的方法を使ったレビューにすぎない。
  • システマティックレビューのステップを通して、GRADEエビデンス・プロフィールを作成する。 すなわち、worksheet-1の一覧を検討して、次に、Worksheet-2  (Cochrane SoF) 表に、アウトカムの重要性に従って、要約としてまとめる。エビデンステーブルの具体例としては以下を参照。

  • 各アウトカムについてのエビデンス・レベルの評価、SoF作成に必要となるのが、次項のGRADE基準であり、GRADE profilerの使用が便利である。エビデンスの質は、単独あるいは複数の研究に関して、limitations (risk of bias) を、“Within a study“、および、“Across studies“について評価する必要がある。
  • コクランレビューでは、SoF tableとは別に、’characteristics of included/excluded studies’table, ’Data and analyses’ table/figuresなどがある。GRADE proとRevMan5との間でデータのやりとりが可能である。コクラン handbook(ver 5)参照。|
  • コクランの risk of bias 基準の low, unclear, high判定と、GRADEシステムでのlimitation: none, serious, very seriousでは、意味が微妙に異なっている。(なお、コクランレビューでは、診断研究については、risk of bias tableを、assessment of methodological quality tableという)。下図の例は、risk of bias graphである。
risk_of_bias_table

[5] GRADEシステムのエビデンスの質(QoE: Quality of evidence):[top] [GRADE エビデンスの質]
 [1] [3] [4] [5] [6] [7] [8] [9] [10]

quality
  • システマティックレビューにおけるGRADEの”エビデンスの質”は、”ある効果推定値が正しいという確信(confidence)がどの程度か”を示すものと定義され、最終的に4段階評価とする。
  • 研究デザインの評価からスタートし、その後にエビデンスの質の評価要因についてチェックする。
    研究デザインによる評価は、ランダム化比較試験= "High", 観察研究="low", その他の研究="very low"の3種類で、この時点では当然ながら、”moderate"はない。原則的には、"非常に低"のものはグレードを上げることはなく、なんらかの限界がある観察研究や、深刻な限界のあるランダム化比較試験も同じくエビデンスの質を上げることはない。
  • システマティックレビューからのエビデンスのグレード付けは、エビデンスの質評価(assessment of quality of evidence) や、その要約(summary of findings ; SoF)を作成するために使用される。このGRADEエビデンス質判定を含んだSoF表、すなわちGRADE エビデンスプロファイルは、ガイドラインパネルがその後の判定のよりどころとするもので、透明性の高いエビデンスの要約である。メンバー間の合意のため、Worksheet-3表などを利用する。
  • 各アウトカムについてのエビデンスの質をグレード付けしてまとめること、つまり、アウトカムの数に対応したエビデンスの質評価は、GRADE profilerを利用することで、より容易である。GRADEシステムによるエビデンスの質の最終判定は、4つのカテゴリーであるが、その表現は、GRADE記号あるいは、文字(A,B,C,D)を使用することもできる。
エビデンスの質の評価は、研究デザイン、GRADE基準を参考にして実施する。
例;RCTsから、serious limitation + inconsistent resultsのために、highから(3段階下がり)、very lowとなることがある。
■グレードを下げる5つの要因
■グレードを上げる3つの要因
  • 効果の程度(関連性, magnitude of effect)
  • 大きい:  [(RR) > 2 or RR < 0.5] (+1)*
  • 極めて大きい:   [RR>5 or RR<0.2] (+2)*
  • 交絡因子(confounder)のための過小評価
  • 用量勾配反応

・注1: SoFテーブルには、コクランRevManに記載されているように、7項目を含めるようにする。
1.  アウトカム
2.  想定リスク(典型的リスク、ベースライン、対照のリスク)
3.  対応リスク
4.  介入の相対的・絶対的効果
5.  当該アウトカムに関わる参加者数および研究件数
6.  各アウトカムについての最終的なエビデンスの質
7.  脚注コメント
・注2:  GRADE evidence profileは、アウトカム、エビデンスの質、SoFがセットになったものである。
前述(Air_travel_sof.pdfma-GRADE evidence profileなどの例を参照。
・注3: エキスパートの意見は、単純にエビデンスがない、とは断定することはできない。[Ref-expert]参照。


GRADE システムによるEvidenceの”質”評価
Study design Rate-Down Rate-Up Quality 文字 記号
・複数のランダム化比較試験= 高
・複数の良質な観察研究= 低
・限界 (-1, -2)
・結果の非一貫性 (-1, -2)
・PICOの非直接性 (-1, -2)
・結果が不精確 (-1, -2)
・出版バイアス(-1, -2)
・関連性(効果の大きさ) (+1, +2)
・交絡因子のために効果が減少 (+1)
・用量反応勾配 (+1)

・High

・moderate

・low

・A

・B

・C

4

3

2

・その他の研究やエキスパート意見 = 非常に低 原則として、グレードを上げることはない ・very low ・D 1


[6] "アウトカム全般にわたる全体的なエビデンスの質”決定 [Overall quality of evidence across outcomes]:[top] [ref-6a]
 [1] [2] [3] [4] [5] [7] [8] [9] [10]

  • 既存のシステムでは、全体的なエビデンスの質の判断が、介入による利益を基準としていることが多いが、有害作用のリスクが重大な意味をもち、かつリスクに関するエビデンスよりも弱い場合、害のリスクに関する不確かさを無視することには問題がある。従って、各アウトカムに関するエビデンスの質が異なる場合のGRADEシステムによる推奨決定の原則が重要である。以下参照。

推奨を決定することがない(すべきでない)システマティックレビュー作成者は、”複数のアウトカム”についての”全体的なエビデンスの質”は評価することはなく、単に、各アウトカムについてのエビデンスの質をグレード付けするだけである。

ガイドラインパネルは、意思決定にとって本質的な、あらゆる重大(critical)なアウトカムにわたっての、”全体的なエビデンスの質”を決定する必要がある。“全てのアウトカム”にわたる、“全体的なエビデンスの質”を決定する際のGRADEの原則は、

  1. 重大なアウトカム”についてのみ検討する。
  2. もし、複数の”重大なアウトカム”にわたってエビデンスの質が異なる場合;
  • アウトカムが異なった方向なら(利益と害の両方向)、”重大なアウトカムに関するエビデンスの中で最低のもの”を全体的なエビデンスの質とする。
  • 全てのアウトカムが同じ方向ならば(利益、あるいは害)、”重大なアウトカムに関するエビデンスの中で、最高のもの”を全体的なエビデンスの質とする。

  • 注: 推奨度の決定は、後述ステップのごとく、4つの要因を考慮する必要があり、そのひとつが“全体的なエビデンスの質”である。

[7]  望ましい効果と望ましくない効果のバランス [Balance of desirable and undesirable effects]:[top] [ref-7a] [ref-7b]
 [1] [2] [3] [4] [5] [6] [8] [9] [10]

  • 望ましい効果とは、健康上の利益や、害が少ない、コストがかからないなどで、望ましくない効果とは害や、負担がかかる、高額であるということである。このバランスの基準として、以下の4つに分類する。
  1. 望ましい効果 << 望ましくない効果 (推奨しない;強)
  2. 望ましい効果 < 望ましくない効果(推奨しない;弱)
  3. 望ましい効果 > 望ましくない効果(推奨する;弱)
  4. 望ましい効果 >> 望ましくない効果(推奨する;強)
balance
  • 望ましい効果には、有益な健康アウトカム (例: 健康に関わる生活の質の改善、心血管イベントの減少、または入院の減少)、負担の軽減、コスト節減などが含まれる。
  • 望ましくない効果には、害、負担の増加、コストなどが含まれる。負担とは、患者または介護者 (例: 家族) が好まないであろうと考えられる推奨に遵守しなければならないこと (薬を飲まなければならない、面倒な通院が必要である、など) をさす。
  • LHH=[ (1/NNT) x  s : (1/NNH)] Likelihood of Help vs Harm(LHH) JAMA users' guide 1st ed, (2F) ; NNTやNNHの利用は、臨床の現場では分かりやすい指標であるが、プールしたデータにおいては非常に注意が必要である。

[8] 正味の利益とコストとのバランス [Balance of net benefits and costs]:[top] [ref-8a] [ref-8b] [ref-8c] [ref-8d]
 [1] [2] [3] [4] [5] [6] [7] [9] [10]

grade-cost
  • 医療資源の配分を考慮する場合、ガイドラインパネルは、「コストについて検討する前に、他のアウトカムに関するエビデンスの質を決定し、メリットとデメリットとを天秤にかける」必要がある。資源活用の重要性に関わる問題についての意思決定は、この最初のステップをベースに行うもので、健康への正味利益が欠如している状況では、資源の影響について考慮しても意味がない。また、介入のメリットがデメリットを大幅に上回る場合は、資源活用の持つ重要性は低くなる。通常、資源活用が重要となってくるのは、メリットとデメリットが逼迫している場合である。
  • GRADEシステムでは、健康上得られる利益増分(net benefits)は、追加的コストに見合うものかどうかを考慮する。
  • 医療資源は常に限られていため、コストについての検討が推奨度のグレーディングに重要である。
  • 同じ薬剤に対する費用も国が異なり、規制が異なれば著しく異なってくる。さらに、医療資源もかなりばらつきが大きく、 例えば、同じ高価な薬剤の年間処方費用は、米国の独身看護師1人の給料、ポーランドの看護師6人分、および中国の看護師30人分の給料を支払うことに相当している。
  • 注:costの考慮は難題で、他のアウトカムとの違い、および、医療資源を考慮したGRADE evidence profile作成、QALYだけでの単純比較ではない。下記も参照のこと。
  1. ref8f: NNT_cost: COPE (ACPJ2008)
  2. ref8xa2: Guyatt G (resource allocation 論文 Chest 2006)

[9] 推奨の強さ [Strength of recommendation]:[top] [ref-9a] [ref-9b]
 [1] [2] [3] [4] [5] [6] [7] [8] [10]

  • 利益がdownsides(害、リスク、負担、コスト)を上回ることに、どの程度確信をおけるか、ということが推奨の定義である。
  • 推奨の程度(推奨度:強・弱)のグレーディングには、エビデンスの質、アウトカムの重要性、利益とdownsidesバランス、治療効果の大きさ(相対的、絶対的)、推定効果の正確さ、負担、害、コスト、価値観などであるが、  
    主要因子としては、以下の4項目である。(推奨のグレーディングを参考。)
  1.  エビデンスの質
  2.  望ましい効果と望ましくない効果のバランス
  3.  患者の価値観・好み
  4.  コスト
  • 毎日のワーファリン錠服用やビタミンK摂取量を一定にすること、併用薬剤の注意、抗凝固治療モニターの血液検査、など治療による負担と、出血リスクを比較して、DVT再発を強く嫌う患者は、それらのdownsidesはワーファリン服用に値するものと思うかもしれないし、患者によっては、その利益はリスクに見合ったものでないと考える人もいる。
  • 推奨の方向性は2つであり(recommend for vs against)、推奨の強さ(推奨度)とあわせて考慮すると、最終的な推奨の種類としては、4種類となる。GRADEシステムでは、推奨の表現として、強弱の他に、シンボル、あるいは、番号(1,2)を用いる場合もある。
  • 推奨度の判定は、ガイドラインパネルの全メンバーの意見を反映するようにする。(推奨判定表などを利用)
推奨の程度は強弱の2種、方向も2種類で、推奨する、推奨しない。

[10]  実施と評価 [implementation and evaluation]:[top] [AGREE], [WHO-Checklist], [COGS], [RAND], [GRID]
 [1] [2] [3] [4] [5] [6] [7] [8] [9]

  • ガイドライン・ドラフトは、常に合意を形成し、幅広い視点からチェックする。
  • ガイドラインの評価や合意に関する代表的なツールとしては、AGREE,  WHO-ChecklistGOGSRANDGRADE-GRID
  • ガイドラインを実施し、実施状況を評価し、ガイドラインの改訂を継続的に行う。
  • 改訂・公開は迅速であるべきで、数年以上も前のガイドラインを一般公開しても、有害無益である。
    また、ガイドライン利用者は、記載されているエビデンスの収集期間にも留意する必要がある。
 

注:本手順は、2008年11月時点での情報を主体として、個人的に作成したものです。
参考:Schunemann H, Brozek J, Oxman A, editors. GRADE handbook for grading quality of evidence and strength of recommendation. Version 3.2 [updated March 2008]. The GRADE Working Group, 2008. Available from http://www.cc-ims.net/gradepro.
(GRADEシステムは改変されている場合がありますので、常にGRADE working groupの最新情報を参照ください)