GRADEシステムとガイドライン手順

EBMでのエビデンスは、利用可能な最良のエビデンスであり、エビデンスならなんでも採用ということではない。すなわち、あらかじめ設定したエビデンスの組み入れ(inclusion)と除外(exclusion)基準を参考にして、系統的なアプローチ(SR)によるエビデンスの収集・統合が必要である。システマティックレビュー（SR)という言葉は、バイアスの可能性を減少するようにデザインした方法を用いて、CQ、特に前景疑問を扱う要約ということである。
非系統的なアプローチでは、誤り（ランダム誤差）だけではなく、バイアス（系統誤差）も生じやすく、介入効果などが過小評価されたり過大評価されたりする。具体的なエビデンス検索手法例としては、右図参照。
SR作成者は、組み入れ基準に合致する研究を徹底的に検索する必要があり、そのためには、既報のSRやガイドライン、SRの要約（synopses)を参考にし、さらにはMEDLINNE, EMBASE、コクランレビュー、最新のデータべースを使うべきであり、また、最新の学会発表論文や、製薬会社が実施している試験のデータベースを含めることも重要かも知れない。
SRの質評価法として多数報告されているが、GRADEシステムではアウトカム主体のエビデンスの質の評価であることから、一律のカットオフ基準を設定できるものではないし、そうすべきではない。
メタアナリシスは通常は、post hocのものが多く、結果を要約するために定量的方法を使ったレビューにすぎない。
システマティックレビューのステップを通して、GRADEエビデンス・プロフィールを作成する。すなわち、worksheet-1の一覧を検討して、次に、Worksheet-2 (Cochrane SoF) 表に、アウトカムの重要性に従って、要約としてまとめる。エビデンステーブルの具体例としては以下を参照。

各アウトカムについてのエビデンス・レベルの評価、SoF作成に必要となるのが、次項のGRADE基準であり、GRADE profilerの使用が便利である。エビデンスの質は、単独あるいは複数の研究に関して、limitations (risk of bias) を、“Within a study“、および、“Across studies“について評価する必要がある。
コクランレビューでは、SoF tableとは別に、’characteristics of included/excluded studies’table, ’Data and analyses’ table/figuresなどがある。GRADE proと、RevMan5との間でデータのやりとりが可能である。コクラン handbook(ver 5)参照。|
コクランの risk of bias 基準の low, unclear, high判定と、GRADEシステムでのlimitation: none, serious, very seriousでは、意味が微妙に異なっている。（なお、コクランレビューでは、診断研究については、risk of bias tableを、assessment of methodological quality tableという)。下図の例は、risk of bias graphである。

[5] GRADEシステムのエビデンスの質(QoE: Quality of evidence):[top] [GRADE エビデンスの質]
[1] [3] [4] [5] [6] [7] [8] [9] [10]

システマティックレビューにおけるGRADEの”エビデンスの質”は、”ある効果推定値が正しいという確信(confidence)がどの程度か”を示すものと定義され、最終的に4段階評価とする。
研究デザインの評価からスタートし、その後にエビデンスの質の評価要因についてチェックする。
研究デザインによる評価は、ランダム化比較試験= "High", 観察研究＝"low", その他の研究＝"very low"の3種類で、この時点では当然ながら、”moderate"はない。原則的には、"非常に低"のものはグレードを上げることはなく、なんらかの限界がある観察研究や、深刻な限界のあるランダム化比較試験も同じくエビデンスの質を上げることはない。
システマティックレビューからのエビデンスのグレード付けは、エビデンスの質評価（assessment of quality of evidence) や、その要約（summary of findings ; SoF）を作成するために使用される。このGRADEエビデンス質判定を含んだSoF表、すなわちGRADE エビデンスプロファイルは、ガイドラインパネルがその後の判定のよりどころとするもので、透明性の高いエビデンスの要約である。メンバー間の合意のため、Worksheet-3表などを利用する。
各アウトカムについてのエビデンスの質をグレード付けしてまとめること、つまり、アウトカムの数に対応したエビデンスの質評価は、GRADE profilerを利用することで、より容易である。GRADEシステムによるエビデンスの質の最終判定は、４つのカテゴリーであるが、その表現は、GRADE記号あるいは、文字（A,B,C,D)を使用することもできる。

エビデンスの質の評価は、研究デザイン、GRADE基準を参考にして実施する。
例；RCTsから、serious limitation　+ inconsistent resultsのために、highから(3段階下がり）、very lowとなることがある。

■グレードを下げる５つの要因

研究の限界 (limitations: Risk of bias)
結果の非一貫性 (inconsistency, heterogeneity)
エビデンスの非直接性 (indirectness of PICO)
結果の不精確さ (不精確さの判定基準は、2009年に大きく変更となっているので、オリジナルのGRADEハンドブック参照のこと)
出版バイアス(Publication bias)

■グレードを上げる３つの要因

効果の程度（関連性, magnitude of effect）、
大きい： [(RR) > 2 or RR < 0.5] (+1)*
極めて大きい：　 [RR>5　or RR<0.2]　(+2)*
交絡因子(confounder)のための過小評価、
用量勾配反応、

・注1： SoFテーブルには、コクランRevManに記載されているように、７項目を含めるようにする。
1.  アウトカム
2.  想定リスク（典型的リスク、ベースライン、対照のリスク）
3.  対応リスク
4.  介入の相対的・絶対的効果
5.  当該アウトカムに関わる参加者数および研究件数
6.  各アウトカムについての最終的なエビデンスの質
7.  脚注コメント
・注2： GRADE evidence profileは、アウトカム、エビデンスの質、SoFがセットになったものである。
前述（Air_travel_sof.pdf、ma-GRADE evidence profileなどの例を参照。
・注3：エキスパートの意見は、単純にエビデンスがない、とは断定することはできない。[Ref-expert]参照。

GRADE システムによるEvidenceの”質”評価
Study design	Rate-Down	Rate-Up	Quality	文字	記号
・複数のランダム化比較試験= 高・複数の良質な観察研究= 低	・限界 (-1, -2) ・結果の非一貫性 (-1, -2) ・PICOの非直接性 (-1, -2) ・結果が不精確 (-1, -2) ・出版バイアス(-1, -2)	・関連性（効果の大きさ） (+1, +2) ・交絡因子のために効果が減少 (+1) ・用量反応勾配 (+1)	・High ・moderate ・low	・A ・B ・C
~~・その他の研究やエキスパート意見 = 非常に低~~	~~原則として、グレードを上げることはない~~	・very low	・D

GRADE システムによるEvidenceの”質”評価

Study design

Rate-Down

Rate-Up

Quality

文字

記号

・複数のランダム化比較試験= 高
・複数の良質な観察研究= 低

・限界 (-1, -2)
・結果の非一貫性 (-1, -2)
・PICOの非直接性 (-1, -2)
・結果が不精確 (-1, -2)
・出版バイアス(-1, -2)

・関連性（効果の大きさ） (+1, +2)
・交絡因子のために効果が減少 (+1)
・用量反応勾配 (+1)

・High

・moderate

・low

・A

・B

・C

~~・その他の研究やエキスパート意見 = 非常に低~~

~~原則として、グレードを上げることはない~~

・very low

・D

[6] "アウトカム全般にわたる全体的なエビデンスの質”決定 [Overall quality of evidence across outcomes]:[top] [ref-6a]
[1] [2] [3] [4] [5] [7] [8] [9] [10]

既存のシステムでは、全体的なエビデンスの質の判断が、介入による利益を基準としていることが多いが、有害作用のリスクが重大な意味をもち、かつリスクに関するエビデンスよりも弱い場合、害のリスクに関する不確かさを無視することには問題がある。従って、各アウトカムに関するエビデンスの質が異なる場合のGRADEシステムによる推奨決定の原則が重要である。以下参照。

■推奨を決定することがない（すべきでない）システマティックレビュー作成者は、”複数のアウトカム”についての”全体的なエビデンスの質”は評価することはなく、単に、各アウトカムについてのエビデンスの質をグレード付けするだけである。

■ガイドラインパネルは、意思決定にとって本質的な、あらゆる重大（critical)なアウトカムにわたっての、”全体的なエビデンスの質”を決定する必要がある。“全てのアウトカム”にわたる、“全体的なエビデンスの質”を決定する際のGRADEの原則は、

重大なアウトカム”についてのみ検討する。
もし、複数の”重大なアウトカム”にわたってエビデンスの質が異なる場合；

アウトカムが異なった方向なら（利益と害の両方向）、”重大なアウトカムに関するエビデンスの中で最低のもの”を全体的なエビデンスの質とする。
全てのアウトカムが同じ方向ならば（利益、あるいは害）、”重大なアウトカムに関するエビデンスの中で、最高のもの”を全体的なエビデンスの質とする。

注：推奨度の決定は、後述ステップのごとく、４つの要因を考慮する必要があり、そのひとつが“全体的なエビデンスの質”である。

[7] 望ましい効果と望ましくない効果のバランス [Balance of desirable and undesirable effects]:[top] [ref-7a] [ref-7b]
[1] [2] [3] [4] [5] [6] [8] [9] [10]

望ましい効果とは、健康上の利益や、害が少ない、コストがかからないなどで、望ましくない効果とは害や、負担がかかる、高額であるということである。このバランスの基準として、以下の４つに分類する。

望ましい効果 << 望ましくない効果 （推奨しない；強）
望ましい効果 < 望ましくない効果（推奨しない；弱）
望ましい効果 > 望ましくない効果（推奨する；弱）
望ましい効果 >> 望ましくない効果（推奨する；強）

望ましい効果には、有益な健康アウトカム (例: 健康に関わる生活の質の改善、心血管イベントの減少、または入院の減少)、負担の軽減、コスト節減などが含まれる。
望ましくない効果には、害、負担の増加、コストなどが含まれる。負担とは、患者または介護者 (例: 家族) が好まないであろうと考えられる推奨に遵守しなければならないこと (薬を飲まなければならない、面倒な通院が必要である、など) をさす。
LHH=[ (1/NNT) x s : (1/NNH)] Likelihood of Help vs Harm（LHH） JAMA users' guide 1st ed, (2F) ；　NNTやNNHの利用は、臨床の現場では分かりやすい指標であるが、プールしたデータにおいては非常に注意が必要である。

[8] 正味の利益とコストとのバランス [Balance of net benefits and costs]:[top] [ref-8a] [ref-8b] [ref-8c] [ref-8d]
[1] [2] [3] [4] [5] [6] [7] [9] [10]

医療資源の配分を考慮する場合、ガイドラインパネルは、「コストについて検討する前に、他のアウトカムに関するエビデンスの質を決定し、メリットとデメリットとを天秤にかける」必要がある。資源活用の重要性に関わる問題についての意思決定は、この最初のステップをベースに行うもので、健康への正味利益が欠如している状況では、資源の影響について考慮しても意味がない。また、介入のメリットがデメリットを大幅に上回る場合は、資源活用の持つ重要性は低くなる。通常、資源活用が重要となってくるのは、メリットとデメリットが逼迫している場合である。
GRADEシステムでは、健康上得られる利益増分（net benefits)は、追加的コストに見合うものかどうかを考慮する。
医療資源は常に限られていため、コストについての検討が推奨度のグレーディングに重要である。
同じ薬剤に対する費用も国が異なり、規制が異なれば著しく異なってくる。さらに、医療資源もかなりばらつきが大きく、例えば、同じ高価な薬剤の年間処方費用は、米国の独身看護師1人の給料、ポーランドの看護師6人分、および中国の看護師30人分の給料を支払うことに相当している。
注：costの考慮は難題で、他のアウトカムとの違い、および、医療資源を考慮したGRADE evidence profile作成、QALYだけでの単純比較ではない。下記も参照のこと。

[9] 推奨の強さ [Strength of recommendation]:[top] [ref-9a] [ref-9b]
[1] [2] [3] [4] [5] [6] [7] [8] [10]

利益がdownsides（害、リスク、負担、コスト）を上回ることに、どの程度確信をおけるか、ということが推奨の定義である。
推奨の程度（推奨度：強・弱）のグレーディングには、エビデンスの質、アウトカムの重要性、利益とdownsidesバランス、治療効果の大きさ（相対的、絶対的）、推定効果の正確さ、負担、害、コスト、価値観などであるが、
主要因子としては、以下の４項目である。（推奨のグレーディングを参考。）

エビデンスの質
望ましい効果と望ましくない効果のバランス
患者の価値観・好み
コスト

毎日のワーファリン錠服用やビタミンＫ摂取量を一定にすること、併用薬剤の注意、抗凝固治療モニターの血液検査、など治療による負担と、出血リスクを比較して、DVT再発を強く嫌う患者は、それらのdownsidesはワーファリン服用に値するものと思うかもしれないし、患者によっては、その利益はリスクに見合ったものでないと考える人もいる。
推奨の方向性は２つであり（recommend for vs against)、推奨の強さ（推奨度)とあわせて考慮すると、最終的な推奨の種類としては、4種類となる。GRADEシステムでは、推奨の表現として、強弱の他に、シンボル、あるいは、番号（1,2)を用いる場合もある。
推奨度の判定は、ガイドラインパネルの全メンバーの意見を反映するようにする。(推奨判定表などを利用）

[10] 実施と評価 [implementation and evaluation]:[top] [AGREE], [WHO-Checklist], [COGS], [RAND], [GRID]
[1] [2] [3] [4] [5] [6] [7] [8] [9]

ガイドライン・ドラフトは、常に合意を形成し、幅広い視点からチェックする。
ガイドラインの評価や合意に関する代表的なツールとしては、AGREE, WHO-Checklist, GOGS, RAND, GRADE-GRID。
ガイドラインを実施し、実施状況を評価し、ガイドラインの改訂を継続的に行う。
改訂・公開は迅速であるべきで、数年以上も前のガイドラインを一般公開しても、有害無益である。
また、ガイドライン利用者は、記載されているエビデンスの収集期間にも留意する必要がある。

注：本手順は、2008年11月時点での情報を主体として、個人的に作成したものです。
参考：Schunemann H, Brozek J, Oxman A, editors. GRADE handbook for grading quality of evidence and strength of recommendation. Version 3.2 [updated March 2008]. The GRADE Working Group, 2008. Available from http://www.cc-ims.net/gradepro.
（GRADEシステムは改変されている場合がありますので、常にGRADE working groupの最新情報を参照ください）

	[1] GRADEとは,ガイドライン策定プロセスの確立・パネル
	[2] ヘルスケアクエスチョンの設定 [3] アウトカムの相対的重要性 [4] evidence検索・統合、系統的レビュー [5] 各アウトカムに関するエビデンスの質 [6] 全体的なエビデンスの質 [7] 利益・downside（害、リスク、負担）バランス [8] 正味の利益とコストとのバランス [9] 推奨の強さ（推奨度）
	[10] 実施と評価

GRADEシステムを使った診療ガイドラインの作成