■ エビデンスの質の評価 (quality assessment):

”エビデンスの質”の定義は、”ある推定効果や関連性などについてどの程度確信をおけるか”を示すもので、最終的に4段階評価とする。下表は、GRADEシステムの一部であるが、単純なスコアリングにこだわらないよう留意すべきであり、オリジナルの論文をよく参照していただきたい。また、GRADEガイドライン作成手順を参照。
■ 研究デザインの評価
| ランダム比較試験(RCT) |
高 |
 |
| 観察研究 |
低 |
 |
| その他(症例シリーズ研究や症例報告) |
非常に低 |
 |
・研究デザインによる評価は、RCT= "High", 観察研究="low", その他の研究="very low"の3種類で、この時点では当然ながら、”moderate"はない。
・エキスパートの意見は、2種類の解釈の仕方があり、その詳細は、近々発表される著者論文を参照していただきたい。
・"診断"に関する研究のエビデンスの質評価にも本分類は適用でき、それは当該診断法の介入が患者アウトカム評価につながる場合であり、GRADE Working Groupから近々論文(5シリーズ)が発表される予定である。
・"非常に低"のものはレート・アップはない。なんらかの限界がある観察研究も同じくレート・アップはない。妥当性をおびやかすものがない観察研究はレート・アップの対象となるが、BMJ2004論文の記載では、治療関連では、"cohort studies, case-control studies, interrupted time series analyses, and controlled before and after studies)である。
■ レート・ダウンの5因子(ランダム化比較試験、良質な観察研究)
(1)研究の限界(limitation):研究の深刻な(-1)、あるいは非常に深刻な(-2)限界: ランダム化比較試験、観察研究において、計画の計画や実行の質としての限界で、コクランレビューでのrisk of biasとほぼ同様である。割付の隠蔽、ブラインド化、フォローアップの脱落、ITTを遵守しない(RCT)、試験の早期終了(利益があったとしての)など。早期の研究中止に関しては、今後、群逐次手法の乱用にも留意する必要がある。複数の限界の存在は、”非常に深刻”と考えられる。
(2)結果が非一貫的(inconsistency):効果の方向性の違いや効果の推定結果が類似していないということである。結果の方向性(利益・害)、差の程度、統計学的有意差(メタアナリシスでは異質性に関しての検定)を考慮する。矛盾がなければサブ解析での効果の大きさを推定すべきである。(-1)
(3)エビデンスが間接的(indirectness): 若干の(-1)あるいは重大な(-2)不確実性がある場合とは、研究の試験参加者、介入、アウトカム指標が、診療ガイドラインや他の医療の推奨などを適用する状況にどれだけ類似しているかである。例えば、対象患者の年齢や重症度が参加者よりも高いとか、他の合併症がある場合、あるいは代理アウトカム使用など、では直接性は低くなる。
(4)不精確(imprecise)なデータ:不精確とは、例えば標本サイズが小さい研究では、信頼区間が広く、害と利益の双方に可能性が及んでいる場合で、研究が1件しかないときも同様に、質の低下になる。
(5)出版バイアスが存在する可能性が高い: (-1)出版バイアスや多くのバイアスがあるが、狭義のものとしては、アウトカム報告バイアスなども非常に重要である。
■ レート・アップの3因子
(1)
関連性(association)の強さ
- 非常に強い関連性のエビデンス:治療などの介入の推定効果の大きさで、非常に大きな相対リスク(RR>5 or RR<0.2) が、妥当性を脅かすものがない直接的エビデンスに基づいている。 (+2)
- 強い関連性を示すエビデンス:有意な相対リスク(RR>2 or RR<0.5)で、2つあるいはそれ以上の観察研究から得られた一貫性のあるもので、ありそうな交絡因子がない。 (+1)
(2)全てのありそうな交絡因子が効果を減少させる方向に働いたと思われる。 (+1)
(3)用量反応勾配のエビデンス :例、ワーファリン治療例でINR値が高くなるほど、出血が多くなることが観察研究により、高い確信となっている。 (+1)
■ 最終判定: 各アウトカムに対しての全体的エビデンスの質 (overall quality of evidence for each outcome)
・アウトカムは、1〜9ポイントスケールで、3カテゴリーに分類し(critical, important but not critical, not important)。、重要以上のアウトカム数は、7個以下を推奨している。
・上記のレート/ダウン・アップ評価は、累積的で、
GRADEprofiler使用が効率的である:

例)ランダム化比較試験で、深刻な限界(-2)、かつ直接性に問題がある場合(-1)、エビデンスの質の等級は、”高”から、”低”にまで低下することになる。
・あるグループは、lowと、very lowを一緒にして研究デザイン評価としているが、最終判定としての”質”のカテゴリー分類は、高、中、低(非常に低を含む)の3分類として表示している。これは、GRADEシステムのオリジナルとは異なるが、Working groupでは許容範囲としている。
・注)システマテイックレビューと違って、ガイドラインパネルは、意思決定にとって本質的な、あらゆる重大な(critical)アウトカムにわたっての、”全体的なエビデンスの質”を決定する必要がある。
“全てのアウトカム”にわたる、“全体的なエビデンスの質”を決定する際の原則は、
(1)”重大なアウトカム”についてのみ検討する。
(2)もし、複数の”重大なアウトカム”にわたってエビデンスの質が異なる場合;
・アウトカムが異なった方向なら(利益と害の両方向)、”最低のエビデンスの質”を採用する。
・全てのアウトカムが同じ方向ならば(利益、あるいは害)、”最高のエビデンスの質”を採用する。
| ランダム比較試験(RCTs) |
高 |
 |
A |
* |
| グレードダウンの"ランダム化比較試験"or "グレードアップの観察研究" |
中 |
 |
B |
* |
| 観察研究("対照のあるよくデザインされたコホート研究など) |
低 |
 |
C |
* |
| その他(症例シリーズ研究や症例報告) |
非常に低 |
 |
D |
* |
*GRADEでは、特に上記のいずれを使用することを規制しているものではないが、文字や番号にこだわるならば、エビデンスの質の判定表示には文字を、推奨度には番号を使用するよう薦めている。
*GRADEシステムでは、
エビデンス・プロファイルとしてまとめるが、
Quality of assessment、およびSummary of fidings(SoF)によって構成されており、コクランの
RevMan5とのデータのやりとりが可能となっている。RevMan5の使用例。

|
■ 推奨度 
・推奨の強さ(推奨度)とは、”ある推奨下で、利益がdownsidesと比べて上回る(あるいは逆)ことに、どの程度確信できるか”を示すものである。
・推奨度には、エビデンスの質の他に、利益とdownsidesバランス、コスト、価値観の4要素を考慮。

・医師、患者、他の利害関係者など;推奨を ”命令”のようにとられてはいけない。
・推奨の決定としては、推奨度は2種類(強弱)で、方向性も2種(positive、negative)、すなわち、2x2で4種類である。
・ガイドラインでは推奨度の策定は、全メンバーの合意が必要であり、この際に、明示的、効率的な手法で合意を得るようにしている(コンセンサス: GRADE Grid)。
| 強 |
"recommend for" OR "recommend against" |
 |
1 |
** |
| 弱 |
"suggest" OR "suggest not doing" |
 |
2 |
** |
**GRADEでは、特に上記のいずれを使用することを規制しているものではないが、文字や番号にこだわるならば、エビデンスの質の判定表示には文字を、推奨度には番号を使用するよう薦めている。
Ref.
注 GRADEシステムについては、常に最新の情報を参考とするようにしてほしい。