GRADEシステムのFAQ翻訳

♦ GRADEワーキンググループとは何か？

GRADE ワーキンググループは、医療で用いられる既存のグレーディング・システムの問題点を改善したいと願う人々により、非公式の共同グループとして2000年に発足した。当グループの目的は、エビデンスの質と推奨の強さをグレーディングするための、一般的かつわかりやすい方法を開発することである。

♦ なぜ医学的なエビデンスをグレーディングするのが重要なのか？

医学的なエビデンス、つまりエビデンスに基づく推奨はさまざまな質のものがある。エビデンスの情報源は、実験室での小さな研究や症例報告から、バイアスが最小となるように良くデザインされた大規模臨床研究まで幅広い。質の悪いエビデンスは患者が最も興味のあることではない推奨を導く可能性があることから、その推奨が強い（確信をもって推奨できる）のか、弱い（推奨に確信がない）　のかを知っておくことが必須である。

♦ エビデンスと推奨をグレーディングすることは、何か新しいことなのか？

そうではない。グレーディングの考え方は25年以上から使われている。

♦ 世の中には、エビデンスと推奨のグレーディング・システムがたくさんある。なぜ、さらに別のものが必要なのか？

混乱を避けるために、単一システムが必要とされているからである。その単一システムは、他のシステムの短所を回避し、かつ長所を盛り込んだものであるべきだ。グレーディング・システムの中には、エビデンスの質を決定するにあたり、他の重要な要因を考慮することが明示せずに研究デザインのみに基づくものもある。また、システムによっては、複雑すぎるものもある。既存のグレーディング・システムの分析からは、これらやその他の短所に対しては、これまでいずれのシステムでも適切に対処されていない。
他のシステムとの比較。

♦ 過去にグレーディング・システムの開発に携わったことのある者は、GRADEワーキンググループに参加してはならないか？

いいえ、参加可能だ。実際に、多くの広く使われているグレーディング・システムの開発者が、GRADEの開発に積極的に関与している。

♦ GRADEとは、何の略か？

Grading of Recommendations, Assessment, Development and Evaluationの頭文字をとって、GRADEと呼んでいる。

♦ エビデンスと推奨を系統的にグレーディングする長所は何か？

推奨の強さを系統的にグレーディングする方法により、バイアスを最小化し、専門家が作った医療用ガイドラインを解釈するのを助けることができなる。実際に、ほとんどのガイドライン作成グループでは、なんらかの系統的なグレーディングの考え方が必要だと考えている。

♦ 「推奨の強さ（strength of recommendation）」とは何か？

介入を実施すべき、あるいは、実施すべきでないという推奨は、利益と、リスク・負担（burden）・潜在的なコストとの間の得失（trade-off）に基づくべきだ。もし利益がリスクや負担を上回るなら、専門家は臨床医が典型的な患者にその治療を提供するよう推奨する。利益とリスクや負担との間の得失に関連する不確実性（uncertainty）により推奨の強さは決まる。

♦ 推奨度の数が多いと、複雑ではないか？

その可能性がある。そのため、GRADEでは、「強い推奨」、「弱い推奨」という２段階である。

♦ 何が強い推奨とされるか？

入手可能なエビデンスに基づき、利益がリスクや負担を上回る、または上回らない、という強い確信を臨床医がもつものを、強い推奨とする。例：心筋梗塞後のアスピリン

♦ 何が弱い推奨とされるのか？

入手可能なエビデンスに基づいて、臨床医が、利益とリスクや負担とのバランスがしっかり保たれている (finely balanced)、もしくは利益と害の大きさがかなり不確実であると確信する場合には、弱い推奨を提示しなくてはならない。加えて、臨床医は、臨床判断 (clinical decision making) において患者の価値観や好み（values and preferences）の重要性をますます意識するようになっている。十分に情報を与えられた (fully informed) 患者たちが、価値観の幅の中で、さまざまな選択をとる傾向があるとき、ガイドラインパネルは弱い推奨を提供するべきである。例：特発性深部静脈血栓症に対するワルファリン

♦ 推奨の強さに影響する要因は何か？

推奨をグレーディングするときに考慮する必要のある要因は、たくさんある。１つの問題は、利益と害の最良推定値 (best estimate) への確信の度合いである。エビデンスの方法論的な質を評価するには、まず、そのエビデンスのもたらす利益と害の推定がどの程度確実なのかを考えなければならない。しかし、推奨の強さに影響を与える要因は、この他にもたくさんある。推奨の強弱の判定因子

♦ 利益、リスク、負担、コストの大きさがどの程度確信をもてるかを決める要因は何か？

治療効果の有益性および有害性推定にどの程度確信をもてるかを決める際は、基本的な研究デザインと付加的な方法論的要因 (methodological factor) が極めて重要になる。

♦ 基本的な研究デザインの違いとは、何のことか？

対象集団間の予後の違いや、盲検化のようなアウトカムの確認におけるバイアスを避けるための安全装置の欠如のため、一般的に、観察研究に基づくエビデンスは、実験的な研究デザインであるランダム化比較試験からのエビデンスよりも、かなり弱くなる、ということである。

♦ エビデンスの質を決定するには、基本的な研究デザイン以外にどんな要因が重要か？

近年、利益とリスクの推定が正しいという確信の程度に影響する多くの要因がより認識されるようになってきた。それらの要因とは、研究計画の質の低さ、バイアスの可能性が高い (high likelihood of bias) ことが示唆される入手可能なランダム化比較試験の実施、研究結果の非一貫性 (inconsistency)、エビデンスの非直接性 (indirectness)、まばらな (sparse) エビデンスといったことである。

♦ GRADEシステムでは、エビデンスの質はどのように分類されるのか？

エビデンスのグレーディングの過程を経て、全体的なエビデンスの質 (overall quality of evidence) は、「高 high」、「中 moderate」、「低 low」、「非常に低 very low」に分類される。

♦ エビデンスの質をグレーディングするというのは、ずいぶん抽象的に聞こえる。たとえば、「エビデンスの質が中 (moderate) である」とはどういう意味か？

エビデンスの質をグレーディングする際は、以下の定義を用いる。

「高」＝今後の研究によって効果推定値への確信性が変わる可能性は低い (very unlikely)。
「中」＝今後の研究によって効果推定値への確信性に重要な影響がおよぶ可能性が高く(likely)、推定値が変わる可能性がある (may)。
「低」＝今後の研究によって効果推定値への確信性に重要な影響がおよぶ可能性が非常に高く (very likely)、推定値が変わる可能性が高い (likely)。
「非常に低」＝あらゆる効果推定値が不確実である (very uncertain)。

♦ 必要とされるすべてのエビデンスはどこで見つけるのか？

理想的には、エビデンスの質のグレーディングをする人たちは、必要とする人たちが検討している他の管理戦略選択肢の利益と害に関するエビデンスのシステマティック・レビューを入手できるようにすべきである。

♦ ランダム化比較試験に欠陥 (flaw) があるときはどうか？

重要な限界 (limitations) のあるランダム化試験については、エビデンスの質は「中」と分類する。深刻 (serious) な限界が多数あるランダム化比較試験については、エビデンスの質は「低」もしくは「非常に低」と分類する。 [grade of evidence]

♦ ランダム化比較試験のどんな欠陥がエビデンスの質を下げるか？

入手可能なランダム化比較試験に、治療効果のバイアスをもった評価をもたらす可能性の高い大きな欠陥があるとき、エビデンスへの確信の度合いが減る。このような方法論的な限界には、追跡率が非常に低いこと、割り付けの隠蔽が不適切であること、バイアスの影響を受けやすい主観的なアウトカムを用いた盲検化がされていない研究、などがある。例：HITにおけるダナパロイド治療

♦ もし、ある研究では利益が証明され別の研究では利益が証明されない場合のように、複数の研究結果において一貫性がない場合はどうするか？

複数のランダム化比較試験の間で治療効果推定値が大きく異なる場合　（結果に異質性 (heterogeneity) あるいは多様性があるとき）、研究者はその異質性を説明する理由を探す。たとえば、薬剤によっては、より重症の患者群あるいはより軽症の患者群において、相対効果が大きいことがある。異質性が存在するものの、研究者がその異質性についてのもっともらしい (plausible) 説明ができないとき、厳格なランダム化比較試験によるものだとしても、推奨度はより弱くする。例：間欠性跛行のペントキシフィリン

♦ ランダム化比較試験によるエビデンスが、自分が興味をもつ対象集団と類似してはいるものの厳密に同じ集団から得られたものでないときはどうするか？

これは非直接的（indirect）なエビデンスと考えるべきで、関連する集団への適用可能性は不確実であることから、エビデンスの強さのグレードを下げる必要がある。例：外傷患者に対する段階的加圧ストッキング

♦ ランダム化比較試験において、試験に参加患者数が非常に少なくイベント数が非常に少ない場合には、どうするか？

その場合もまた、エビデンスの質のグレードを下げる必要がある。こうした状況は、“まばらなデータ”と呼ばれることがある。
例：脳静脈洞血栓症の患者に対するナドロパリン。

♦ 観察研究で、エビデンスの質が「中」あるいは「高」となるのはどのような場合か？

観察研究のエビデンスの質は通常　「低」のみであるものの、稀にエビデンスの質が「中」、あるいは「高」とさえ分類されることがある。たとえば、治療効果の大きさがとても大きく一貫した推定をもたらす稀な状況では、観察研究の結果に確信をもつかもしれない。（例：心臓機械弁に対するワルファリン）。エビデンスのグレーディングの割り付け基準も参照。

♦ 稀かもしれないが、観察研究からのすべてのバイアスが、見かけ上の治療効果を過小評価するように働いていたらどうしたらよいか？

つまり、実際の治療効果は研究データが示唆する治療効果よりも大きい可能性が非常に高いと考えられる状況である。実際には、この種のエビデンスの質のグレードを上げる必要がある。例：私立の営利病院における死亡率

♦ エビデンスの質がアウトカムごとに異なるときはどうしたらよいか？

一般に、全体的なエビデンスの質は、意思決定を行う際に重大なすべてのアウトカムに関するエビデンスの質の中で「最も低いもの」とする。例：サルコイドーシス患者に対するステロイド長期使用

♦ なるほど。では、診断精度（精確さ）の研究はどう扱ったらよいか？

精確な診断をすると、適切な治療を行うことができて健康アウトカムが改善する。また、診断が偽陽性であることによって余計な治療をしたことにより、害が生じるといったことも精確な診断を行うことにより減少する。こうした精確な診断を行うことによる健康アウトカムの改善や害の減少といった重要なアウトカムの代理指標として、診断検査の精度がある。しかし、診断検査のエビデンスが直接的かどうかは，その診断検査により、どのくらい正しく (真陽性または真陰性)、あるいはどのくらい誤って (偽陽性または偽陰性) 分類され、その結果、どれほど重要な転帰がもたらされるかで判断するものである。GRADEワーキンググループは、診断研究のエビデンスの質のグレーディングについて見識を深める文書を作成中である。例：急性尿路結石症での非造影ヘリカルCT

♦ GRADEの方法についての詳しい情報はあるか?

GRADEワーキンググループは、GRADEの使用を推進し、要約した表を作成するソフトウェア(GRADEprofiler) を開発している。

♦ そのソフトウェア　（GRADEprofiler）の価格はいくらか？

そのソフトウエアは無料であり、以下から利用できる。（toolbox)

♦ GRADEについて、もっと詳しく知りたい場合はどこをみたらよいか？

GRADEを知るには、BMJ誌に掲載された入門編を読むとよいだろう（BMJ 2004）。簡易化しつつもより詳細な解説は、現在作成中である。

♦ このFAQにない疑問についてはどうすればよいか？

出版物のセクションにたくさんの情報が置いてある。 [GRADE関連論文]うまく情報を見つけられないときは、以下の電子メールで質問をお送りください： mail@gradeworkinggroup.org

注：
FAQ和訳は、2007年12月に、相原守夫（相原内科）、湯浅秀道（東海産業医療団中央病院歯科口腔外科）、豊島義博（第一生命日比谷診療所歯科）、斉尾武郎（フジ虎ノ門健康増進センター）が共同で実施し、2010年1月に相原守夫、三原華子（国立がんセンターがん対策情報センター）、村山隆之（御殿場石川病院医療安全管理室室長）が一部を改変した。
GRADEシステムについては、GRADE Working groupの最新情報を参考にしていただきたい（2011年より、JCE誌におけるGRADEシリーズが発表され、内容が更新され、2015年に”GRADEを適用もしくは利用するための基準”が追加されました）。

GRADEシステムに関するFAQ

よくある質問