GRADEシステムに関するFAQ
Frequenty asked questions |
 |
本和訳は、GRADE working group HPのFAQ(2007.Aug)を、GRADE memberのひとりとして実施、紹介するものである。
和訳の実施には、相原守夫(相原内科)、湯浅秀道(東海産業医療団中央病院歯科口腔外科)、豊島義博(第一生命日比谷診療所歯科)、が共同で実施、最終的に斉尾武郎(フジ虎ノ門健康増進センター)に監修していただいた。本FAQの内容については、2007年秋の時点のものであり、各項目などが変更している可能性がありえるため、常にオリジナルサイトを参照していただきたい。
Q-1: GRADEワーキンググループとは何か?
GRADE ワーキンググループは、医療で用いられる既存のグレーディングシステムの短所を改善したいと願う人々により、非公式の共同体として2000年に発足した。当グループの目的は、エビデンスの質と推奨の強さをグレーディングするための、一般的かつ分かりやすいアプローチを開発することである。
Q-2: なぜ医学的なエビデンスをグレーディングするのが重要なのか?
医学的なエビデンスの質やエビデンスに基づく推奨の質はさまざまである。エビデンスの情報源は、小さな実験室での研究や症例報告などから、バイアスが一番少ない良くデザインされた大規模臨床研究といったものまで、さまざまである。質の悪いエビデンスからは、患者に最善の利益をもたらさない推奨がなされる可能性があるので、なされた推奨が強い(その推奨に自信を持つことができる)ものなのか、それとも、弱い(その推奨に確信が持てない)ものなのかを知っておくことが重要である。
Q-3: エビデンスと推奨をグレーディングするのは、新しいことなのか?
そうではない。グレーディングシステムは25年以上前から使われている。
Q-4: もうすでにエビデンスと推奨のグレーディングシステムはたくさん存在する。この上なぜ、もうひとつGRADEというグレーディングシステムが必要なのか?
混乱をなくすためには単一のグレーディングシステムが必要だからである。その単一のグレーディングシステムは、他のグレーディングシステムの短所をなくし、長所を取り入れたものであるべきだ。グレーディングシステムの中には、エビデンスの質を決定するのに、研究デザインにのみ従い、他の重要な因子を考慮していることが明示されていないものもある。また、複雑すぎるグレーディングシステムもある。現在使われている種々のグレーディングシステムを検討したところ、上記の欠点やその他の欠点が正しく改善されているグレーディングシステムはひとつも存在しなかった。
他のシステムとの比較。
Q-5: なるほど。では、過去にグレーディングシステムの開発に携わったことのある者は、GRADEワーキンググループに参加すべきではないのか?
参加は可能だ。実際に、広く使われたグレーディングシステムの開発者の多くが、GRADEの開発に活発に参加している。
Q-6: このGRADEとは、何の略称なのか?
“推奨度の検討・開発・評価のグレーディング”(Grading of Recommendations Assessment, Development and Evaluation.)の頭文字をとって、GRADEという。
Q-7: エビデンスと推奨を系統的にグレーディングする利点は何か?
推奨の強さを系統的にグレーディングすると、バイアスを最小限にすることができ、専門家の作った医療用ガイドラインが解釈しやすくなる。実際に、ほとんどのガイドライングループでは、ある種の系統的なグレーディングシステムが必要だと考えている。
Q-8: “推奨の強さ”とは何か?
ある介入を実施すべしという推奨、あるいは、実施すべきでないという推奨は、便益というメリットと、リスク・負荷(できればコストなども)といったデメリットとの間の得失を考えて決めるべきである。便益がリスクや負荷を上回る場合、専門家は臨床医に対して、典型的な患者にその治療を提供するよう推奨する。便益とリスクや負荷との間の得失が不確実であることを考慮した上で、推奨の強さを決定する。
Q-9: 用いる推奨度の数を多くしてしまうと、混乱しないだろうか?
そうかもしれない。そこで、GRADEシステムでは、“強い推奨”、“弱い推奨”という2種類のレベルだけを使っている。
Q-10: どんな場合に、強い推奨にするのか?
利用可能なエビデンスに基づいて、臨床医に便益がリスクや負荷を上回る、または上回らない、という強い確信がある場合、強い推奨としている。
例:心筋梗塞後の患者のアスピリン
Q-11: どんな場合に、弱い推奨にするのか?
利用可能なエビデンスに基づいて、臨床医が便益とリスク、負担とがしっかりしたバランスがあるとか、便益と害の大きさにかなりの不確実性があると信じるならば、弱い推奨としないといけない。さらに、臨床医はますます医療決断学における患者の価値観や好みの重要性を意識するようになっている。 患者価値観の範囲ということでは、十分に知識がある患者は異なった選択をしやすく、ガイドラインパネルは弱い推薦を提供するべきです。
例:特発性深部静脈血栓症でのワーファリン
Q-12: 推奨の強さに影響する要因は何か?
推奨をグレーディングする場合、考慮する必要のある因子はたくさんある。ひとつの問題は、便益と害の推定がどの程度確実なのかということである。エビデンスの質を方法論的な観点からグレーディングするには、まず、そのエビデンスのもたらす便益と害の推定がどの程度確実なのかを考えなければならない。しかし、推奨の強さに影響を与える要因が、この他にもたくさんある。
推奨の強弱の判定因子
Q-13: 便益、リスク、負荷、コストの大きさがどの程度確実なのかを決定する要因は何か?
治療効果の便益と害の推定がどの程度確実なのかを決める際には、基本的な研究デザインと方法論的な付加的要因が極めて重要である。
Q-14: 研究デザインの基本的な違いとは、どういうことをいうのか?
観察研究と実験的な研究デザインとでは、研究に用いる群の予後が異なっている。また、観察研究ではブラインド化のようなアウトカムの確認が偏るのを避けるための安全装置が欠如しており、観察研究によるエビデンスは、一般的に、実験的な研究デザイン(ランダム化比較試験)によるエビデンスよりも、エビデンスの強さとしてはかなり弱くなる。
Q-15: エビデンスの質を決定するには、基本的な研究デザイン以外にどんな因子が重要か?
近年、リスクと便益に関する推定がどの程度の確実なのかということに影響を与える多くの要因が認識されるようになってきた。そうした要因とは、計画された研究の質が低かったり、実施されたランダム化比較試験がバイアスの生じる可能性の高いものだったり、複数の研究同士で結果が一致しなかったり、エビデンスが臨床的な問題に直接答えるものではなかったり、エビデンスが少なかったりといったことである。
Q-16: GRADEシステムでは、エビデンスの質をどう分類するのか?
エビデンスのグレーディングのプロセスを通じて、各エビデンスの総体的な質は、“高”、“中”、“低”、“非常に低”に分類される。
Q-17: エビデンスの質をグレーディングするといっても抽象的だ。たとえば、“エビデンスの質が中である”とはどういう意味か?
エビデンスの質をグレーディングする際には、エビデンスの質のグレードとして、以下の定義を使用している。
高=効果がどの程度確実なのかという推定が、さらに研究を重ねても変わる可能性が少ないもの。
中=さらに研究を重ねた場合、効果がどの程度確実なのかという推定に重大な影響を与え、推定が変わる可能性のあるもの。
低=さらに研究を重ねた場合、効果がどの程度確実なのかという推定に重大な影響を与え、推定が変わる可能性が高いもの。
非常に低=推定される効果がまったく不確実なもの。
Q-18: なるほど。しかし必要なエビデンスをすべて見つけるにはどうすればよいのか?
理想的には、エビデンスのグレーディングをする場合、便益と害に関するエビデンスのシステマティックレビューを、代替的治療戦略を含め、参照すべきである。
Q-19: ランダム化比較試験に欠陥があるときはどうか?
重大な制約のあるランダム化試験については、エビデンスの質は“中”と分類する。深刻な制約が多数あるランダム化比較試験については、エビデンスの質は低と分類する。
詳細を参照[grade of evidence]
Q-20: どんな欠陥があると、ランダム化比較試験のエビデンスの質が低下するのか?
入手可能なランダム化比較試験に、治療効果の評価にバイアスをもたらす可能性の高い大きな欠陥があるとき、エビデンスの確実さは低くなる。そうした方法論的な制約には、追跡率が非常に低いこと、割り付けの隠蔽が不適切であること、バイアスの影響を受け易い主観的なアウトカムを用いたブラインド化されていない研究であることなどがある。
例:HITにおけるダナパロイド治療
Q-21: しかし、もし複数の研究の結果が一致せず、ある研究では便益が証明され、別の研究では便益が証明されなかった場合はどうするか?
治療効果の推定が複数のランダム化比較試験の間で大きく異なる場合(結果の異質性あるいは多様性があるとき)、研究者はその異質性を説明できる理由を探すことになる。 例えば、薬剤によっては病気の重い対象集団に投与された場合と、病気の軽い対象集団に投与された場合とで、相対的効果が大きくなるものもある。異質性が存在するものの、その異質性についてのもっともらしい説明ができないとき、厳密なランダム化試験によるエビデンスであっても、推奨の強さはより弱いものにする。
例:間欠性跛行のペントキシフィリン
Q-22: しかし、ランダム化比較試験によるエビデンスが、自分が興味を持っている対象集団と類似してはいるが、同じでないときはどうか?
これは間接的なエビデンスと考えるべきであり、関連する集団への適用可能性は不確実であり、エビデンスの強さはグレードダウンする必要がある。。
例:外傷患者の段階的加圧ストッキング
Q-23: しかし、ランダム化比較試験で試験に参加した患者数が非常に少なかったり、起きたイベントがとても少なかったりした場合、エビデンスの質をどう考えればいいのか?
この場合、エビデンスの質はグレードダウンする必要があるだろう。こうした状況を、“データが少ない”ということがある。
(BMJ誌Box3) 例:脳静脈洞血栓症の患者に対するナドロパリン。
Q-24: 観察研究で、エビデンスの質が“中”あるいは“高”となるのはどんな場合か?
観察研究のエビデンスの質は一般に“低”だが、複数の観察研究を検討した結果、稀にエビデンスの質が“中”あるいは“高”となることがある。例えば、稀に、複数の観察研究による治療効果の大きさの推定がとても大きく一貫性があり、研究結果が揺るぎない場合などである。
(例:人工心臓弁)。
エビデンスのグレード評価基準も参照。
Q-25: しかし、稀なことかもしれないが、観察研究でバイアスを検討した結果、見掛け上、治療効果が低く出てしまっている場合もあるのではないか?
すなわち、本当の治療効果は研究データが示す治療効果よりも大きい可能性が非常に高いと考えられる場合もある。確かに、この種のエビデンスでは、質の評価をグレードアップする必要があるだろう。
例:民間の営利病院での死亡率
Q-26: エビデンスの質がアウトカムによってさまざまに異なる場合にはどう考えればよいか?
一般に、意思決定を行う際に決定的に重要となるすべてのアウトカムの中の最低の質を以ってエビデンスの総体的な質とする。
例:サルコイドーシス患者でのステロイド長期使用
Q-27: なるほど。では、診断精度についての研究はどうか?
正確な診断をすると、適切な治療ができて健康アウトカムが改善する。また、診断が偽陽性であることによって余計な治療をしてしまった結果、害が起きてしまうといったことも正確な診断を行うことにより減る。こうした正確な診断を行うことによる健康アウトカムの改善や害の減少といった重要なアウトカムの代理指標として、診断検査の精度がある。しかし、診断検査のエビデンスが直接的かどうかは,その診断検査により、どのくらい正しく(真陽性または真陰性)、あるいはどのくらい誤って(偽陽性または偽陰性)分類され、その結果、どれほど重要な転帰がもたらされるかで判断するものである。GRADEワーキンググループは現在、診断研究のエビデンスの質のグレーディングについての見識を深める文書を作成中である。
例:急性尿路結石症での非造影ヘリカルCT
Q-28: GRADEアプローチの方法についての詳しい情報はあるか?
はい、GRADEワーキンググループは、GRADEアプローチの使用を促進したり、サマリーテーブルが作成できるソフトウエアを開発している。
Q-29: そのソフトウエアの価格はいくらか?
そのソフトウエアは無料であり、まもなく利用できるようになる。
(toolbox)
Q-30: GRADEシステムについて詳しく知りたいときは、何を読めばいいか?
GRADEシステムについて知りたいときは、英国医師会雑誌(BMJ)に発表したGRADEシステムの紹介論文を参考にするとよい。(
BMJ 2004)。 単純化しつつもより詳細な論文を現在、作成中である。
Q-31: このFAQに載っていない疑問についてはどうすればよいか?
出版物のセクションにたくさんの情報が置いてある。
[GRADE関連論文]うまく情報を見つけられないときは、以下のメールアドレスに質問を送ること: mail@gradeworkinggroup.org (英語をうまく書けない場合、何語で書いてあるかだけは英語で書くこと。そうしてもらえば、こちらの側で質問者の言語に堪能なGRADEワーキンググループのメンバーにメールを転送する)。
morio aihara