FAQS GRADE - häufige Fragen

GRADE Allgemein

Wofür steht das Akronym GRADE?
Es steht für Grading Recommendations Assessment, Development and Evaluation, was so viel heißt wie Bewertung von Empfehlungen, Entwicklung und Auswertung.

Was ist die GRADE Arbeitsgruppe?
Die GRADE Arbeitsgruppe hatte 2010 ihren Anfang als informelle Kollaboration von Menschen, die bestehende Bewertungssysteme in der Gesundheitsversorgung verbessern wollten. Unser Ziel ist ein allgemeiner und sinnvoller Prozess zur Bewertung der Qualität der Evidenz und der Stärke der Empfehlung.

Gibt es Mindestkriterien, die für die Anwendung und Nutzung von GRADE erfüllt sein müssen?
Ja, 2010 hat die GRADE Arbeitsgruppe „Kriterien zur Nutzung und Anwendung von GRADE“ veröffentlicht. Siehe diese Webseiten, Punkt "Über GRADE"

Über GRADE

Hat GRADE detaillierte Informationen darüber, wie man diesen Ansatz anwendet?
Ja, die GRADE Arbeitsgruppe hat eine Software Anwendung entwickelt, die die Nutzung des Ansatzes erleichtert und die Entwicklung von Zusammenfassungen ermöglicht.

Wieviel kostet die Software?
Die Software ist hier frei verfügbar. Sie funktioniert nur in Google Chrome einwandfrei.

Wo kann ich mehr über das GRADE System nachlesen?
Um mehr über GRADE zu erfahren könnten sie unsere einleitende Serie von Artikeln im BMJ von 2008 lesen. Detaillierte Beschreibungen sind ebenfalls verfügbar. Bitte schauen Sie auf diesen Webseiten unter dem Punkt "Publikationen".

Wohin kann ich mich mit Fragen wenden, die nicht durch die FAQs beantwortet werden?
Sie können viele Informationen auf diesen Webseiten finden, z.B. unter dem Punkt "Ressourcen", oder sie senden uns eine E-Mail and grade[at]uniklinik-freiburg.de, wenn Sie dort keine Hilfe finden.

Bewertungssysteme

Es gibt schon so viele Systeme zur Bewertung von Evidenz und Empfehlungen. Warum braucht man noch ein weiteres?
Es ist wichtig ein einziges System zu haben, um keine Verwirrung zu stiften. Ein einziges System sollte die Schwächen der anderen Systeme beheben und ihre Stärken beinhalten. Manche Bewertungssysteme basieren allein auf dem Studiendesign und beachten andere Aspekte und wichtige Faktoren in der Bewertung der Qualität der Evidenz nicht. Manche Systeme sind unverhältnismäßig komplex. Eine Analyse aktueller Bewertungssysteme zeigt, dass diese und andere Schwächen bisher von keinem einzelnen System ausreichend beachtet wurden.

OK. Sollten denn nicht auch diejenigen, die bestehende Bewertungssysteme entwickelt haben nun auch in der GRADE Arbeitsgruppe mitarbeiten?
Das ist richtig. Tatsächlich waren Entwickler anderer viel genutzter Bewertungssysteme aktiv an der Entwicklung von GRADE beteiligt.

Bewertung medizinischer Evidenz

Warum ist es wichtig medizinische Evidenz zu bewerten?
Medizinische Evidenz und die Empfehlungen, die darauf basieren können von unterschiedlicher Qualität sein. Quellen für diese Evidenz reichen von kleinen Laborstudien oder Fallstudien bis hin zu großen gut durchgeführten klinischen Studien, die Bias weitestgehend minimieren. Weil schlechte Evidenz zu Empfehlungen führen kann, die nicht im besten Interesse des Patienten sind, ist es unabdingbar zu wissen, welche Empfehlungen verlässlich sind (wir sind uns der Empfehlung sicher) und welche nicht verlässlich sind (wir sind uns der Empfehlung nicht sicher).

Ist die Bewertung von Evidenz und Empfehlungen ein neuer Ansatz?
Nicht wirklich. Bewertungsschemata werden seit mehr als 30 Jahren verwendet.

Was sind die Vorteile einer systematischen Bewertung von Evidenz und Empfehlungen?
Ein systematischer Ansatz zur Bewertung der Stärken von Handlungsempfehlungen kann Bias minimieren und die Interpretation von klinischen Leitlinien verbessern. Viele Leitlinien Gruppen haben die Notwendigkeit eines Bewertungsschemas nun erkannt.

Stärke der Empfehlung und Qualität der Evidenz

Was ist mit „Stärke der Empfehlung“ gemeint?
Empfehlungen zur Umsetzung oder Zurückhaltung einer Intervention sollten die Nutzen auf der einen Seite und die Risiken, Krankheitslast und möglicherweise Kosten auf der anderen Seite abwägen. Wenn die Nutzen die Risiken und Krankheitslast überwiegen, werden Experten eine Intervention empfehlen. Die Unsicherheit, die mit dem Tradeoff von Nutzen und Risiken und Krankheitslast assoziiert ist, bestimmt die Stärke der Empfehlungen.

Ist es nicht kompliziert verschiedene Empfehlungsstärken zu haben?
Möglicherweise. GRADE hat nur 2 Levels: Starke und schwache Empfehlungen.

Was gilt als eine starke Empfehlung?
Wenn Kliniker basierend auf der verfügbaren Evidenz sehr sicher sind, dass die Nutzen die Risiken und Krankheitslast überwiegen oder auch nicht, entsteht daraus eine starke Empfehlung.

Was gilt als eine schwache Empfehlung?
Wenn Kliniker basierend auf der verfügbaren Evidenz annehmen, dass die die Nutzen die Risiken und Krankheitslast ausgewogen sind, oder beträchtliche Unsicherheit über das Ausmaß der Nutzen und Risiken besteht, müssen sie eine schwache Empfehlung anbieten. Zusätzlich werden Kliniker immer aufmerksamer auf die Relevanz von Wertevorstellungen und Präferenzen der Patienten in der klinischen Entscheidungsfindung. Wenn in einer weiten Spanne der Wertevorstellungen der Patienten, informierte Patienten haftbar für unterschiedliche Entscheidungen sind, sollten schwache Empfehlungen angeboten werden.

Welche Faktoren beeinflussen die Stärke einer Empfehlung?
Es gibt eine Reihe von Faktoren, die in der Bewertung von Empfehlungen berücksichtigt werden müssen. Einer davon ist die Sicherheit in die beste Schätzung von Nutzen und Schaden. Die Bewertung der methodischen Qualität der Evidenz wiederspiegelt auch das Maß der Sicherheit. Es gibt jedoch weitere Faktoren, die die Stärke einer Empfehlung beeinflussen.

Wie ist die Qualität der Evidenz in GRADE kategorisiert?
Nach einem gründlichen Bewertungsprozess für die Evidenz wird die Gesamtqualität als hoch, moderat, niedrig oder sehr niedrig eingestuft.

Die Qualität der Bewertung der Evidenz klingt abstrakt – was ist, zum Beispiel, mit „moderater Qualität der Evidenz“ gemeint?
Wir gebrauchen die folgenden Definitionen in der Bewertung der Qualität der Evidenz: Hoch = weitere Forschung ändert unser Vertrauen in den Effektschätzer wahrscheinlich nicht; moderat = weitere Forschung hat wahrscheinlich einen wichtigen Einfluss auf unser Vertrauen in den Effektschätzer und könnte die Einschätzung verändern; niedrig = weitere Forschung hat sehr wahrscheinlich einen wichtigen Einfluss auf unser Vertrauen in den Effektschätzer und verändert die Einschätzung wahrscheinlich; sehr niedrig = jeder Effektschätzer ist sehr unsicher.

Welche Faktoren beeinflussen unsere Sicherheit über das Ausmaß der Nutzen, Risiken, Krankheitslast und Kosten?
Das Studiendesign und zusätzliche methodische Faktoren sind von kritischer Wichtigkeit zur Bestimmung des Vertrauens in die Schätzung nützlicher und schädlicher Behandlungseffekte.

Unterschiedliche Studiendesigns in GRADE

Welche grundsätzlichen Unterschiede im Studiendesign werden berücksichtigt?
Aufgrund von prognostischen Unterschieden zwischen Behandlungsgruppen und mangelnden Sicherheitsmaßnahmen, wie Verblindung, die einer verzerrte Ermittlung der Endpunkte vorbeugen können, wird Evidenz aus Beobachtungsstudien generell weitaus schwächer eingestuft als Evidenz aus experimentellen Studiendesigns randomisierter kontrollierter Studien.

Was ist, wenn randomisierte, kontrollierte Studien fehlerhaft sind?
Endpunkte aus randomisierten Studien mit wichtigen Limitationen werden als Evidenz moderater Qualität eingestuft. Endpunkte aus randomisierten kontrollierten Studien mit mehreren, wichtigen Limitationen werden als Evidenz niedriger Qualität eingestuft. Die Kriterien zur Einstufung der Evidenzgrade werden gerade erstellt und sind in Kürze hier in diesem Text verfügbar.

Welche Art von Fehlern in randomisierten kontrollierten Studien führen zu einer Herabstufung der Evidenz?
Unser Vertrauen in die Evidenz sinkt, wenn die verfügbaren randomisierten Studien größere Defizite haben, die wiederum in eine fehlerhafte Einschätzung des Behandlungseffekts resultieren. Diese methodologischen Limitationen schließen beispielsweise einen großen Verlust bei der Nachbeobachtung, unzureichende Geheimhaltung der Gruppenzuteilung der Teilnehmer oder unverblindete Studien mit subjektiven Endpunkten mit einem hohen Risiko für Bias ein.

Was geschieht, wenn die Ergebnisse inkonsistent sind und manche Studien einen Nutzen nachweisen, andere jedoch nicht?
Wenn mehrere randomisierte Studien sehr unterschiedliche Behandlungseffekte berichten (Heterogenität oder Variabilität der Ergebnisse) suchen Wissenschaftler nach Erklärungen für die Heterogenität. Beispielsweise haben Medikamente eine größere relative Wirkung in schwerer oder leichter erkrankten Populationen. Wenn Heterogenität festgestellt wird, es aber keine plausible Erklärung dafür gibt, ist die Stärke der Empfehlungen selbst aus rigorosen randomisierten kontrollierten Studien schwächer.

Wie sollte ich die Evidenz aus randomisierten kontrollierten Studien handhaben, die aus einer ähnlichen aber nicht der gleichen Population stammt, die mich interessiert?
Diese Evidenz sollte als indirekt betrachtet werden, Proportional zur Unsicherheit über die Anwendbarkeit in der relevanten Population, sollte die Stärke der Evidenz herabgestuft werden.

Wie gehe ich mit randomisierten kontrollierten Studien um, die sehr wenige Patienten einschließen und wenige Ereignisse beobachten?
Die Situation wird manchmal als „wenige Daten“ bezeichnet. Auch hier muss die Qualität der Evidenz möglicherweise herabgestuft werden.

Unter welchen Umständen können Beobachtungsstudien moderate oder sogar hohe Qualität der Evidenz liefern?
Normalerweise ist die Qualität der Evidenz aus Beobachtungsstudien niedrig, aber unter seltenen Umständen wird die Evidenz als moderat oder sogar hoch eingestuft. Zum Beispiel, wenn der seltene Fall eintritt, dass Beobachtungsstudien einen konsistenten, extrem großen Behandlungseffekt nachweisen, können wir Vertrauen in ihre Ergebnisse haben.

Wie werden Studien über diagnostische Testgenauigkeit bewertet?
Die Genauigkeit diagnostischer Tests ist ein Surrogat-Endpunkt für wichtige Endpunkte, die von einer genauen Diagnose beeinflusst werden, dazu gehören verbesserte Gesundheit durch angemessene Behandlung und verminderte Schäden aus falsch positiven Ergebnissen. Überlegungen bezüglich der Direktheit der Evidenz basieren auf unser Vertrauen in die Assoziation zwischen einer korrekten Klassifikation (als wahr positiv oder negativ) oder inkorrekten Klassifikation (als falsch positiv oder negativ) und den Konsequenzen.

OK. Wo kann man diese Evidenz finden?
Menschen, die Evidenz bewerten sollten idealerweise Zugang zu systematischen Reviews haben, die Nutzen und Risiken der alternativen Behandlungsstrategien, die in der Leitlinie adressiert werden, enthalten sind.

Klassifizierung der Evidenz

Welche weiteren Faktoren sind neben dem grundlegenden Studiendesign wichtig zur Bestimmung der Qualität der Evidenz?
In den letzten Jahren ist das Bewusstsein für Faktoren gestiegen, die unser Vertrauen in die Bewertung von Risiken und Nutzen beeinflussen. Dazu gehören schlechte Planung und Umsetzung randomisierter Studien mit einer hohen Wahrscheinlichkeit für Bias; Inkonsistenz der Ergebnisse; Indirektheit der Evidenz und zu wenig Evidenz.

Was ist, wenn der seltene Fall eintritt, dass alle plausiblen Bias-Arten in Beobachtungsstudien die Unterschätzung eines scheinbaren Behandlungseffekts bewirken?
In anderen Worten heißt dies, dass der eigentliche Behandlungseffekt möglicherweise größer ist, als die Daten zeigen. Die Qualität dieser Evidenz muss möglicherweise heraufgestuft werden.

Wie ist das Vorgehen, wenn die Qualität der Evidenz für die einzelnen Endpunkte unterscheidet?
Generell basiert die Gesamtqualität der Evidenz auf der niedrigsten Qualität aller Endpunkte die kritisch für die Entscheidungsfindung sind.