Mittlerweile weiß man genaueres über die Qualität des Tests oder vielmehr einer Vielzahl von Testkits verschiedener Hersteller nach dem von Drosten et alt. entwickelten und von der WHO als sogenannter Goldstandard etablierten Verfahren.
Zur Zertifizierung einer Reihe von Laboren wurden diese Testkits in einem Ringversuch zur Untersuchung einiger Proben mit definiert unterschiedlicher Viruslast eingesetzt und die Ergebnisse anschließend verglichen mit dem, was hätte herauskommen müssen. Durchgeführt wurde diese Zertifizierung unter der Leitung eines Prof. im Ruhestand der Charité in Kooperation mit u.a. auch Christian Drosten.[1] Damit liegen erstmals plausible quantitative Aussagen über diejenigen beiden Merkmale des maßgeblich in der Berliner Charité entwickelten und seit nun bereits vier Monaten weltweit massenhaft eingesetzten Tests vor, die über seine Qualität entscheiden: seine Sensitivität und seine Spezifität.[2]
Für die Spezifität ergaben sich in der Summe dabei ein Wert von 98,6 Prozent im Falle der Probe ohne Viruslast und im Falle der beiden Proben mit einer Viruslast anderer Art als Sars-CoV-2 Werte von 92,4 bzw. 97,8 Prozent. Damit wurde im Rahmen einer Untersuchung, an der Drosten selber kooperativ beteiligt war, seine von vornherein unplausible Behauptung hinfällig, das Testen liefere keinerlei falsch-positive Resultate.
Die Qualität des Tests wertet das jedoch keineswegs ab – eher im Gegenteil. Die im Ringversuch ermittelten Werte sowohl für die Sensitivität als auch für die Spezifität des Coronatests bescheinigen ihm eine hohe Güte.[3] Nun ist aber die Güte eines Tests allein keine Garantie für gute Testergebnisse, es kommt vielmehr auch darauf an, wie er eingesetzt wird. Dies eben deshalb, weil auch der beste Test eine – wie auch immer geringe – Fehlerquote mit sich führt.
Beim Einsatz jedes labormedizinischen Tests übt nun eine Größe ihren sehr beträchtlichen Einfluss auf die Richtigkeit des Ergebnisses aus, die man gerne zu glauben geneigt ist, allererst aus seinem großangelegten Einsatz herauslesen zu können: nämlich die Häufigkeit (im Fachjargon: Prävalenz), mit der das, was der Test sucht, in der Gesamtheit der Getesteten tatsächlich vorliegt. Und zwar fatalerweise gerade so herum, dass, je seltener das Gesuchte darin wirklich vorkommt, desto höher die Zahl falscher, also nur vermeintlicher „Funde“ im Verhältnis zur Zahl der echten Funde wird. Auf der anderen Seite führt dieselbe Seltenheit der „Fälle“, auf die hin getestet wird, sozusagen zum Glück dazu, dass es dann kaum unentdeckte in Wahrheit echte „Fälle“ unter den als nicht betroffen Aussortierten gibt.[4]
Anders als die Eigenschaften des jeweiligen Tests selbst ist die davon völlig unabhängige Prävalenz oft sehr schwer zu bestimmen und nur mehr oder weniger grob abzuschätzen. Die ausgiebige und nicht enden wollende Zahlenjonglage mit der berühmt-berüchtigten Dunkelziffer bei „Corona“ erzählt von dieser Schwierigkeit. Man hat allerdings – jedenfalls in Deutschland – im Fall von „Corona“ vernünftigerweise für eine möglichst hohe Prävalenz dadurch gesorgt, dass man das Testen von vornherein auf Menschen mit einschlägigen Symptomen oder mit Kontakten zu bereits positiv Getesteten beschränkt hat. Leider wurde aber die jeweilige Gesamtzahl der Tests und ihr Verhältnis zu den positiven Ergebnissen lange Zeit gar nicht kommuniziert,[5] und erstrecht nicht wurde die unter Umständen enorme Auswirkung dieser Größe – wie enorm sie werden kann, werden wir im Fall von „Corona“ uns gleich ansehen – auf den Aussagewert der positiven Testergebnisse jemals dort thematisiert, wo man sich zur Begründung der Anti-„Corona“-Maßnahmen auf eben diese Testergebnisse berufen hat.
Allerdings steckte in einem Kernargument der offiziellen Coronaproganda immer schon eine qualitative Annahme über die Prävalenz von Sars-CoV-2-Infektionen in der Gesamtbevölkerung, nämlich in der bis heute wie eine Litanei wiederholten Behauptung, wir befänden uns erst „am Anfang der Pandemie“[6]. Auf dieser Grundlage eines in der Bevölkerung noch wenig verbreiteten Virus’ hat Herr Drosten sicher gut daran getan, die Spezifität seines Tests nach Möglichkeit aus der Diskussion herauszuhalten. Und es war auch völlig richtig, dass der RKI-Präsident Lothar Wieler, als er zu seinem Lagebericht am 3. April gefragt wurde, was sein Institut von „repräsentativen Stichproben“ auf Corona halte, antwortete, dies sei „nicht zielführend“. Denn unter der Voraussetzung, die sich aus der Annahme einer sich noch im Anfangsstadium befindenden Pandemie ergibt, dass die Prävalenz Infizierter in der Gesamtbevölkerung noch sehr gering ist, würde die repräsentative Stichprobe auch mit einem Test, dessen Falsch-Positiv-Rate so niedrig ist wie die von (100-98,6=) 1,4 Prozent bei Proben ohne Viruslast, ein solches Überwiegen falsch-positiver Ergebnisse zeitigen, dass ihr Aussagewert gleich Null wäre. Diese Begründung hat Wieler freilich unterschlagen, sie hätte allzu schlecht zum laxen Umgang des RKI mit den Zahlen der Testergebnisse gepasst und womöglich Fragen nach deren Stimmigkeit provoziert.
Es scheint mir freilich nicht einmal sicher, dass Wieler diese Begründung wirklich im Sinn hatte. Denn der Zusammenhang von Sensitivität und Spezifizität eines Tests mit der Prävalenz dessen, was getestet wird, scheint unter Medizinern kein sehr vertrautes Terrain zu sein. Auf einer website der medizinischen Fakultät der Uni Kiel zu „Corona“ ist zur „Labordiagnostik zum Nachweis einerCovid-19-Infektion“ ein Paper des Inselspitals der Universität Bern verlinkt, in dem dieser Zusammenhang zwar ganz allgemein zunächst völlig richtig und auch mit der richtigen Folgerung für den Klinikalltag dargestellt wird, dass nämlich labordiagnostische Tests, um fehlerhafte Resultate zu vermeiden, nur dann durchgeführt werden sollten, wenn die Wahrscheinlichkeit für eine entsprechende Erkrankung hoch ist. Als es dann aber im Speziellen um Labordiagnostik zu Covid-19 und noch spezieller um „Molekularbiologische Verfahren (RT-PCR)“, also um die weltweit derzeit hauptsächlich praktizierte Testerei in Sachen „Corona“ geht, steht die Darstellung plötzlich auf dem Kopf, und zwar in einer Weise, die durchaus symptomatisch zu sein scheint.
Schon die Bewertung der Qualität des Testverfahrens selbst ist auf abenteuerliche Weise falsch: Die Methode weise „eine hohe Spezifität, aber reduzierte diagnostische Sensitivität auf“, liest man da. In Wahrheit stand aber die außerordentlich hohe Sensitivität des Tests nie infrage, und sie wurde nun im Ringversuch ja auch bestätigt. Vollends grotesk wird die Betrachtung jedoch, wie es da heißt, „im Falle eines Screenings“, wenn also verhältnismäßig viele Personen getestet würden, bei denen keine Symptomatik vorliegt. Dann, so das Paper, „muss mit einer sehr hohen Anzahl falsch negativer Befunde gerechnet werden.“ Das ist leider kompletter Blödsinn und widerspricht auch dem, was man im Paper selbst kurz vorher lesen konnte, dass nämlich zum ersten der „positiv prädikative Wert (PPW)“ die Wahrscheinlichkeit angibt, mit der jemand, bei dem der Test auf eine Krankheit positiv ausfällt (ich sehe jetzt einmal ab von dem an sich sehr wichtigen Unterschied zwischen Infektion und Krankheit), „tatsächlich erkrankt ist“, und dass zum zweiten „[j]e höher die Prävalenz einer Erkrankung … umso höher … der PPW“ sei (mithin je niedriger, umso niedriger). Man hat hier offenbar den PPW, den positiven Vorhersagewert, den man durchaus zu Recht mit dem „diagnostische[n] Potential eines Labortests“ identifiziert, weil er auf mögliche Krankheitsursachen abzielt, mit seinem Pendant verwechselt, dem negativen Vorhersagewert (NPW), der angibt, wie wahrscheinlich es ist, dass negativ Getestete wirklich nicht infiziert, also gesund sind. Erklären lässt sich diese Verwechselung kaum anders als damit, dass im Fall von „Corona“ derzeit alles Interesse zuallererst darauf gerichtet ist, nur keine einzige Infektion zu übersehen. Denn die Feststellung einer Sars-CoV-2-Infektion im Falle von Erkrankungen, welcher Art auch immer, hat bis auf weiteres kaum irgendwelche auf die Heilung der Erkrankung zielenden Konsequenzen, sondern hauptsächlich solche, die dem Schutz anderer vor einer Ansteckung dienen. Gut möglich daher, dass auch Herr Wieler, den bekanntermaßen die Angst umtreibt, es könnten ihm allzu viele Coronas entwischen, bei seinem „nicht zielführend“ auch eher daran gedacht hat, „dass“, wie es im „Fazit“ des Papers heißt, „sich Personen mit einem negativen Testergebnis in falscher Sicherheit wähnen und es so zu weiteren Übertragungen kommen kann.“
Fragen wir jedoch einmal nach der Stimmigkeit der Coronazahlen, d. h. danach, was dazu nach den mittlerweile vorliegenden Daten über Sensitivität und Spezifität des Tests gesagt werden kann. Zieht man die Angaben des RKI zu den wöchentlichen Testzahlen und Positiv-Ergebnissen aus der untenstehenden Abbildung[7] heran, lässt sich mithilfe der Werte für die Sensitivität und Spezifität auch eine erste grobe Schätzung der jeweils vorliegenden Prävalenz an Infektionen vornehmen, nach denen mit der Testung gesucht wurde.
Wie man dort sieht, überschritt der Anteil der „Positiven“ unter der jeweiligen Gesamtzahl der Getesteten in Deutschland zu keinem Zeitpunkt die Marke von zehn Prozent. Nach der 14. KW ist dieser Wert kontinuierlich abgesunken und liegt mittlerweile bei weniger als 1,5 Prozent. Geht man von einer Sensitivität des Tests von 98,8 und einer Spezifität von 98,6 Prozent sowie einer Prävalenz Infizierter unter den Getesteten von 10 Prozent aus, dann ergibt sich, dass etwa 11,3 Prozent der positiven Testergebnisse falsch gewesen sind, wobei bedacht werden muss, dass die wirkliche Prävalenz ja noch etwas niedriger sein bzw. der Prozentsatz falsch-positiver Ergebnisse unter den Getesteten noch etwas höher gewesen sein muss. Dies war das in den Kalenderwochen 13 und 14, also Ende März und Anfang April erreichte Minimum an falsch-positiven Testergebnissen. Sowohl davor als auch danach wurde dieses Minimum in mehr oder weniger hohem Maße überschritten.
Bei einer Prävalenz von 1,5 Prozent ergibt sich, dass knapp die Hälfte der als „positiv“ Getesteten nicht infiziert ist. Und auch hier ist ja die wirkliche Prävalenz nur etwa halb so groß, wie zunächst angenommen, so dass eigentlich mit einer Prävalenz von 0,75 Prozent gerechnet werden müsste, aus der sich dann ergäbe, dass knapp zweidrittel der Ergebnisse falsch-positiv wären. Nähme man statt des günstigsten, aber wohl wenig realistischen, weil auf eine Probe ohne jede Viruslast bezogenen Wert für die Spezifität, die sicher realistischere, weil auf eine Probe mit einem Corona-Virus anderer Art als Sars-CoV-2 bezogene, Spezifität von 97,8 Prozent an, dann wären bei einer Prävalenz von 1,5 Prozent fast 60 Prozent der Ergebnisse falsch-positiv; die wirkliche Prävalenz also nur noch 0,62 Prozent und es kämen daher auf einen tatsächlich Infizierten vier irrtümlich als infiziert Gemeldete.
[1] Einsehbar sind die Ergebnisse des Ringversuchs hier: https://www.instand-ev.de/System/rv-files/340%20DE%20SARS-CoV-2%20Genom%20April%202020%2020200502j.pdf
[2] Die Sensitivität gibt an, wie zuverlässig der Test alle wirklich Infizierten unter den Getesteten findet, die Spezifität dagegen wie zuverlässig er alle Nichtinfizierten ausschließt.
[3] Dies zumal, als der Ausreißer von 92,4 Prozent (es gibt einen ähnlichen bei der Sensitivität) wohl auf Vertauschungen in einigen Laboren zurückgeht, also nicht eigentlich dem Testverfahren anzulasten ist.
[4] Näheres dazu findet sich recht gut erklärt z. B. bei Wilfried Bautsch: Anforderungen und Bewertung der Ergebnisse von Laboruntersuchungen. In: Deutsches Ärzteblatt, 24/2009.
[5] Das früheste auf den Seiten des RKI dazu zu findende Dokument datiert vom 24, April.
[6] So zuletzt die Frau Bundeskanzler „immer noch“ nach einer Videokonferenz mit den Länderchefs am 27. Mai.
[7] Sie ist dem Wochenbericht vom 2. Juni entnommen (s. dort S. 3).
Kommentar schreiben