Statistik & Zahlen · Kapitel 2 von 8

Vom wahren Wert zum Konfidenzintervall

Testwerte sind nie exakt, sondern immer Schätzungen. Wie genau diese Schätzung ist, hängt von der Reliabilität des Verfahrens ab. Dieses Kapitel verbindet drei Konzepte der Klassischen Testtheorie: die Grundgleichung, die Reliabilität als Brücke und das Konfidenzintervall als diagnostische Konsequenz. Verändere die Kennwerte mit den Reglern und beobachte, wie scharf sich aus einem Testwert auf den wahren Wert schließen lässt.

Die Grundgleichung der Klassischen Testtheorie

\displaystyle X = T + E

in Worten

beobachteter Testwert

Was wir messen.

wahrer Wert der Person

Was wir wissen wollen.

zufälliger Messfehler

Was die Messung verzerrt.

Jede Testung liefert einen beobachteten Wert. Der wahre Wert bleibt verborgen.

Einfach erklärt

Stell dir eine Personenwaage vor. Was sie anzeigt (X), ist dein tatsächliches Gewicht (T) plus ein bisschen Zufall (E): mal die Tageszeit, mal wie die Waage gerade steht. Dein echtes Gewicht siehst du nie direkt, du siehst immer nur die Anzeige.

Aus der Praxis

Wenn ein Kind im Lesetest 28 Punkte erreicht, ist das nicht seine Lesekompetenz an sich. Es ist dieser Wert plus Tagesform, Konzentration, Rateglück und Störungen im Raum. Genau deshalb behandeln wir Testwerte als Schätzungen, nicht als feststehende Tatsachen.

Was Reliabilität bedeutet

\displaystyle \mathrm{Rel} = \dfrac{\mathrm{Var}(T)}{\mathrm{Var}(X)}

in Worten

Die Reliabilität ist der Anteil wahrer Varianz an der beobachteten Varianz. Sie liegt zwischen 0 und 1. Werte über 0,80 gelten als gut, Werte über 0,90 als sehr gut. Anders gesagt: Sie beschreibt, wie viel von den Unterschieden zwischen Personen echte Unterschiede sind und nicht bloß Messrauschen.

wahre Varianz 85 %Fehlervarianz 15 %

Reliabilität (Rel)

0,85

Einfach erklärt

Reliabilität ist wie die Schärfe eines Fotos. Bei hoher Reliabilität ist das Bild scharf, du erkennst feine Unterschiede. Bei niedriger Reliabilität ist es verwackelt, und du weißt nicht, ob ein Unterschied echt ist oder nur Unschärfe.

Aus der Praxis

Die Reliabilität steht im Testmanual, häufig als Cronbachs Alpha. Ein Blick darauf lohnt sich, bevor du ein Ergebnis interpretierst: Liegt sie unter 0,80, sind einzelne Punktwerte mit Vorsicht zu lesen.

Vom Reliabilitätskoeffizient zum Standardmessfehler

\displaystyle \mathrm{SE} = \mathrm{SD} \cdot \sqrt{1 - \mathrm{Rel}}

in Worten

Die Reliabilität ist nur eine Zahl zwischen 0 und 1 und bleibt deshalb abstrakt: 0,85 sagt dir noch nicht, wie unsicher ein einzelner Testwert wirklich ist. Der Standardmessfehler rechnet diese Zahl in die Einheit des Tests um, also in Punkte. So siehst du konkret, mit wie viel Streuung du rechnen musst. Und je niedriger die Reliabilität, desto größer der Standardmessfehler: Bei einem wenig zuverlässigen Test kann dieselbe Person an verschiedenen Tagen deutlich unterschiedliche Punktzahlen erreichen.

Standardabweichung SD

10,0 Pkt.

Standardmessfehler SE

3,9 Punkte

Bei perfekter Reliabilität (Rel = 1) wäre SE = 0. Das gibt es in der Realität nicht.

Einfach erklärt

Der Standardmessfehler beantwortet die Frage: Wenn dieselbe Person den Test sehr oft machen würde, wie weit würden ihre Ergebnisse um den wahren Wert streuen? Ein kleiner SE heißt, die Werte liegen eng beieinander. Ein großer SE heißt, sie springen stark.

Aus der Praxis

Auch der Standardmessfehler steht meist direkt im Manual. Mit ihm baust du gleich das Konfidenzintervall, also den ehrlichen Bereich um einen Testwert.

Das Konfidenzintervall

\displaystyle \mathrm{KI} = X \pm z \cdot \mathrm{SE}

in Worten

Das Konfidenzintervall benennt einen Bereich, in dem der wahre Wert mit hoher Sicherheit liegt. Statt eines einzelnen Punktwerts gibst du also einen Korridor an. Beim 95-Prozent-Niveau ist z = 1,96, beim 99-Prozent-Niveau z = 2,58: mehr Sicherheit bedeutet ein breiteres Intervall.

Konfidenzniveau:

beobachteter Testwert X

untere Grenze

22,4

Punktschätzer

30,0

obere Grenze

37,6

Alle Werte wirken zusammen

KI = 30 ± 1,96 · 3,87 = [22,4; 37,6]

Intervallbreite 15,2 Punkte

Einfach erklärt

Statt zu behaupten, der wahre Wert sei genau 30, sagst du: er liegt ziemlich sicher irgendwo zwischen 24 und 36. Das ist kein Eingeständnis von Schwäche, sondern ehrlicher. Ein breites Intervall warnt dich davor, dem Punktwert zu sehr zu vertrauen.

Aus der Praxis

In Befunden schreibt man Ergebnisse oft so: Prozentrang 25, 95-Prozent-Konfidenzintervall von 18 bis 33. Die eckigen Klammern in der nächsten Grafik zeigen genau diese Grenzen.

Wie sicher ist der Testwert?

Der Testwert ist die beste Einzelschätzung für den wahren Wert, also der wahrscheinlichste Punkt. Genau treffen wird er ihn aber so gut wie nie. Sinnvoller als die Frage „Stimmt der Testwert genau?“ ist deshalb: In welchem Bereich liegt der wahre Wert mit hoher Wahrscheinlichkeit? Die Glockenkurve zeigt beides zugleich. Stell hier alle Werte direkt ein und beobachte, wie sich Glocke und Intervall sofort gemeinsam verändern.

Reliabilität (Rel)

0,85

Standardabweichung SD

10,0 Pkt.

beobachteter Testwert X

Konfidenzniveau:

Mit 95 % Konfidenz liegt der wahre Wert zwischen 22,4 und 37,6.

Messfehler SE

3,87 Pkt.

Intervallbreite

15,2 Pkt.

Je höher die Reliabilität, desto schmaler die Glocke und desto schmaler das Intervall. Der Testwert rückt damit näher an den wahren Wert, und du kannst dem Ergebnis mehr vertrauen. Sinkt die Reliabilität, wird die Glocke breit und flach: Viele Werte werden fast gleich wahrscheinlich.

Einfach erklärt

Stell dir vor, du wirfst einen Pfeil auf den wahren Wert. Der Testwert ist dein Wurf: die beste Schätzung, aber selten ein Volltreffer. Die Glocke zeigt, wo der wahre Wert vermutlich sitzt. Eine schmale, hohe Glocke heißt, du zielst genau. Eine breite, flache Glocke heißt, du triffst irgendwo in einem großen Bereich.

Aus der Praxis

Schreib in einen Befund nie nur einen einzelnen Wert, sondern immer den Bereich dazu. Eltern und Kolleg*innen verstehen so sofort, dass eine Zahl eine Spanne ist und kein exaktes Urteil. Das schützt vor der Überinterpretation einzelner Punkte.

Zwei Schüler*innen, ein Punktunterschied von vier

Person A hat im Lesetest 28 Punkte, Person B hat 32 Punkte. Ist B wirklich besser?

[20,4; 35,6]

[24,4; 39,6]

Die Konfidenzintervalle überlappen. Der Punkteunterschied von 4 lässt sich allein durch Messfehler erklären. Eine zuverlässige Aussage über einen Leistungsunterschied ist nicht möglich.

Bei einer Standardabweichung von 10 wechselt der Status erst bei sehr hoher Reliabilität. Selbst gute Tests reichen oft nicht, um kleine Differenzen zuverlässig abzusichern. Genau das ist der diagnostische Aha-Moment.

Einfach erklärt

Jeder Wert hat einen Wackelbereich. Solange sich die Wackelbereiche von A und B überschneiden, kann der Vorsprung von B reiner Zufall sein. Erst wenn die Bereiche klar getrennt sind, darfst du von einem echten Unterschied sprechen.

Aus der Praxis

Triff Förderentscheidungen nicht an zwei oder drei Punkten Differenz fest. Wenn die Intervalle überlappen, brauchst du weitere Informationen: Beobachtung, ein zweites Verfahren, ein Gespräch. Ein einzelner Test entscheidet nicht allein.

Reliabilität entscheidet, wie scharf wir aus einem Testwert auf den wahren Wert schließen können.

Je höher die Reliabilität, desto schmaler das Intervall, und desto sicherer ist der Testwert. Ein Konfidenzintervall macht aus einem Punktwert eine ehrliche Schätzung.