Statistik & Zahlen · Kapitel 2 von 8
Vom wahren Wert zum Konfidenzintervall
Testwerte sind nie exakt, sondern immer Schätzungen. Wie genau diese Schätzung ist, hängt von der Reliabilität des Verfahrens ab. Dieses Kapitel verbindet drei Konzepte der Klassischen Testtheorie: die Grundgleichung, die Reliabilität als Brücke und das Konfidenzintervall als diagnostische Konsequenz. Verändere die Kennwerte mit den Reglern und beobachte, wie scharf sich aus einem Testwert auf den wahren Wert schließen lässt.
Die Grundgleichung der Klassischen Testtheorie
Was wir messen.
Was wir wissen wollen.
Was die Messung verzerrt.
Jede Testung liefert einen beobachteten Wert. Der wahre Wert bleibt verborgen.
Einfach erklärt
Aus der Praxis
Wenn ein Kind im Lesetest 28 Punkte erreicht, ist das nicht seine Lesekompetenz an sich. Es ist dieser Wert plus Tagesform, Konzentration, Rateglück und Störungen im Raum. Genau deshalb behandeln wir Testwerte als Schätzungen, nicht als feststehende Tatsachen.
Was Reliabilität bedeutet
Die Reliabilität ist der Anteil wahrer Varianz an der beobachteten Varianz. Sie liegt zwischen 0 und 1. Werte über 0,80 gelten als gut, Werte über 0,90 als sehr gut. Anders gesagt: Sie beschreibt, wie viel von den Unterschieden zwischen Personen echte Unterschiede sind und nicht bloß Messrauschen.
Einfach erklärt
Aus der Praxis
Die Reliabilität steht im Testmanual, häufig als Cronbachs Alpha. Ein Blick darauf lohnt sich, bevor du ein Ergebnis interpretierst: Liegt sie unter 0,80, sind einzelne Punktwerte mit Vorsicht zu lesen.
Vom Reliabilitätskoeffizient zum Standardmessfehler
Die Reliabilität ist nur eine Zahl zwischen 0 und 1 und bleibt deshalb abstrakt: 0,85 sagt dir noch nicht, wie unsicher ein einzelner Testwert wirklich ist. Der Standardmessfehler rechnet diese Zahl in die Einheit des Tests um, also in Punkte. So siehst du konkret, mit wie viel Streuung du rechnen musst. Und je niedriger die Reliabilität, desto größer der Standardmessfehler: Bei einem wenig zuverlässigen Test kann dieselbe Person an verschiedenen Tagen deutlich unterschiedliche Punktzahlen erreichen.
Standardmessfehler SE
3,9 Punkte
Bei perfekter Reliabilität (Rel = 1) wäre SE = 0. Das gibt es in der Realität nicht.
Einfach erklärt
Aus der Praxis
Auch der Standardmessfehler steht meist direkt im Manual. Mit ihm baust du gleich das Konfidenzintervall, also den ehrlichen Bereich um einen Testwert.
Das Konfidenzintervall
Das Konfidenzintervall benennt einen Bereich, in dem der wahre Wert mit hoher Sicherheit liegt. Statt eines einzelnen Punktwerts gibst du also einen Korridor an. Beim 95-Prozent-Niveau ist z = 1,96, beim 99-Prozent-Niveau z = 2,58: mehr Sicherheit bedeutet ein breiteres Intervall.
Alle Werte wirken zusammen
KI = 30 ± 1,96 · 3,87 = [22,4; 37,6]
Intervallbreite 15,2 Punkte
Einfach erklärt
Aus der Praxis
In Befunden schreibt man Ergebnisse oft so: Prozentrang 25, 95-Prozent-Konfidenzintervall von 18 bis 33. Die eckigen Klammern in der nächsten Grafik zeigen genau diese Grenzen.
Wie sicher ist der Testwert?
Der Testwert ist die beste Einzelschätzung für den wahren Wert, also der wahrscheinlichste Punkt. Genau treffen wird er ihn aber so gut wie nie. Sinnvoller als die Frage „Stimmt der Testwert genau?" ist deshalb: In welchem Bereich liegt der wahre Wert mit hoher Wahrscheinlichkeit? Die Glockenkurve zeigt beides zugleich. Stell hier alle Werte direkt ein und beobachte, wie sich Glocke und Intervall sofort gemeinsam verändern.
Mit 95 % Konfidenz liegt der wahre Wert zwischen 22,4 und 37,6.
Je höher die Reliabilität, desto schmaler die Glocke und desto schmaler das Intervall. Der Testwert rückt damit näher an den wahren Wert, und du kannst dem Ergebnis mehr vertrauen. Sinkt die Reliabilität, wird die Glocke breit und flach: Viele Werte werden fast gleich wahrscheinlich.
Einfach erklärt
Aus der Praxis
Schreib in einen Befund nie nur einen einzelnen Wert, sondern immer den Bereich dazu. Eltern und Kolleg*innen verstehen so sofort, dass eine Zahl eine Spanne ist und kein exaktes Urteil. Das schützt vor der Überinterpretation einzelner Punkte.
Zwei Schüler*innen, ein Punktunterschied von vier
Person A hat im Lesetest 28 Punkte, Person B hat 32 Punkte. Ist B wirklich besser?
Die Konfidenzintervalle überlappen. Der Punkteunterschied von 4 lässt sich allein durch Messfehler erklären. Eine zuverlässige Aussage über einen Leistungsunterschied ist nicht möglich.
Bei einer Standardabweichung von 10 wechselt der Status erst bei sehr hoher Reliabilität. Selbst gute Tests reichen oft nicht, um kleine Differenzen zuverlässig abzusichern. Genau das ist der diagnostische Aha-Moment.
Einfach erklärt
Aus der Praxis
Triff Förderentscheidungen nicht an zwei oder drei Punkten Differenz fest. Wenn die Intervalle überlappen, brauchst du weitere Informationen: Beobachtung, ein zweites Verfahren, ein Gespräch. Ein einzelner Test entscheidet nicht allein.
Reliabilität entscheidet, wie scharf wir aus einem Testwert auf den wahren Wert schließen können.
Je höher die Reliabilität, desto schmaler das Intervall, und desto sicherer ist der Testwert. Ein Konfidenzintervall macht aus einem Punktwert eine ehrliche Schätzung.