Statistik & Zahlen · Kapitel 5 von 8
Itemschwierigkeit und Trennschärfe
Ein Test ist mehr als die Summe seiner Aufgaben. Seine Qualität entsteht im einzelnen Item, beschrieben durch zwei unabhängige Kennwerte: die Schwierigkeit und die Trennschärfe. Dieses Kapitel zeigt, wie beide zusammenwirken, woran man schwache Items erkennt und warum das Aussortieren die Reliabilität spürbar hebt. Verschiebe die Regler in der Item-Landkarte und beobachte, wie sich die Testqualität live verändert.
Jedes Item trägt zwei Kennwerte
Ein Test ist nur so gut wie seine einzelnen Aufgaben. Jedes Item lässt sich mit zwei verschiedenen Kennzahlen beschreiben. Erst beide zusammen verraten, ob eine Aufgabe den Test trägt oder ihn schwächt.
Anteil der Personen, die das Item lösen.
Wie gut das Item zwischen starken und schwachen Personen trennt.
Schwierigkeit und Trennschärfe messen Verschiedenes. Eine leichte Aufgabe kann gut oder schlecht trennen, eine schwere ebenso.
Einfach erklärt
Aus der Praxis
Im Testmanual stehen für jedes Item beide Werte in einer Tabelle. Wer einen Test auswählt oder selbst zusammenstellt, schaut nicht nur auf das Gesamtergebnis, sondern auf die Qualität der einzelnen Aufgaben.
Itemschwierigkeit P
Die Schwierigkeit ist der prozentuale Anteil der Personen, die ein Item lösen. Die Bezeichnung ist gewöhnungsbedürftig: Ein hoher Wert bedeutet ein leichtes Item, ein niedriger Wert ein schweres. Brauchbar sind meist Werte zwischen 20 und 80 Prozent. In diesem Bereich liefert ein Item die meiste Information, weil es Personen sichtbar aufteilt.
Was an den Rändern passiert
P unter 20 %: Bodeneffekt
Das Item ist zu schwer, fast niemand löst es. Die Ergebnisse stauen sich am unteren Rand der Skala.
P über 80 %: Deckeneffekt
Das Item ist zu leicht, fast alle lösen es. Die Ergebnisse stauen sich am oberen Rand der Skala.
Einfach erklärt
Aus der Praxis
Items mit P über 90 oder unter 10 liefern kaum Information und werden bei der Testkonstruktion meist aussortiert. Eine Ausnahme sind ganz leichte Einstiegsaufgaben, die nur das Verfahren erklären sollen.
Trennschärfe r
Die Trennschärfe ist die korrigierte Item-Total-Korrelation: der Zusammenhang zwischen dem einzelnen Item und dem Gesamttestwert, aus dem dieses Item zuvor herausgerechnet wurde. Sie zeigt, ob Personen mit hohem Gesamtwert auch dieses Item eher lösen. Ab 0,30 gilt ein Item als akzeptabel, ab 0,50 als gut.
Eine negative Trennschärfe ist ein Alarmsignal: Dann lösen ausgerechnet die schwächeren Personen das Item häufiger. Meist misst es etwas anderes als der Rest des Tests oder die Lösung wurde falsch gepolt.
Einfach erklärt
Aus der Praxis
Findest du im Manual ein Item mit negativer oder sehr niedriger Trennschärfe, lohnt ein prüfender Blick: Ist die Frage missverständlich, die Musterlösung falsch, oder passt das Item inhaltlich nicht zum Rest?
Die Item-Landkarte
Trag jedes Item nach seiner Schwierigkeit (waagerecht) und seiner Trennschärfe (senkrecht) ein, und du erhältst eine Landkarte des Tests. Der grüne Bereich in der Mitte ist die Qualitätszone. Stell die Regler ein und beobachte, wie sich die Wolke und die Kennzahlen rechts sofort verändern.
Geschätzte Reliabilität
0,68
Cronbachs α
Einfach erklärt
Aus der Praxis
Bei der Lernverlaufsdiagnostik ist der Bodeneffekt besonders tückisch: Sind die Aufgaben zu schwer, kann ein Kind echte Fortschritte machen, ohne dass der Test sie zeigt, weil es weiterhin keine Aufgabe löst.
Wie Items die Reliabilität beeinflussen
Die Reliabilität eines Tests ergibt sich aus zwei Größen: der Anzahl der Items k und ihrer durchschnittlichen Trennschärfe, hier als mittlere Inter-Item-Korrelation r̄. Mehr Items und trennschärfere Items erhöhen beide die Reliabilität. Das ist der Kern der Spearman-Brown-Idee: Ein längerer Test misst zuverlässiger, solange die zusätzlichen Items mitziehen.
Der Filter-Effekt, live aus der Landkarte
Alle Items (k = 20)
0,68
Nur trennscharfe Items (k = 10)
0,73
10 schwache Items wegzulassen hebt die geschätzte Reliabilität um 0,05. Testkonstruktion sortiert aus, sie addiert nicht nur.
Quantität und Qualität lassen sich gegeneinander tauschen: Viele mittelmäßige Items können dieselbe Reliabilität erreichen wie wenige sehr trennscharfe. Probier es in der Landkarte aus, indem du die Itemanzahl und die durchschnittliche Trennschärfe gegeneinander verschiebst.
Einfach erklärt
Aus der Praxis
Ein langer Test ist nicht automatisch ein guter Test. Entscheidend ist, dass die Items trennscharf sind. Lieber dreißig gute Aufgaben als sechzig beliebige.
Ein Blick mit der Faktoranalyse
Cronbachs Alpha setzt etwas Wichtiges voraus: dass alle Items im Kern dieselbe Eigenschaft messen, dass die Skala also eindimensional ist. Genau das prüft die Faktoranalyse. Sie sucht hinter den vielen Zusammenhängen der Items wenige dahinterliegende Faktoren, also latente Eigenschaften, die sich nicht direkt beobachten lassen.
Jedes Item erhält eine Ladung auf dem Faktor, eine Zahl zwischen minus eins und eins. Eine hohe Ladung bedeutet, dass das Item den Faktor gut abbildet. Eine Ladung nahe null heißt, das Item misst etwas anderes. Eine negative Ladung ist ein Warnsignal, meist ein falsch gepoltes Item. Der Eigenwert eines Faktors gibt an, wie viel der gesamten Streuung er bündelt, und der Anteil erklärter Varianz zeigt, wie stark der Faktor die Skala zusammenhält.
Die folgende Beispielskala besteht aus echten Antwortdaten von 300 simulierten Personen. Schalte einzelne Items aus und ein und beobachte, wie sich Reliabilität, Ladungen und erklärte Varianz verändern.
Beispielskala „Lernfreude in der Schule"
300 simulierte Personen, echte Antwortdaten
Mindestens ein Item lädt schwach oder negativ auf den Faktor. Es senkt die Reliabilität und die erklärte Varianz. Schalte es aus und beobachte, wie beide Werte steigen.
Einfach erklärt
Aus der Praxis
Im Testmanual findest du oft eine Tabelle mit Faktorladungen. Items mit Ladungen unter etwa 0,30 oder mit negativen Ladungen werden meist überarbeitet oder aussortiert, bevor ein Verfahren veröffentlicht wird.
Testqualität entsteht im einzelnen Item, nicht erst im Gesamtwert.
Schwierigkeit und Trennschärfe entscheiden gemeinsam, ob ein Item den Test trägt. Wer schwache Items erkennt und aussortiert, macht aus einer Sammlung von Fragen ein zuverlässiges Verfahren.