Statistik & Zahlen · Kapitel 5 von 8

Itemschwierigkeit und Trennschärfe

Ein Test ist mehr als die Summe seiner Aufgaben. Seine Qualität entsteht im einzelnen Item, beschrieben durch zwei unabhängige Kennwerte: die Schwierigkeit und die Trennschärfe. Dieses Kapitel zeigt, wie beide zusammenwirken, woran man schwache Items erkennt und warum das Aussortieren die Reliabilität spürbar hebt. Verschiebe die Regler in der Item-Landkarte und beobachte, wie sich die Testqualität live verändert.

Jedes Item trägt zwei Kennwerte

Ein Test ist nur so gut wie seine einzelnen Aufgaben. Jedes Item lässt sich mit zwei verschiedenen Kennzahlen beschreiben. Erst beide zusammen verraten, ob eine Aufgabe den Test trägt oder ihn schwächt.

Itemschwierigkeit

Anteil der Personen, die das Item lösen.

Trennschärfe

Wie gut das Item zwischen starken und schwachen Personen trennt.

Schwierigkeit und Trennschärfe messen Verschiedenes. Eine leichte Aufgabe kann gut oder schlecht trennen, eine schwere ebenso.

Einfach erklärt

Stell dir eine Hürde beim Lauftraining vor. Die Schwierigkeit sagt, wie hoch die Hürde steht, also wie viele sie überspringen. Die Trennschärfe sagt, ob gerade die starken Läufer*innen drüberkommen und die schwachen hängenbleiben. Eine Hürde, die alle oder niemand schafft, sortiert nichts.

Aus der Praxis

Im Testmanual stehen für jedes Item beide Werte in einer Tabelle. Wer einen Test auswählt oder selbst zusammenstellt, schaut nicht nur auf das Gesamtergebnis, sondern auf die Qualität der einzelnen Aufgaben.

Itemschwierigkeit P

\displaystyle P = \dfrac{\text{Anzahl Löser}}{\text{Anzahl Personen}} \cdot 100\,\%

in Worten

Die Schwierigkeit ist der prozentuale Anteil der Personen, die ein Item lösen. Die Bezeichnung ist gewöhnungsbedürftig: Ein hoher Wert bedeutet ein leichtes Item, ein niedriger Wert ein schweres. Brauchbar sind meist Werte zwischen 20 und 80 Prozent. In diesem Bereich liefert ein Item die meiste Information, weil es Personen sichtbar aufteilt.

Was an den Rändern passiert

P unter 20 %: Bodeneffekt

Das Item ist zu schwer, fast niemand löst es. Die Ergebnisse stauen sich am unteren Rand der Skala.

P über 80 %: Deckeneffekt

Das Item ist zu leicht, fast alle lösen es. Die Ergebnisse stauen sich am oberen Rand der Skala.

Einfach erklärt

Ein Quiz, bei dem jede Frage entweder kinderleicht oder unlösbar ist, erzählt dir nichts über die Teilnehmenden. Erst Fragen mittlerer Schwierigkeit zeigen, wer mehr und wer weniger kann.

Aus der Praxis

Items mit P über 90 oder unter 10 liefern kaum Information und werden bei der Testkonstruktion meist aussortiert. Eine Ausnahme sind ganz leichte Einstiegsaufgaben, die nur das Verfahren erklären sollen.

Trennschärfe r

\displaystyle r_{it} = \operatorname{Korr}(\text{Item},\ \text{Resttest})

in Worten

Die Trennschärfe ist die korrigierte Item-Total-Korrelation: der Zusammenhang zwischen dem einzelnen Item und dem Gesamttestwert, aus dem dieses Item zuvor herausgerechnet wurde. Sie zeigt, ob Personen mit hohem Gesamtwert auch dieses Item eher lösen. Ab 0,30 gilt ein Item als akzeptabel, ab 0,50 als gut.

Eine negative Trennschärfe ist ein Alarmsignal: Dann lösen ausgerechnet die schwächeren Personen das Item häufiger. Meist misst es etwas anderes als der Rest des Tests oder die Lösung wurde falsch gepolt.

Einfach erklärt

Die Trennschärfe fragt: Zeigt dieses Item in dieselbe Richtung wie der ganze Test? Ein trennscharfes Item ist ein Teamplayer, der mit den anderen an einem Strang zieht. Ein Item mit negativer Trennschärfe zieht in die Gegenrichtung.

Aus der Praxis

Findest du im Manual ein Item mit negativer oder sehr niedriger Trennschärfe, lohnt ein prüfender Blick: Ist die Frage missverständlich, die Musterlösung falsch, oder passt das Item inhaltlich nicht zum Rest?

Die Item-Landkarte

Trag jedes Item nach seiner Schwierigkeit (waagerecht) und seiner Trennschärfe (senkrecht) ein, und du erhältst eine Landkarte des Tests. Der grüne Bereich in der Mitte ist die Qualitätszone. Stell die Regler ein und beobachte, wie sich die Wolke und die Kennzahlen rechts sofort verändern.

gut (ab 0,50)akzeptabel (ab 0,30)schwach (unter 0,30)negativ (Alarm)

Geschätzte Reliabilität

0,68

Cronbachs α

Items im Test

mittlere Schwierigkeit

54 %

mittlere Trennschärfe

0,31

Itemanzahl

Durchschnittliche Trennschärfe

0,35

Einfach erklärt

Lies die Landkarte in zwei Richtungen. Von links nach rechts steht, wie viele eine Aufgabe lösen: ganz links schafft sie kaum jemand, ganz rechts fast alle. Von unten nach oben steht, wie gut eine Aufgabe zum übrigen Test passt. Die stärksten Aufgaben liegen im grünen Feld in der Mitte oben: mittelschwer und trennscharf. Je tiefer eine Aufgabe sinkt, desto weniger trägt sie zum Ergebnis bei.

Aus der Praxis

Bei der Lernverlaufsdiagnostik ist der Bodeneffekt besonders tückisch: Sind die Aufgaben zu schwer, kann ein Kind echte Fortschritte machen, ohne dass der Test sie zeigt, weil es weiterhin keine Aufgabe löst.

Wie Items die Reliabilität beeinflussen

\displaystyle \alpha = \dfrac{k \cdot \bar{r}}{1 + (k - 1) \cdot \bar{r}}

in Worten

Die Reliabilität eines Tests ergibt sich aus zwei Größen: der Anzahl der Items k und ihrer durchschnittlichen Trennschärfe, hier als mittlere Inter-Item-Korrelation r̄. Mehr Items und trennschärfere Items erhöhen beide die Reliabilität. Das ist der Kern der Spearman-Brown-Idee: Ein längerer Test misst zuverlässiger, solange die zusätzlichen Items mitziehen.

Der Filter-Effekt, live aus der Landkarte

Alle Items (k = 20)

0,68

Nur trennscharfe Items (k = 10)

0,73

10 schwache Items wegzulassen hebt die geschätzte Reliabilität um 0,05. Testkonstruktion sortiert aus, sie addiert nicht nur.

Quantität und Qualität lassen sich gegeneinander tauschen: Viele mittelmäßige Items können dieselbe Reliabilität erreichen wie wenige sehr trennscharfe. Probier es in der Landkarte aus, indem du die Itemanzahl und die durchschnittliche Trennschärfe gegeneinander verschiebst.

Einfach erklärt

Stell dir ein Ruderboot vor. Jedes trennscharfe Item ist ein Ruderer, der kräftig mitzieht. Mehr Ruderer machen das Boot schneller, aber ein Ruderer, der falsch herum rudert, bremst alle. Genau das tut ein Item mit niedriger oder negativer Trennschärfe.

Aus der Praxis

Ein langer Test ist nicht automatisch ein guter Test. Entscheidend ist, dass die Items trennscharf sind. Lieber dreißig gute Aufgaben als sechzig beliebige.

Ein Blick mit der Faktoranalyse

Cronbachs Alpha setzt etwas Wichtiges voraus: dass alle Items im Kern dieselbe Eigenschaft messen, dass die Skala also eindimensional ist. Genau das prüft die Faktoranalyse. Sie sucht hinter den vielen Zusammenhängen der Items wenige dahinterliegende Faktoren, also latente Eigenschaften, die sich nicht direkt beobachten lassen.

Jedes Item erhält eine Ladung auf dem Faktor, eine Zahl zwischen minus eins und eins. Eine hohe Ladung bedeutet, dass das Item den Faktor gut abbildet. Eine Ladung nahe null heißt, das Item misst etwas anderes. Eine negative Ladung ist ein Warnsignal, meist ein falsch gepoltes Item. Der Eigenwert eines Faktors gibt an, wie viel der gesamten Streuung er bündelt, und der Anteil erklärter Varianz zeigt, wie stark der Faktor die Skala zusammenhält.

Die folgende Beispielskala besteht aus echten Antwortdaten von 300 simulierten Personen. Schalte einzelne Items aus und ein und beobachte, wie sich Reliabilität, Ladungen und erklärte Varianz verändern.

Beispielskala „Lernfreude in der Schule“

300 simulierte Personen, echte Antwortdaten

ItemLadung Faktor 1Wert

Cronbachs α0,68

Items

Eigenwert F1

3,38

erkl. Varianz

42 %

Mindestens ein Item lädt schwach oder negativ auf den Faktor. Es senkt die Reliabilität und die erklärte Varianz. Schalte es aus und beobachte, wie beide Werte steigen.

Einfach erklärt

Stell dir ein Orchester vor, das ein einziges Stück spielt. Jedes Item ist ein Instrument. Spielen alle dieselbe Melodie, klingt es stimmig, das ist ein starker Faktor mit hoher erklärter Varianz. Ein Instrument, das etwas ganz anderes spielt, stört den Zusammenklang, so wie ein Item mit niedriger oder negativer Ladung.

Aus der Praxis

Im Testmanual findest du oft eine Tabelle mit Faktorladungen. Items mit Ladungen unter etwa 0,30 oder mit negativen Ladungen werden meist überarbeitet oder aussortiert, bevor ein Verfahren veröffentlicht wird.

Testqualität entsteht im einzelnen Item, nicht erst im Gesamtwert.

Schwierigkeit und Trennschärfe entscheiden gemeinsam, ob ein Item den Test trägt. Wer schwache Items erkennt und aussortiert, macht aus einer Sammlung von Fragen ein zuverlässiges Verfahren.