Inhalt
Kapitel 1: Einführung und zusammenfassender Überblick
Kapitel 2: Qualitätsanforderungen an einen psychologischen Test (Testgütekriterien)
Kapitel 3: Planung und Entwicklung von Tests und Fragebogen
Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen
Kapitel 5: Klassische Testtheorie (KTT)
Kapitel 6: Methoden der Reliabilitätsbestimmung
Kapitel 8: Interpretation von Testresultaten und Testeichung
Kapitel 9: Standards für psychologisches Testen
Kapitel 10: Item-Response-Theorie (IRT)
Kapitel 12: Latent-Class-Analysis
Kapitel 13: Exploratorische (EFA) und Konfirmatorische Faktorenanalyse (CFA)
Kapitel 14: Multitrait-Multimethod-Analysen
Kapitel 15: Latent-State-Trait-Theorie (LST-Theorie)
Kapitel 1: Einführung und zusammenfassender Überblick
Es ist ein großer Personenkreis, dem das vorliegende Lehrbuch »Testtheorie und Fragebogenkonstruktion« von Nutzen sein kann. In der Zielgruppe befinden sich zum einen die Test- und Fragebogenkonstrukteure, für die der »State of the Art« von Planung, Entwicklung, Erprobung, Analyse und Dokumentation von Tests und Fragebogen beschrieben wird. Zum anderen sind es auch die zahlreichen Test- und Fragebogenanwender, die vor der Aufgabe stehen, aus verschiedenen am Markt befindlichen Test- und Fragebogen eine qualifizierte, begründete Auswahl zu treffen, die Verfahren sachkundig zum Einsatz zu bringen, die Testwerte kompetent zu interpretieren und aus den Ergebnissen angemessene Schlussfolgerungen zu ziehen. Insbesondere auch für diese Zielgruppe wurde das Buch als praktisches Nachschlagewerk konzipiert.
Grundlagen
Kapitel 2: Qualitätsanforderungen an einen psychologischen Test (Testgütekriterien)
Wenn man mit der Frage konfrontiert wird, worin der eigentliche Unterschied zwischen einem unwissenschaftlichen »Test« (etwa einer Fragensammlung) und einem wissenschaftlich fundierten, psychologischen Test besteht, so ist die Antwort darin zu sehen, dass sich ein psychologischer Test dadurch unterscheidet, dass er hinsichtlich der Erfüllung der sog. Testgütekriterien empirisch überprüft wurde.
Kapitel 3: Planung und Entwicklung von Tests und Fragebogen
Dieses Kapitel bietet einen Überblick über den Prozess der Entstehung eines Tests oder Fragebogens, angefangen von der ersten Testplanung, über die Testentwicklung bis hin zur Erstellung und einer vorläufigen Erprobung der Testvorversion mit dem Ziel der Revision zur endgültigen Version. Es soll verdeutlichen, welche Aspekte bei der Konstruktion eines Testverfahrens zu berücksichtigen sind und dass ein psychometrischer Test mehr ist als eine Ansammlung von Aufgaben oder Fragen. Der Unterschied besteht darin, dass psychometrische Tests psychische Merkmale quantitativ auf der Basis von Testtheorien erfassen und somit eine metrisch vergleichende Diagnostik ermöglichen.
Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen
Nachdem die Planungs- und Entwicklungsphase eines psychologischen Tests oder Fragebogens (vgl. Jonkisz, Moosbrugger & Brandt 2011, ► Kap. 3 in diesem Band) abgeschlossen ist, besteht der nächste Schritt darin, die Items an einer für die Zielgruppe möglichst repräsentativen Stichprobe einer deskriptivstatistischen Evaluation zu unterziehen. Erst nach diesen unter dem Namen »Itemanalyse« zusammengefassten Untersuchungsschritten können wir eine tragfähige Testfassung erstellen.
Kapitel 5: Klassische Testtheorie (KTT)
Die »Klassische Testtheorie« (KTT) stellt jenen theoretischen Hintergrund zur Konstruktion und Interpretation von Testverfahren dar, der als theoretische Basis vieler auf dem Markt befindlicher psychodiagnostischer Tests gegenwärtig sehr wichtig ist.
Kapitel 6: Methoden der Reliabilitätsbestimmung
Angenommen, Sie sollen bei einer schulpsychologischen Begutachtung entscheiden, ob ein Kind am Unterricht einer normalen Klasse teilnehmen kann oder Sonderunterricht für Lernbehinderte erhalten soll. Wenn Sie hierfür einen Intelligenztest durchführen, sollten Sie sich darauf verlassen können, dass das Testergebnis messgenau ist, d. h. dass es die »wahre« Leistungsfähigkeit operationalisiert am IQ möglichst genau widerspiegelt und nicht bei einer Testwiederholung kurze Zeit später ein deutlich anderes Ergebnis herauskäme − die Entscheidung hat schließlich zentrale Bedeutung für die Zukunft des Kindes. Messgenauigkeit ist insofern ein ausgesprochen wichtiges Gütekriterium für Tests, gerade bei der Individualdiagnostik.
Kapitel 7: Validität
Das Gütekriterium der Validität (vom englischen validity, »Gültigkeit«) wird häufig zusammengefasst als das Ausmaß, in dem ein Test »misst, was er zu messen vorgibt«, »misst, was er messen soll« oder schlicht »den Job tut, für den er entwickelt wurde«. Diese vereinfachenden Zusammenfassungen drücken aus, dass Validität ein umfassendes und sehr wichtiges Gütekriterium zur Beurteilung eines diagnostischen Verfahrens darstellt. Die Validität ist als den Gütekriterien der Objektivität und Reliabilität übergeordnet anzusehen: Wenn ein Test nicht »gültig« ist, weil er zum Beispiel etwas anderes erfasst, als er sollte, sind Objektivität oder Reliabilität nicht mehr von Belang. Validität ist jedoch auch das komplexeste und am schwierigsten zu bestimmende Gütekriterium.
Kapitel 8: Interpretation von Testresultaten und Testeichung
Wendet man einen psychologischen Test an, so erhält man in der Regel ein numerisches Testresultat, das Auskunft über die Merkmalsausprägung der Testperson geben soll. Fragt man sich, was dieser Testwert hinsichtlich der Merkmalsausprägung aussagt, dann lässt sich diese Frage in zweierlei Weise sinnvoll beantworten: einerseits dadurch, dass der Testwert durch den Vergleich mit den Testwerten einer Bezugsgruppe interpretiert wird (normorientierte Interpretation), oder andererseits, dass eine genaue theoretische Vorstellung darüber besteht, wie der erzielte Testwert mit einem inhaltlichpsychologisch definierten Kriterium in Beziehung steht (kriteriumsorientierte Interpretation).
Kapitel 9: Standards für psychologisches Testen
Standards für psychologisches Testen beziehen sich auf verschiedene Bereiche des Testens, z.B. auf die Entwicklung und Evaluation (Testkonstruktion), auf die Übersetzung und Anpassung (Testadaptation), auf die Durchführung, Auswertung und Interpretation (Testanwendung) sowie auf die Überprufung der Einhaltung der Standards bei der Testentwicklung und -evaluation (Qualitätsbeurteilung) psychologischer Tests. Teststandards zielen in den genannten Phasen bzw. Bereichen auf größtmögliche Optimierung und wollen dazu beitragen, dass die im Rahmen psychologischen Testens getroffenen Aussagen mit hoher Wahrscheinlichkeit zutreffen.
Erweiterungen
Kapitel 10: Item-Response-Theorie (IRT)
Entgegen einer oft zu hörenden Auffassung ist die Item-Response-Theorie (IRT (Lord, 1980; Hambleton & Swaminathan, 1985; Fischer, 1996) nicht als Alternative zur Klassischen Testtheorie (KTT) (s. Moosbrugger, 2011a, ► Kap. 5 in diesem Band) aufzufassen, sondern besser als Ergänzung. Der KTT sind große Verdienste in der Psychodiagnostik zuzuschreiben: Mit ihrer Hilfe ist es möglich, auf Basis der Reaktionen in mehreren Items die wahre Ausprägung (»true score«) des zu erfassenden Merkmals zu schätzen und die Messgenauigkeit des Testergebnisses (Reliablilität, s. Schermelleh-Engel & Werner, 2011, ► Kap. 6 in diesem Band) zu bestimmen. Mit Hilfe der Reliabilität bzw. des Standardmessfehlers ist es darüber hinaus moglich, ein Konfidenzintervall für den »true score« anzugeben.
Kapitel 11: Adaptives Testen
Bei den meisten Fragebogen- und Testverfahren wird allen Probanden eine festgelegte Menge von Items in einer festen Reihenfolge vorgegeben. Beim adaptiven Testen werden abweichend davon aufgrund des Antwortvehaltens des untersuchten Probanden nur solche Items zur Bearbeitung vorgelegt, die möglichst viel diagnostische Information über die individuelle Ausprägung des zu messenden Merkmals liefern.
Kapitel 12: Latent-Class-Analysis
Personen unterscheiden sich hinsichtlich einer Vielzahl von Eigenschaften, zum Beispiel ihres Geschlechts, ihrer Körpergröße, oder ihres Temperaments: Manche Menschen sind eher extravertiert, andere eher introvertiert. Solche Personvariablen sind zum einen entweder direkt beobachtbar (Geschlecht, Körpergröße) oder nur indirekt über Indikatorvariablen zu erschließen (Extraversion bzw. Introversion). Zum anderen sind Personvariablen entweder dimensional oder kategorial definiert. Die Körpergröße z.B. ist eine dimensionale Personvariable: Je größer eine Person ist, desto höher ist ihr »Wert« auf dem jeweiligen Messinstrument (z.B. einem Zentimetermaß), wobei zwischen zwei Werten unendlich viele mögliche Werte liegen können. Das Geschlecht hingegen ist eine kategoriale Personvariable: Man ist entweder männlich oder weiblich. Im Falle kategorialer Variablen gibt es lediglich so viele Werte wie Kategorien; Zwischenwerte, d.h. graduelle Unterschiede zwischen Werten, gibt es hier nicht.
Kapitel 13: Exploratorische (EFA) und Konfirmatorische Faktorenanalyse (CFA)
Zur Konstruktvalidierung eines neu entwickelten Fragebogens oder Tests wird häufig entweder die exploratorische Faktorenanalyse oder die konfirmatorische Faktorenanalyse eingesetzt, um zu überprüfen, ob die Items hoch mit den Faktoren (Konstrukten, Dimensionen, Merkmalen) korrelieren, die mit Hilfe der Items gemessen werden sollen.
Kapitel 14: Multitrait-Multimethod-Analysen
Unter der Bezeichnung »Multitrait-Multimethod-Analyse« (MTMM-Analyse) wird eine Gruppe von Verfahren zum Nachweis der Konstruktvalidität eines Tests oder Fragebogens verstanden. Charakteristischer Weise wird für diesen Nachweis eine systematische Kombination von mehreren Traits (Merkmalen) mit mehreren Messmethoden vorgenommen.
Kapitel 15: Latent-State-Trait-Theorie (LST-Theorie)
In der psychologischen Diagnostik ist man einerseits daran interessiert, stabile Merkmale zu messen (Dispositionen wie z.B. Neurotizismus oder Extraversion), deren Ausprägung bei einer Person sich nicht von Situation zu Situation ändern sollte. Andererseits ist man aber auch daran interessiert, die Veränderung von Merkmalen zu erfassen, z.B. von Schmerzintensität oder Heiterkeit, welche situationsabhängig variieren können. Konsistente, d.h. zeitlich stabile Merkmale werden in diesem Zusammenhang meist als »Traits« bezeichnet, wohingegen inkonsistente, d.h. zeitlich instabile Merkmale, als »States« bezeichnet werden.
Kapitel 16: Konvergente und diskriminante Validität über die Zeit: Integration von Multitrait-Multimethod-Modellen und der Latent-State-Trait-Theorie
Psychologische Messungen unterliegen einer Vielzahl von Einflussen. Die Ausprägung der Êngstlichkeit von Schulkindern beispielsweise hängt nicht nur von ihrer dispositionellen Êngstlichkeit, sondern auch von situativen Einflüssen (die bekannt oder unbekannt sind) ab, wie z.B. dem gerade wütenden Sturm oder dem Albtraum der letzten Nacht. Außerdem fallen die Messungen je nach Messmethode, z.B. ob die Schüler sich selbst einschätzen oder ob sie von ihren Lehrern oder Eltern eingeschätzt werden, unterschiedlich aus. In vorangegangenen Kapiteln wurden bereits statistische Modelle beschrieben, die verschiedene Einflussfaktoren auf Messungen trennen und in ihrer Große messbar machen können. Schermelleh-Engel und Schweizer (2011, ► Kap. 14 in diesem Band) beschreiben Modelle, die den Einfluss verschiedener Messmethoden auf die Messergebnisse untersuchen. Diese Methoden beinhalten ganz unterschiedliche inhaltliche Aspekte. So können z.B. die Einflüsse verschiedener Fragebögen, unterschiedlicher Rater, unterschiedlicher Facetten eines Konstruktes oder verschiedener Messgelegenheiten mit den vorgestellten Multitrait-Multimethod- (MTMM-) Modellen analysiert werden. Werden verschiedene Messgelegenheiten analysiert, bieten sich daröber hinaus Modelle der Latent-State-Trait-Theorie (vgl. Kelava & Schermelleh- Engel, 2011, ► Kap. 15 in diesem Band; Steyer, 1987, 1989; Steyer, Ferring, & Schmitt, 1992) an. Diese Modelle teilen viele strukturelle Bestandteile mit den MTMM-Modellen mit latenten Variablen, entstammen jedoch einer eigenständigen Forschungstradition.