Testtheorie und Fragebogenkonstruktion (2. Aufl., 2012)
ISBN
978-3-642-20071-7

Inhalt

 

Kapitel 1: Einführung und zusammenfassender Überblick

 

Grundlagen

Kapitel 2: Qualitätsanforderungen an einen psychologischen Test (Testgütekriterien)

Kapitel 3: Planung und Entwicklung von Tests und Fragebogen

Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

Kapitel 5: Klassische Testtheorie (KTT)

Kapitel 6: Methoden der Reliabilitätsbestimmung

Kapitel 7: Validität

Kapitel 8: Interpretation von Testresultaten und Testeichung

Kapitel 9: Standards für psychologisches Testen

 

Erweiterungen

Kapitel 10: Item-Response-Theorie (IRT)

Kapitel 11: Adaptives Testen

Kapitel 12: Latent-Class-Analysis

Kapitel 13: Exploratorische (EFA) und Konfirmatorische Faktorenanalyse (CFA)

Kapitel 14: Multitrait-Multimethod-Analysen

Kapitel 15: Latent-State-Trait-Theorie (LST-Theorie)

Kapitel 16: Konvergente und diskriminante Validität über die Zeit:  Integration von Multitrait-Multimethod-Modellen und der Latent-State-Trait-Theorie

 

 

Kapitel 1: Einführung und zusammenfassender Überblick

 

Es ist ein großer Personenkreis, dem das vorliegende Lehrbuch »Testtheorie und Fragebogenkonstruktion« von Nutzen sein kann. In der Zielgruppe befinden sich zum einen die Test- und Fragebogenkonstrukteure, für die der »State of the Art« von Planung, Entwicklung, Erprobung, Analyse und Dokumentation von Tests und Fragebogen beschrieben wird. Zum anderen sind es auch die zahlreichen Test- und Fragebogenanwender, die vor der Aufgabe stehen, aus verschiedenen am Markt befindlichen Test- und Fragebogen eine qualifizierte, begründete Auswahl zu treffen, die Verfahren sachkundig zum Einsatz zu bringen, die Testwerte kompetent zu interpretieren und aus den Ergebnissen angemessene Schlussfolgerungen zu ziehen. Insbesondere auch für diese Zielgruppe wurde das Buch als praktisches Nachschlagewerk konzipiert.

 

zurück zum Inhalt

 

Grundlagen

 

Kapitel 2: Qualitätsanforderungen an einen psychologischen Test (Testgütekriterien)

 

Wenn man mit der Frage konfrontiert wird, worin der eigentliche Unterschied zwischen einem unwissenschaftlichen »Test« (etwa einer Fragensammlung) und einem wissenschaftlich fundierten, psychologischen Test besteht, so ist die Antwort darin zu sehen, dass sich ein psychologischer Test dadurch unterscheidet, dass er hinsichtlich der Erfüllung der sog. Testgütekriterien empirisch überprüft wurde.

 

zurück zum Inhalt

 

Kapitel 3: Planung und Entwicklung von Tests und Fragebogen

 

Dieses Kapitel bietet einen Überblick über den Prozess der Entstehung eines Tests oder Fragebogens, angefangen von der ersten Testplanung, über die Testentwicklung bis hin zur Erstellung und einer vorläufigen Erprobung der Testvorversion mit dem Ziel der Revision zur endgültigen Version. Es soll verdeutlichen, welche Aspekte bei der Konstruktion eines Testverfahrens zu berücksichtigen sind und dass ein psychometrischer Test mehr ist als eine Ansammlung von Aufgaben oder Fragen. Der Unterschied besteht darin, dass psychometrische Tests psychische Merkmale quantitativ auf der Basis von Testtheorien erfassen und somit eine metrisch vergleichende Diagnostik ermöglichen.

 

zurück zum Inhalt

 

Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

 

Nachdem die Planungs- und Entwicklungsphase eines psychologischen Tests oder Fragebogens (vgl. Jonkisz, Moosbrugger & Brandt 2011, ► Kap. 3 in diesem Band) abgeschlossen ist, besteht der nächste Schritt darin, die Items an einer für die Zielgruppe möglichst repräsentativen Stichprobe einer deskriptivstatistischen Evaluation zu unterziehen. Erst nach diesen unter dem Namen »Itemanalyse« zusammengefassten Untersuchungsschritten können wir eine tragfähige Testfassung erstellen.

 

zurück zum Inhalt

 

Kapitel 5: Klassische Testtheorie (KTT)

 

Die »Klassische Testtheorie« (KTT) stellt jenen theoretischen Hintergrund zur Konstruktion und Interpretation von Testverfahren dar, der als theoretische Basis vieler auf dem Markt befindlicher psychodiagnostischer Tests gegenwärtig sehr wichtig ist.

 

zurück zum Inhalt

 

Kapitel 6: Methoden der Reliabilitätsbestimmung

 

Angenommen, Sie sollen bei einer schulpsychologischen Begutachtung entscheiden, ob ein Kind am Unterricht einer normalen Klasse teilnehmen kann oder Sonderunterricht für Lernbehinderte erhalten soll. Wenn Sie hierfür einen Intelligenztest durchführen, sollten Sie sich darauf verlassen können, dass das Testergebnis messgenau ist, d. h. dass es die »wahre« Leistungsfähigkeit operationalisiert am IQ möglichst genau widerspiegelt und nicht bei einer Testwiederholung kurze Zeit später ein deutlich anderes Ergebnis herauskäme − die Entscheidung hat schließlich zentrale Bedeutung für die Zukunft des Kindes. Messgenauigkeit ist insofern ein ausgesprochen wichtiges Gütekriterium für Tests, gerade bei der Individualdiagnostik.

 

zurück zum Inhalt

 

Kapitel 7: Validität

 

Das Gütekriterium der Validität (vom englischen validity, »Gültigkeit«) wird häufig zusammengefasst als das Ausmaß, in dem ein Test »misst, was er zu messen vorgibt«, »misst, was er messen soll« oder schlicht »den Job tut, für den er entwickelt wurde«. Diese vereinfachenden Zusammenfassungen drücken aus, dass Validität ein umfassendes und sehr wichtiges Gütekriterium zur Beurteilung eines diagnostischen Verfahrens darstellt. Die Validität ist als den Gütekriterien der Objektivität und Reliabilität übergeordnet anzusehen: Wenn ein Test nicht »gültig« ist, weil er zum Beispiel etwas anderes erfasst, als er sollte, sind Objektivität oder Reliabilität nicht mehr von Belang. Validität ist jedoch auch das komplexeste und am schwierigsten zu bestimmende Gütekriterium.

 

zurück zum Inhalt

 

Kapitel 8: Interpretation von Testresultaten und Testeichung

 

Wendet man einen psychologischen Test an, so erhält man in der Regel ein numerisches Testresultat, das Auskunft über die Merkmalsausprägung der Testperson geben soll. Fragt man sich, was dieser Testwert hinsichtlich der Merkmalsausprägung aussagt, dann lässt sich diese Frage in zweierlei Weise sinnvoll beantworten: einerseits dadurch, dass der Testwert durch den Vergleich mit den Testwerten einer Bezugsgruppe interpretiert wird (nor­morientierte Interpretation), oder andererseits, dass eine genaue theoretische Vorstellung darüber besteht, wie der erzielte Testwert mit einem inhaltlichpsychologisch definierten Kriterium in Beziehung steht (kriteriumsorientierte Interpretation).

 

zurück zum Inhalt

 

Kapitel 9: Standards für psychologisches Testen

 

Standards für psychologisches Testen beziehen sich auf verschiedene Bereiche des Testens, z.B. auf die Entwicklung und Evaluation (Testkonstruktion), auf die Übersetzung und Anpassung (Testadaptation), auf die Durchführung, Auswertung und Interpretation (Testanwendung) sowie auf die Überprufung der Einhaltung der Standards bei der Testentwicklung und -evaluation (Qualitätsbeurteilung) psychologischer Tests. Teststandards zielen in den genannten Phasen bzw. Bereichen auf größtmögliche Optimierung und wollen dazu beitragen, dass die im Rahmen psychologischen Testens getroffenen Aussagen mit hoher Wahrscheinlichkeit zutreffen.

 

zurück zum Inhalt

 

Erweiterungen

 

Kapitel 10: Item-Response-Theorie (IRT)

 

Entgegen einer oft zu hörenden Auffassung ist die Item-Response-Theorie (IRT (Lord, 1980; Hambleton & Swaminathan, 1985; Fischer, 1996) nicht als Alternative zur Klassischen Testtheorie (KTT) (s. Moosbrugger, 2011a, ► Kap. 5 in diesem Band) aufzufassen, sondern besser als Ergänzung. Der KTT sind große Verdienste in der Psychodiagnostik zuzuschreiben: Mit ihrer Hilfe ist es möglich, auf Basis der Reaktionen in mehreren Items die wahre Ausprägung (»true score«) des zu erfassenden Merkmals zu schätzen und die Messgenauigkeit des Testergebnisses (Reliablilität, s. Schermelleh-Engel & Werner, 2011, ► Kap. 6 in diesem Band) zu bestimmen. Mit Hilfe der Reliabilität bzw. des Standardmessfehlers ist es darüber hinaus moglich, ein Konfidenzintervall für den »true score« anzugeben.

 

zurück zum Inhalt

 

Kapitel 11: Adaptives Testen

 

Bei den meisten Fragebogen- und Testverfahren wird allen Probanden eine festgelegte Menge von Items in einer festen Reihenfolge vorgegeben. Beim adaptiven Testen werden abweichend davon aufgrund des Antwortvehaltens des untersuchten Probanden nur solche Items zur Bearbeitung vorgelegt, die möglichst viel diagnostische Information über die individuelle Ausprägung des zu messenden Merkmals liefern.

 

zurück zum Inhalt

 

Kapitel 12: Latent-Class-Analysis

 

Personen unterscheiden sich hinsichtlich einer Vielzahl von Eigenschaften, zum Beispiel ihres Geschlechts, ihrer Körpergröße, oder ihres Temperaments: Manche Menschen sind eher extravertiert, andere eher introvertiert. Solche Personvariablen sind zum einen entweder direkt beobachtbar (Geschlecht, Körpergröße) oder nur indirekt über Indikatorvariablen zu erschließen (Extraversion bzw. Introversion). Zum anderen sind Personvariablen entweder dimensional oder kategorial definiert. Die Körpergröße z.B. ist eine dimensionale Personvariable: Je größer eine Person ist, desto höher ist ihr »Wert« auf dem jeweiligen Messinstrument (z.B. einem Zentimetermaß), wobei zwischen zwei Werten unendlich viele mögliche Werte liegen können. Das Geschlecht hingegen ist eine kategoriale Personvariable: Man ist entweder männlich oder weiblich. Im Falle kategorialer Variablen gibt es lediglich so viele Werte wie Kategorien; Zwischenwerte, d.h. graduelle Unterschiede zwischen Werten, gibt es hier nicht.

 

zurück zum Inhalt

 

Kapitel 13: Exploratorische (EFA) und Konfirmatorische Faktorenanalyse (CFA)

 

Zur Konstruktvalidierung eines neu entwickelten Fragebogens oder Tests wird häufig entweder die exploratorische Faktorenanalyse oder die konfirmatorische Faktorenanalyse eingesetzt, um zu überprüfen, ob die Items hoch mit den Faktoren (Konstrukten, Dimensionen, Merkmalen) korrelieren, die mit Hilfe der Items gemessen werden sollen.

 

zurück zum Inhalt

 

Kapitel 14: Multitrait-Multimethod-Analysen

 

Unter der Bezeichnung »Multitrait-Multimethod-Analyse« (MTMM-Analyse) wird eine Gruppe von Verfahren zum Nachweis der Konstruktvalidität eines Tests oder Fragebogens verstanden. Charakteristischer Weise wird für diesen Nachweis eine systematische Kombination von mehreren Traits (Merkmalen) mit mehreren Messmethoden vorgenommen.

 

zurück zum Inhalt

 

Kapitel 15: Latent-State-Trait-Theorie (LST-Theorie)

 

In der psychologischen Diagnostik ist man einerseits daran interessiert, stabile Merkmale zu messen (Dispositionen wie z.B. Neurotizismus oder Extraversion), deren Ausprägung bei einer Person sich nicht von Situation zu Situation ändern sollte. Andererseits ist man aber auch daran interessiert, die Veränderung von Merkmalen zu erfassen, z.B. von Schmerzintensität oder Heiterkeit, welche situationsabhängig variieren können. Konsistente, d.h. zeitlich stabile Merkmale werden in diesem Zusammenhang meist als »Traits« bezeichnet, wohingegen inkonsistente, d.h. zeitlich instabile Merkmale, als »States« bezeichnet werden.

 

zurück zum Inhalt

 

Kapitel 16: Konvergente und diskriminante Validität über die Zeit:  Integration von Multitrait-Multimethod-Modellen und der Latent-State-Trait-Theorie

 

Psychologische Messungen unterliegen einer Vielzahl von Einflussen. Die Ausprägung der Êngstlichkeit von Schulkindern beispielsweise hängt nicht nur von ihrer dispositionellen Êngstlichkeit, sondern auch von situativen Einflüssen (die bekannt oder unbekannt sind) ab, wie z.B. dem gerade wütenden Sturm oder dem Albtraum der letzten Nacht. Außerdem fallen die Messungen je nach Messmethode, z.B. ob die Schüler sich selbst einschätzen oder ob sie von ihren Lehrern oder Eltern eingeschätzt werden, unterschiedlich aus. In vorangegangenen Kapiteln wurden bereits statistische Modelle beschrieben, die verschiedene Einflussfaktoren auf Messungen trennen und in ihrer Große messbar machen können. Schermelleh-Engel und Schweizer (2011, ► Kap. 14 in diesem Band) beschreiben Modelle, die den Einfluss verschiedener Messmethoden auf die Messergebnisse untersuchen. Diese Methoden beinhalten ganz unterschiedliche inhaltliche Aspekte. So können z.B. die Einflüsse verschiedener Fragebögen, unterschiedlicher Rater, unterschiedlicher Facetten eines Konstruktes oder verschiedener Messgelegenheiten mit den vorgestellten Multitrait-Multimethod- (MTMM-) Modellen analysiert werden. Werden verschiedene Messgelegenheiten analysiert, bieten sich daröber hinaus Modelle der Latent-State-Trait-Theorie (vgl. Kelava & Schermelleh- Engel, 2011, ► Kap. 15 in diesem Band; Steyer, 1987, 1989; Steyer, Ferring, & Schmitt, 1992) an. Diese Modelle teilen viele strukturelle Bestandteile mit den MTMM-Modellen mit latenten Variablen, entstammen jedoch einer eigenständigen Forschungstradition.

 

zurück zum Inhalt