Schlagworte

1 Methodendesign

Die Wichtigkeit des Vortestens eines Fragebogens ist in Theorie wie Praxis unbestritten (Presser et al., 2004). Kognitive Interviews (cognitive interviewing), auch kognitives Testen (cognitive testing) genannt, sind eine seit den 1980er-Jahren angewendete Methode der qualitativen Forschung, deren Ziel die Optimierung von Fragebogenitems vor der eigentlichen Pilotierung ist (Willis & Artino, 2013, S. 353). Während der Beantwortung durchlaufen Testpersonen die von Tourangeau (1984) entwickelten kognitiven Schritte des Verstehens der Frage an sich (comprehension), des Sammelns von Informationen zur Beantwortung (retrieval), des Abwägens der vorhandenen Informationen (judgement) und schließlich des Formulierens einer Antwort (response). An jeder Stelle dieses anspruchsvollen kognitiven Prozesses können Probleme auftreten, die letztendlich dazu führen, dass ein Item gänzlich anders verstanden und beantwortet wird, als es intendiert war. Den Teilnehmer*innen kann es überdies schwerfallen, sich an vergangene Ereignisse zu erinnern oder sie bezüglich ihrer Relevanz für die Beantwortung der Frage zu bewerten. Es ist auch denkbar, dass das Antwortformat als nicht geeignet empfunden wird.

Um diesen Problemen nicht erst bei der quantitativen Pilotierung oder der Haupterhebung zu begegnen, wurde die Think-Aloud-Methode zusammen mit dem kritischen Nachfragen eingesetzt. Sie „liefert Einsichten in die Art und Weise, wie jedes Item verstanden wird und in die Strategien, welche zur Bearbeitung angewendet werden. Verständnis- und Interpretationsschwierigkeiten sowie Probleme […] können so leicht aufgedeckt werden“ (Jonkisz, Moosbrugger & Brandt, 2012, S. 71).

Entgegen eines quantitativ orientierten Vorgehens, dessen Ziel das Herstellen signifikanter Zusammenhänge ist (Miller, 2011, S. 55), interessieren der innere Auseinandersetzungsprozess mit den in der Entwicklung befindlichen Fragebogenitems (Presser et al., 2004, S. 112). Die interviewte Person wird mit dem Ablauf vertraut gemacht, woraufhin sie „die Fragen des Fragebogens laut liest, […] Überlegungen äußert und schließlich die Antworten laut formuliert, um dann den Fragebogen entsprechen zu markieren“ (Bühner, 2011, S. 90). Das unmittelbare Nachdenken über die Fragen und das laute Aussprechen (concurrent think aloud) gilt als weniger fehleranfällig, als erst den Fragebogen in Gänze leise zu lesen und anschließend (retrospective think aloud) laut zu denken (Bergius, 2020).

Analog kann auch das kritische Nachfragen danach unterteilt werden, ob die Rückfragen direkt im Anschluss an die beantworteten Fragen gestellt werden (concurrent), oder ob sie nach Abschluss des Fragebogens (retrospective) folgen. Beide Vorgehensweisen bringen Vor- und Nachteile mit sich. Welcher Ansatz verfolgt wirkt, hängt von der Rolle der interviewenden und der interviewten Person ab. Zieht sich, wie in der vorliegenden Studie, der Interviewer nach der Einführung weitestgehend aus dem weiteren Ablauf zurück und hält nur, falls nötig, mit gelegentlichen Kommentaren das Selbstgespräch am Laufen, ist das Zurückstellen von Nachfragen angebrachter (Willis, 2016, S. 362–363; Willis & Artino, 2013, S. 354).

Zusätzlich lassen sich die Nachfragen noch danach unterteilen, ob sie vor dem kognitiven Interview vorbereitet (proactive) oder während des Interviews notiert (reactive) wurden (Campanelli, 2008a, S. 194; Willis & Artino, 2013, S. 354). Fragen zu bestimmten Items und allgemeinere Fragen wurden a priori vorbereitet und im Anschluss an das Interview gestellt. Die Interviewsituation war überdies für die Modifizierung des Vorgehens offen, wodurch auch während des Interviews entstandene Fragen notiert und am Ende gestellt wurden. Die Notizen sind ein essenzieller Bestandteil des kognitiven Interviews. Die Kombination von geplanten und ungeplanten Nachfragen findet typischerweise bei kognitiven Interviews statt, wobei darauf geachtet werden sollte, die Nachfragen erst dann zu stellen, wenn die interviewte Person entweder eine Frage (concurrent probes) oder den Fragebogen als Ganzes abgeschlossen hat (retrospective probes) (Campanelli, 2008b). Globale Verständnisfragen – „Gab es eine Frage, bei der Du Schwierigkeiten hattest, sie zu beantworten?“ – wurden vermieden, da diese weniger geeignet scheinen, eine weiterführende Antwort zu erhalten. Zusammengefasst ist das gewählte Vorgehen in Tab. 7.1 dargestellt.

Tab. 7.1 Prä-Pilotierung: Varianten der Think-Aloud-Methode und des kritischen Nachfragens

Über das beste Vorgehen zur Auswertung der kognitiven Interviews herrscht keine Einigkeit. Presser und Kolleg*innen fassten den Stand der methodologischen Diskussion 2004 noch wie folgt zusammen:

Although there is now general agreement about the value of cognitive interviewing, no consensus has emerged about best practices, such as whether (or when) to use think-alouds versus probes, whether to employ concurrent or retrospective reporting, and how to analyze and evaluate results (Presser et al., 2004, S. 113).

Das lag und liegt allen voran daran, dass die Definition eines Problems oder problematischen Items in hohem Maße der Subjektivität der auswertenden Personen unterworfen ist (Willis, 2011, S. 81). Die Auswertungsmethoden variieren im Wesentlichen zwischen zwei Polen: Auf der einen Seite stehen eher formlose, qualitativ-interpretative, auf der anderen striktere, quantitativ-kodierende Verfahren. Beiden Herangehensweisen ist gemein, dass „the analytic object is to understand the ways in which items function, and to identify problems they present, such that they can be modified to rectify the observed difficulties“ (Willis, 2016, S. 363).

Der explorative Charakter der Studie wie auch die geringe Zeit zur Durchführung und Auswertung sprachen für ein wenig strukturierteres Verfahren. Die Definition dessen, was als problematisch gelten kann, wurde weit gefasst. So sollten alle Items einer Diskussion und Revision unterzogen werden, zu denen mehr als eine interviewte Person eine kritische Anmerkung getätigt hat. Im Folgenden werden die wichtigsten Fragen nach der Rekrutierung, Vorbereitung und Durchführung sowie Auswertung der kognitiven Interviews vorgestellt. Insbesondere die Identifikation von Problemen wird illustrativ mit Originalausschnitten des annotierten Fragebogens präsentiert. Die Ergebnisse und Implikationen für die Pilotierung werden sodann zusammengefasst.

2 Durchführung

Die Interviews fanden im April und Mai 2017 in Göttingen statt und wurden mit einem Aufnahmegerät festgehalten. Die Teilnehmer*innen wurden über digital verschickte Flyer und persönliche Ansprachen angeworben. Die Gesamtlänge inklusive Aufwärmphase und Nachfragen wurde auf maximal 90 Minuten begrenzt, um eine kognitive Überforderung zu vermeiden (Campanelli, 2008a, S. 192). Das Vorgehen war in einem standardisierten Ablaufplan festgehalten, um die Objektivität zu erhöhen. Alle Teilnehmer*innen bekamen zu Beginn denselben Einführungstext vorgelesen, welcher unter anderem Informationen zum Datenschutz und zur Datenverwertung, zum Ablauf des Interviews, zu den Aufwärmübungen und dem Fragebogen selbst enthielt. Der zugehörigen Ablaufplan ist in Anhang 1 im elektronischen Zusatzmaterial einsehbar.

Es wurden nur Personen mit den Studienfächern Politik, Geschichte oder Geografie kontaktiert, da das Messinstrument mit Student*innen dieser Unterrichtsfächer auch in der Hauptstudie optimiert werden soll (Bühner, 2011, S. 89). Im Falle der Student*innen wurde darüber hinaus sichergestellt, dass diese zum Zeitpunkt der Haupterhebung ihr Studium bereits abgeschlossen haben werden, denn die Teilnahme an einer qualitativen oder quantitativen Pilotierung schließt die Teilnahme an der Haupterhebung aus (Willis & Artino, 2013, S. 356). Der empfohlene „financial incentive“ (Campanelli, 2008a, S. 192) konnte mit der regulären Tätigkeit der studentischen Hilfskräfte bzw. der wissenschaftlichen Mitarbeitenden abgegolten werden.

Da das bewusste Verbalisieren des eigenen Verstehensprozesses einer praktischen Übung bedarf, bevor die Think-Aloud-Methode zum Einsatz kommen kann (Campanelli, 2008a, S. 193), erfolgte eine Aufwärmphase vor dem eigentlichen Interview. Ein klassisches Beispiel einer solchen Aufwärmübung wurde von David Mingay entwickelt (Willis, 1994, S. 7). Die Teilnehmer*innen sollten hierbei die Anzahl der Fenster in ihrer Wohnung zählen und währenddessen alles, was ihnen während des gedanklichen Rundgangs in den Sinn kommt, laut aussprechen. Für die sechs Göttinger Proband*innen wurde die erste Aufwärmaufgabe nah an Mingays Beispiel formuliert. Es wurde eingangs eine kurze Anweisung verlesen: „Sprich jeden Gedankenschritt aus, den Du beim Lösen der folgenden Aufgaben denkst. Denke laut!“ Es folgte die erste Aufgabe: „Versuche möglichst genau aufzuzählen, wie viele Türen das Haus bzw. die Wohnung Deiner Eltern hat.“ Eine zweite Aufwärmaufgabe diente als Reserve: „Versuche möglichst genau abzuschätzen, wie viele Stunden Du in einer typischen Woche das Internet nutzt“. Die zugehörigen Aufwärmaufgaben sind in Anhang 2 im elektronischen Zusatzmaterial einsehbar. Es kann angenommen werden, dass sowohl die große Zeitspanne einer Woche (z. B. Chang & Krosnick, 2003) wie auch die alltägliche Benutzung des Internets anregend auf den Verbalisierungsprozess wirken. So können die Teilnehmer*innen beispielsweise zwischen der Internetnutzung für private und universitäre Zwecke unterscheiden.

Der Interviewer beschränkte Anmerkungen auf kurze verbale Aufforderungen zum Weiterreden, sofern der Redefluss ins Stocken geriet. Vereinzelt wurden direkt im Anschluss an eine Frage Nachfragen gestellt (concurrent probing). Dies blieb aber die Ausnahme. Während der gesamten Zeit wurden handschriftliche Notizen zu den Äußerungen und teilweise auch zu Gestik und Mimik gemacht und danach digital überführt (Tab. 7.2). Selbiges gilt für die im Anschluss an das Interview gestellten Fragen (retrospective probing). Die effektive Bearbeitungszeit von der Einleitung bis zum Nachfragen variierte zwischen 55 und 95 Minuten, wobei aus Zeitgründen nicht alle Teilnehmer*innen den kompletten Fragebogen bearbeiteten. Die Einteilung in thematische „Frage-Batterien“ nach den Dimensionen des Modells fachdidaktischen Wissens zum Unterrichten von Naturwissenschaften von Park und Chen (2012) erlaubte ein Abbrechen oder Fortsetzen nach Sinneinheiten.

Die folgenden exemplarischen Notizen wurden für den gesamten Fragebogen und für alle Teilnehmer*innen geführt (Tab. 7.2). In der linken Spalte sind Items zur Facette „Curriculum Materials“ der Dimension „Knowledge of Gesellschaftslehre Curriculum“ zu sehen. In der rechten Spalte sind wörtlich entnommene Aussagen zu den Items sowie Anmerkungen des Autors ohne Anführungszeichen aufgeführt.

Tab. 7.2 Prä-Pilotierung: Ausschnitt des annotierten Fragebogens

3 Stichprobe

Bezüglich der notwendigen Größe der Stichprobe gehen die Empfehlungen weit auseinander, wobei eine Entwicklung zu größerem Stichprobenumfang einzusetzen scheint (Miller, 2011, S. 54). Schon fünf bis sechs Teilnehmer*innen können erheblich zur Verbesserung des Messinstruments beitragen (Willis & Artino, 2013, S. 355). Es konnten insgesamt sechs Teilnehmer*innen aus zwei der drei Gesellschaftslehre-Fächern für die Prä-Pilotierung gewonnen werden (Abb. 7.1).

Abb. 7.1
figure 1

Prä-Pilotierung: Stichprobenbeschreibung

4 Ergebnisse

Das inhaltlich wichtigste Ergebnis war die Unbekanntheit der zentralen Schülerkompetenzen in Gesellschaftslehre, mehrheitlich der Orientierungskompetenz. Das könnte „ein klassischer Fall“ sein, bei dem „man als Studi nichts ankreuzen würde, wenn man die Orientierungskompetenz nicht kennt“. Im fertigen Fragebogen wurde diesem Umstand durch kurze Erklärungen der Kompetenzbereiche Rechnung getragen. Ebenfalls fiel auf, dass die eigentlich als inhaltsspezifische Instruktionsstrategien gedachten Techniken (z. B. der Politikzyklus, Planspiele, das Modell des Wirtschaftskreislaufes) nicht bestimmten Themen zugerechnet wurden, sondern dem Fach Gesellschaftslehre bzw. den Teilfächern selbst. So könne der Politikzyklus „tatsächlich für vieles angewendet werden, vielleicht auch in Geografie und Ökonomie.“ Obgleich diese Einstellung aus didaktischer Sicht wünschenswert ist, bedeutet es auch, dass die theoretische Trennung in fach- und inhaltsspezifische Instruktionsstrategien in Gesellschaftslehre möglicherweise nicht zu operationalisieren ist. Da sich dies erst in der Faktorenanalyse der Pilotierung zeigen kann, wurde die Batterie weitestgehend so beibehalten. Lediglich das Item zu den Modellexperimenten zur Förderung des Fachwissens entfiel.

Mitunter wurde nicht deutlich, dass die einleitende Formulierung „Ich kann…“ auf eine Einschätzung des gegenwärtigen Fähigkeitsstandes abzielt. Ein Teilnehmer stellte die Frage, ob er es „jetzt kann, oder wenn ich dann Lehrer bin?“. Auf dem Deckblatt wurde somit ein Hinweis ergänzt: „Ziel dieser Studie ist es, mehr über Ihre aktuellen Vorstellungen zum fächerübergreifenden Unterrichten zu erfahren.“ Vereinzelt wurde bei eben dieser Phrase weniger daran gedacht, ob man es „kann“, sondern ob man es „weiß“, „muss“, „soll“ oder, ob es „wichtig“ sei. Auf eine zusätzliche Spezifizierung wurde mit der Begründung verzichtet, dass dies eine unnötige Belastung für diejenigen sein dürfte, die an dieser Stelle keine Verständnisschwierigkeiten haben.

Alle Teilnehmer*innen beantworteten die Batterie zum subjektiven Wissen äußerst schnell und unterlegten ihre Antworten teilweise mit elaborierten Beispielen. Zum validen Erfassen des Wissens der einzelnen Domänen hätten weitere Themen und Inhalte aus dem Kerncurriculum Gesellschaftslehre integriert werden können. Aus Zeitmangel konnte dieser Schritt jedoch nicht mehr vor der Pilotierung durchgeführt werden. Eine Studentin und ehemalige Schülerin einer Integrierten Gesamtschule wies darauf hin, dass bei der Dimension der Leistungsbeurteilung die „besondere Kultur“ der Schulform zu bedenken sei und „weniger Ziffernnoten und mehr Lernentwicklungsberichte“ in den unteren Jahrgangsstufen im Vordergrund stünden. Aufgrund dessen erhielt diese Batterie ein selbstentwickeltes Item: „Ich kann auch in Gesellschaftslehre meinen Schüler/-innen mit Lernentwicklungsberichten ihre Kompetenzstände rückmelden.“ Ursprünglich enthielt die Batterie zu den Schülervorstellungen einen gemeinsamen Schlusssatz unterhalb der letzten Frage: „[…] als Lerngelegenheit im Unterricht aufgreifen.“ Monotonie sollte so bei den immerhin sechs Items vermieden werden. Zwei Proband*innen kritisierten dies als „keine gute Lösung“, woraufhin erneut jedes Item um den Schlusssatz erweitert wurde. An manchen Stellen wurden auch Teile von Fragen oder ganze Fragen herausgenommen, etwa eine mehrere Zeilen umfassende Definition von Gesellschaftslehre oder die Angaben von unterrichteten 45-Minuten-Stunden. Bei den geografiebezogenen Lernschwierigkeiten wurde das hypotaktische Item „Ich kann auch in Gesellschaftslehre Schwierigkeiten meiner Schüler/-innen beim Beurteilen von Strategien zur Bewältigung der Auswirkungen globaler Umweltzerstörung im Unterricht berücksichtigen“ gekürzt. Eine Teilnehmerin kritisierte die überbordende Formulierung schlicht mit den Worten „Oh, Gott!“.

Aus einer anderen Frage zum curricularen Wissen wurde „in die Lernfelder des Kerncurriculums“ eliminiert. Wem die Lernfelder unbekannt sind, stößt bei dieser Frage auf ein unnötiges Hindernis, denn sie bezieht sich im Kern auf den Einsatz inhaltlicher Beispiele zu geschichtlichen Themen aus den Bildungsstandards des Verbands der Geschichtslehrer Deutschlands (VGD), wodurch bereits genug Hürden integriert sind. In der gleichen Dimension enthielt ein Item zur Förderung der historischen Schülerkompetenzen mit modernen Zugängen und Methoden neben der Marktbegehung eines Mittelaltermarktes auch geschichtsbezogene Rap-Battles. Zum einen waren sie den meisten Teilnehmer*innen unbekannt, zum anderen empfanden die übrigen sie wahlweise als lustig oder „schon sehr speziell“. In der Version für die Pilotierung wurden sie durch das Zeichnen einer Karikatur für eine Zeitung substituiert. Auch beim horizontalen und vertikalen Curriculum entfielen die zusätzliche Hürde auf der Grundlage der Anforderungen des Kerncurriculums sowie die Beispiele zu den drei Kompetenzen.

Die „Schüler/-innen zum selbstständigen Arbeiten mit Herangehensweisen aller beteiligten Fächer anzuleiten“ sei „schon echt schwierig“. Dieses Item wurde gänzlich aus dem Fragebogen entfernt. Wer hier mit „stimme voll zu“ antwortet, müsste über tiefgehendes fachdidaktisches Wissen aller beteiligten Fachdidaktiken verfügen, was nicht nur unwahrscheinlich ist, sondern auch mit nur einer Frage nicht valide erfasst werden kann. Ebenso fiel die Frage zur systematischen Verknüpfung der Orientierungs- mit der Urteilskompetenz heraus. Ohne Kenntnis des Kerncurriculums Gesellschaftslehre, welche bei den Teilnehmer*innen nicht vorausgesetzt werden kann, lässt sich die Absicht dieser Frage nur schwer verstehen.

Neben den kritischen Anmerkungen validierten einige Teilnehmer*innen auch die bestehenden Fragen. So äußerte eine Teilnehmerin zu den grundlegenden historischen Unterrichtsprinzipien Multiperspektivität und Fremdverstehen, dass dies „typische Unterrichtsprinzipien“ und sie „gut gewählt“ sein. Es müsse „hier klingeln“, da man sonst „im Studium etwas falsch gemacht“ hätte. Die Beispiele der fachlichen Schülervorstellungen stießen auf Zustimmung. Die dahinterstehenden Vorstellungen wurden identifiziert. So sei laut Aussage eines Teilnehmers, dass Menschen vor allem aufgrund fehlenden Wissens rechtsextrem werden, „gefährliches Halbwissen“. Ein anderer gestand in Bezug auf die geografischen Fragen ein, selbst über „Halbwissen“ zu verfügen, dass er „erst einmal hinterfragen müsste“, wodurch eine erste Abgrenzung der Disziplinen deutlich wurde. Die Aufgabe, bei der Förderung der relevanten Kompetenzen die drei unterschiedlichen Anforderungsbereiche zu berücksichtigen sei „ja schön und konkret. Die kann man immer berücksichtigen.“

Häufig haben sich die Teilnehmer*innen gefragt, warum sie „das“ in Gesellschaftslehre „nicht können“ sollten. Es „klänge immer so, als sei es unmöglich“ Diese Reaktion war zu erwarten, da viele Items nicht Gesellschaftslehre-spezifisch sind bzw. sein können. Summative und formative Evaluationsinstrumente, das Vorwissen der Schüler*innen zu ermitteln oder sie zu motivieren, sind in allen Schulfächern vonnöten. Die methodisch orientierten Lernschwierigkeiten wie das Auswerten unterschiedlicher Medien oder das wissenschaftliche Arbeiten seien ferner „Universalkompetenzen, die man in jeder Didaktik mitkriegt“, bei denen „auch sofort Schwierigkeiten einfallen“ würden. Weitere kleinere Überarbeitungen betrafen neue Zwischenüberschriften, das Aufteilen zu großer Item-Batterien und das Layout der Frage nach den Abschlussnoten in den studierten Fächern. Der zugehörigen Fragebogen, wie er in der quantitativen Pilotierung zum Einsatz kam, ist in Anhang 9 im elektronischen Zusatzmaterial einsehbar.

5 Zusammenfassung und Limitationen

Die Prä-Pilotierung verfolgte das Ziel, Einsichten in die inneren Auseinandersetzungsprozesse mit den in der Entwicklung befindlichen Items zu gewinnen. Zentral war die Frage, wie und ob Angehörige unterschiedlicher Fachrichtungen die Items verstehen. Sie wurde im April und Mai 2017 mit sechs Göttinger Lehramtsstudent*innen und wissenschaftlichen Mitarbeiter*innen durchgeführt. Die Teilnehmer*innen wurden durch die Einführung in Design, Aufbau und Logik des Fragebogens sowie eine Aufwärmübung vorentlastet. Die Think-Aloud-Studie wurde aufgezeichnet. Ihre Ergebnisse flossen in die Überarbeitung des Fragebogens für den Einsatz in der Pilotierung ein.

Zusammenfassung

Die Rückmeldungen der Teilnehmer*innen ließen den Wunsch nach mehr Informationen und die Überforderung durch zu viele Informationen erkennen. Die Orientierungskompetenz des Kerncurriculums war weitestgehend unbekannt. Eine FußnoteFootnote 1 mit Stichworten zu den drei Schülerkompetenzen wurde daher eingefügt. Weiterhin wurde im einleitenden Text verdeutlicht, dass die Einschätzung des subjektiven Fachwissens und der fachdidaktischen Selbstwirksamkeit vor dem Hintergrund des aktuellen Kenntnis- und Fähigkeitsstandes geschehen soll. Teilweise überlegten die Teilnehmer*innen, ob sie die Einschätzung prognostisch für den Zeitpunkt nach Abschluss des Masterstudiums vornehmen sollten. Eine ehemalige Schülerin einer Integrierten Gesamtschule vermisste eine für die Schulform und damit auch für Gesellschaftslehre typische Leistungsbeurteilung. Mit den sogenannten Lernentwicklungsberichten können bis zur achten Klassenstufe die Ziffernnoten durch ausformulierte Texte ersetzt bzw. ergänzt werden. Ein entsprechendes ItemFootnote 2 wurde für den Faktor „Methoden der Leistungsbeurteilung“ formuliert. Ein geschichtsdidaktisches Beispiel für moderne fachdidaktische Zugänge und Methoden irritierte alle Teilnehmer*innen. Der Einsatz von Rap-Battles wurde daraufhin durch das Zeichnen einer Karikatur substituiert. Die Anzahl der Items auf manchen Seiten führte zu Ermüdungserscheinungen. Um die Teilnehmer*innen zu entlasten, wurden Item-Batterien aufgeteilt und Zwischenüberschriften ergänzt, die das Schriftbild auflockern. Auf die umfangreiche Definition des Fachs Gesellschaftslehre wurde ebenso verzichtet, wie auf die Abfrage, wie viele 45-Minuten-Stunden in Schulpraktika schon unterrichtet wurden. Die themenorientierten Lernfelder des Kerncurriculums waren nur der Teilnehmerin ein Begriff, die selber in Gesellschaftslehre unterrichtet wurde. Statt wie bei der Orientierungskompetenz Informationen zu ergänzen, wurde der Terminus gestrichen, da er für das Verständnis nicht notwendig war. Darüber hinaus wurden aus dem einleitenden Text zum „Horizontalen Curriculum“ und „Vertikalen Curriculum“ eine zusätzliche Herausforderung gelöscht. Die Lehramtsstudent*innen und Referendar*innen sollten angeben, ob sie es sich zutrauen, innerhalb einer Unterrichtseinheit bzw. über ein und mehrere Schuljahre hinweg die Orientierungs-, Urteils- und Handlungskompetenz der Schüler*innen systematisch zu trainieren. Dies außerdem „auf der Grundlage der Anforderungen des Kerncurriculums“ zu tun, erschien ein unrealistischer Maßstab zu sein. Gleichsam überfordernd wirkte ein Item zu den „Lernschwierigkeiten“, in dem es um die Zuversicht ging, die Schüler*innen zum selbstständigen Arbeiten mit Herangehensweisen aller beteiligten Fächer anzuleiten. Wer dies könne, müsste vollumfängliche Kenntnisse der drei Didaktiken besitzen. Es fand keine weitere Anwendung.

Obwohl nicht Ziel der Prä-Pilotierung, bewerteten die Teilnehmer*innen die ausgewählten Schülervorstellungen und Unterrichtsprinzipien ihres Studienfachs als treffend. Keine erwähnenswerten Probleme wurden beim subjektiven Fachwissen identifiziert. Die mit acht Items konzise Zusammenstellung zentraler Wissenselemente hätte jedoch um einige Fragen erweitert werden können, was sie im Anschluss an die Validierungsstudie (Kap. 9) auch wurde.

Limitationen

Die Anzahl der Notizen und Nachfragen, sowie die langen Auswertungsgespräche zeugen von der großen Ergiebigkeit der Think-Aloud-Studie. Die Fachperspektiven führten an vielen Stellen sowohl zu allgemeinen, wie eben auch fachspezifischen Anpassungen.

Der organisatorische Aufwand für Vorbereitung, Durchführung und Auswertung war indes nicht unerheblich. Die zentrale Einschränkung betrifft jedoch die Repräsentation der Disziplinen. Es konnten trotz wiederholter Werbung über verschiedene Kanäle – öffentliche Aushänge, E-Mails an Lehrpersonen der Fachdidaktik, Schneeballsystem – und dem Anbieten einer Aufwandsentschädigung keine Teilnehmer*innen mit Studienfach Geografie gewonnen werden. Aufgrund der „heavy reliance on a small number of participants for insights concerning question function, it is especially important to carefully recruit a wide variety of individuals to cover a range of possible reactions and interpretations“ (Willis, 2016, S. 363).

Die von Bühner (Bühner, 2011, S. 90) empfohlene Wiederholung nach der Überarbeitung entfiel aus Zeitgründen, ebenso wie das Transkribieren der Audioaufzeichnungen. Während einzelner Interviews musste nach Sinnabschnitten abgebrochen werden, um noch ausreichend Zeit für Nachfragen zu lassen. Die Teilnehmer*innen wussten über die Möglichkeit im Vorfeld Bescheid. Es wurde letztendlich eine Mischung aus concurring und retrospective probes, mit Schwerpunkt auf den Fragen nach dem Interview, eingesetzt. Insgesamt kann ein überwiegend positives Fazit gezogen werden. Diese Art der Fragebogenvorbereitung ist zu empfehlen, nicht zuletzt schon deshalb, weil „all that is really needed is a quiet place and an audio recorder“ (Willis & Artino, 2013, S. 356).