Zusammenfassung
Testergebnisse von Schülerinnen und Schülern dienen regelmäßig als ein zentrales Kriterium für die Beurteilung der Effektivität von Schule und Unterricht. Gültige Rückschlüsse über Schule und Unterricht setzen voraus, dass die eingesetzten Testinstrumente mögliche Effekte des Unterrichts auffangen können, also instruktionssensitiv sind. Jedoch wird diese Voraussetzung nur selten empirisch überprüft. Somit bleibt mitunter unklar, ob ein Test nicht instruktionssensitiv oder ein Unterricht nicht effektiv war. Die Klärung dieser Frage erfordert die empirische Untersuchung der Instruktionssensitivität der eingesetzten Tests und Items.
Während die Instruktionssensitivität in den USA bereits seit Langem diskutiert wird, findet das Konzept im deutschsprachigen Diskurs bislang nur wenig Beachtung. Unsere Arbeit zielt daher darauf ab, das Konzept Instruktionssensitivität in den deutschsprachigen Diskurs über schulische Leistungsmessung einzubetten. Dazu werden drei Themenfelder behandelt, (a) der theoretische Hintergrund des Konzepts Instruktionssensitivität, (b) die Messung von Instruktionssensitivität sowie (c) die Identifikation von weiteren Forschungsbedarfen.
Abstract
Student performance in assessments is a criterion regularly used to determine the effectiveness of school and instruction. Valid interpretation requires that outcomes are affected by instruction to a significant degree. Hence, instruments need to be capable of detecting effects of instruction, that is, instruments need to be instructionally sensitive. However, the empirical investigation of the instructional sensitivity of tests and items is under-researched. In consequence, in many cases, it remains unclear whether teaching was ineffective, or the instrument was insensitive.
While there is a living discussion on the instructional sensitivity of tests and items in the USA, the concept of instructional sensitivity is rather unknown in German-speaking countries. Thus, the present study aims at (a) introducing the concept of instructional sensitivity, (b) providing an overview on current approaches of measuring instructional sensitivity, and (c) identifying further research directions.
Literatur
Airasian, P. W., & Madaus, G. F. (1983). Linking testing and instruction: policy issues. Journal of Educational Measurement, 20, 103–118.
Altrichter, H., Moosbrugger, M. R., & Zuber, M. J. (2016). Schul-und Unterrichtsentwicklung durch Datenrückmeldung. In H. Altrichter & K. Maag Merki (Hrsg.), Handbuch Neue Steuerung im Schulsystem (2. Aufl., S. 235–277). Wiesbaden: Springer.
American Educational Research Association, American Psychological Association, & National Council on Measurement in Education (2014). Standards for educational and psychological testing. Washington, DC.: AERA, APA, & NCME.
Anderson, L. W. (2002). Curricular alignment: a re-examination. Theory Into Practice, 41(4), 255–260.
Arnold, K.-H. (2005). Mehr Fairness im Bildungssystem. Fragen zu Standards und Vergleichsarbeiten. Friedrich-Jahresheft, 23, 25–27.
Baker, E. L. (1994). Making performance assessment work: the road ahead. Educational Leadership, 51(6), 58–62.
Baumert, J., Brunner, M., Lüdtke, O., & Trautwein, U. (2007). Was messen internationale Schulleistungsstudien? – Resultate kumulativer Wissenserwerbsprozesse. Eine Antwort auf Heiner Rindermann. Psychologische Rundschau, 58, 118–127.
Brühwiler, C. (2014). Adaptive Lehrkompetenz und schulisches Lernen: Effekte handlungssteuernder Kognitionen von Lehrpersonen auf Unterrichtsprozesse und Lernergebnisse der Schülerinnen und Schüler. Münster: Waxmann.
Burstein, L. (1989). Conceptual considerations in instructionally sensitive assessment. Paper presented at the Annual Meeting of the American Educational Research Association, San Francisco.
Chen, J. (2012). Impact of instructional sensitivity on high-stakes achievement test items: a comparison of methods. Lawrence: University of Kansas.
Clauser, B. E., Nungester, R. J., & Swaminathan, H. (1996). Improving the matching for DIF analysis by conditioning on both test score and an educational background variable. Journal of Educational Measurement, 33(4), 453–464.
Cox, R. C., & Vargas, J. S. (1966). A comparison of item-selection techniques for norm referenced and criterion referenced tests. Paper presented at the Annual Conference of the National Council on Measurement in Education, Chicago.
D’Agostino, J. V., Welsh, M. E., & Corson, N. M. (2007). Instructional sensitivity of a state standards-based assessment. Educational Assessment, 12, 1–22.
Decristan, J., Klieme, E., Kunter, M., Hochweber, J., Büttner, G., Fauth, B., & Hardy, I. (2015). Embedded formative assessment and classroom process quality: how do they interact in promoting science understanding? American Educational Research Journal, 52(6), 1133–1159.
DeMars, C. E. (2004). Detection of item parameter drift over multiple test administrations. Applied Measurement in Education, 17, 265–300.
Deutscher, V., & Winther, E. (2017). Instructional sensitivity in vocational education. Learning and Instruction. https://doi.org/10.1016/j.learninstruc.2017.07.004.
Drechsel, B., Prenzel, M., & Seidel, T. (2015). Nationale und internationale Schulleistungsstudien. In E. Wild & J. Möller (Hrsg.), Pädagogische Psychologie (S. 353–380). Berlin: Springer.
Fend, H. (2002). Mikro- und Makrofaktoren eines Angebot-Nutzungsmodells von Schulleistungen. Zum Stellenwert der Pädagogischen Psychologie bei der Erklärung von Schulleistungsunterschieden verschiedener Länder. Zeitschrift für Pädagogische Psychologie, 16(3/4), 141–149.
Fend, H. (2011). Die Wirksamkeit der Neuen Steuerung – theoretische und methodische Probleme ihrer Evaluation. Zeitschrift für Bildungsforschung, 1, 5–24.
Fischer, G. H. (1972). Conditional maximum-likelihood estimations of item parameters for a linear logistic test model. Research Bulletin 9. Vienna: University of Vienna, Psychological Institute.
Fischer, N., Sauerwein, M. N., Theis, D., & Wolgast, A. (2016). Vom Lesenlernen in der Ganztagsschule: Leisten Ganztagsangebote einen Beitrag zur Leseförderung am Beginn der Sekundarstufe I? Zeitschrift Für Pädagogik, 62(6), 780–796.
French, B. F., Finch, W. F., Randel, B., Hand, B., & Gotch, C. M. (2016). Measurement invariance techniques to enhance measurement sensitivity. International Journal of Quantitative Research in Education, 3, 79–93.
Geisinger, K. F., & McCormick, C. M. (2010). Adopting cut scores: post-standard-setting panel considerations for decision makers. Educational Measurement: Issues and Practice, 29(1), 38–44.
Greer, E. A. (1995). Examining the validity of a new large-scale reading assessment instrument from two perspectives. Urbana, IL: Center for the Study of Reading.
Grossman, P., Cohen, J., Ronfeldt, M., & Brown, L. (2014). The test matters: the relationship between classroom observation scores and teacher value added on multiple types of assessment. Educational Researcher, 43, 293–303.
Grünkorn, J., Klieme, E., & Stanat, P. (2018). Bildungsmonitoring und Qualitätssicherung. In O. Köller, M. Hasselhorn, F. W. Hesse, K. Maaz, J. Schrader, C. K. Spieß, H. Solga, & K. Zimmer (Hrsg.), Das Bildungswesen in Deutschland: Bestand und Potentiale. Bad Heilbrunn: UTB/Klinkhardt.
Haladyna, T. M. (2004). Developing and validating multiple-choice test items. Mahwah: Lawrence Erlbaum.
Haladyna, T. M., & Roid, G. H. (1981). The role of instructional sensitivity in the empirical review of criterion-referenced test items. Journal of Educational Measurement, 18, 39–53.
Hartig, J., Frey, A., & Jude, N. (2012). Validität. In H. Moosbrugger & A. Kelava (Hrsg.), Testtheorie und Fragebogenkonstruktion (2. Aufl., S. 143–171). Berlin: Springer.
Hartig, J., Klieme, E., & Leutner, D. (Hrsg.) (2008). Assessment of competencies in educational contexts. Göttingen: Hogrefe & Huber Publishers.
Hascher, T., & Schmitz, B. (Hrsg.) (2010). Pädagogische Interventionsforschung: Theoretische Grundlagen und empirisches Handlungswissen. Weinheim: Juventa.
Helmke, A. (2012). Unterrichtsqualität und Lehrerprofessionalität: Diagnose, Evaluation und Verbesserung des Unterrichts (4. Aufl.). Seelze: Klett.
Hochweber, J., Naumann, A., Hartig, J., Kleinbub, I., & Musow, S. (2017). Using item properties to predict the instructional sensitivity of test items. Paper presented at the 17th Biennial Conference of the European Association for Research on Learning and Instruction (EARLI), Tampere.
Holland, P. W., & Wainer, H. (Hrsg.) (1993). Differential item functioning: theory and practice. Hillsdale: Lawrence Erlbaum.
Ing, M. (2008). Using instructional sensitivity and instructional opportunities to interpret students’ mathematics performance. Journal of Educational Research & Policy Studies, 8, 23–43.
Kane, M. T. (2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement, 50, 1–73.
Klieme, E. (2008). Systemmonitoring für den Sprachunterricht. In DESI-Konsortium (Hrsg.), Unterricht und Kompetenzerwerb in Deutsch und Englisch: Ergebnisse der DESI-Studie (S. 1–10). Weinheim: Beltz.
Klieme, E., & Leutner, D. (2006). Kompetenzmodelle zur Erfassung individueller Lernergebnisse und zur Bilanzierung von Bildungsprozessen. Beschreibung eines neu eingerichteten Schwerpunktprogramms der DFG. Zeitschrift für Pädagogik, 52(6), 876–903.
Klieme, E., Pauli, C., & Reusser, K. (2009). The Pythagoras study: investigating effects of teaching and learning in Swiss and German mathematics classrooms. In T. Janík & T. Seidel (Hrsg.), The power of video studies in investigating teaching and learning in the classroom (S. 137–160). Münster: Waxmann.
Kosecoff, J. B., & Klein, S. P. (1974). Instructional sensitivity statistics appropriate for objectives-based test items. Paper presented at the Annual Conference of the National Council on Measurement in Education, Chicago.
Kultusministerkonferenz (2006). Gesamtstrategie der Kultusministerkonferenz zum Bildungsmonitoring. München: Wolters Kluwer.
Li, H., Qin, Q., & Lei, P.-W. (2016). An examination of the instructional sensitivity of the TIMSS math items: a hierarchical differential item functioning approach. Educational Assessment, 22(1), 1–17.
van der Linden, W. J. (1981). A latent trait look at pretest-posttest validation of criterion-referenced test items. Review of Educational Research, 51(3), 379–402.
Linn, R. L., & Harnisch, D. L. (1981). Interactions between item content and group membership on achievement test items. Journal of Educational Measurement, 18(2), 109–118.
Lossen, K., Tillmann, K., Holtappels, H. G., Rollett, W., & Hannemann, J. (2016). Entwicklung der naturwissenschaftlichen Kompetenzen und des sachunterrichtsbezogenen Selbstkonzepts bei Schüler/innen in Ganztagsgrundschulen: Ergebnisse der Längsschnittstudie StEG-P zu Effekten der Schülerteilnahme und der Angebotsqualität. Zeitschrift für Pädagogik, 62(6), 760–779.
Maag Merki, K. (2016). Theoretische und empirische Analysen der Effektivität von Bildungsstandards, standardbezogenen Lernstandserhebungen und zentralen Abschlussprüfungen. In H. Altrichter & K. Maag Merki (Hrsg.), Handbuch Neue Steuerung im Schulsystem (2. Aufl., S. 151–182). Wiesbaden: Springer.
McClung, M. S. (1979). Competency testing programs: legal and educational issues. Fordham Law Review, 47, 652–711.
Mehrens, W. A., & Phillips, S. E. (1987). Sensitivity of item difficulties to curricular validity. Journal of Educational Measurement, 24(4), 357–370.
Millman, J. (1970). Reporting student progress: a case for a criterion-referenced marking system. Phi Delta Kappan, 54(4), 226–230.
Musow, S., Naumann, A., Hartig, J., & Hochweber, J. (2018). Expertenratings – Ein Verfahrensvergleich zur Evaluation der Instruktionssensitivität von Testitems. Vortrag bei der 6. Tagung der Gesellschaft für Empirische Bildungsforschung (GEBF), Basel.
Muthén, B. O. (1989). Using item-specific instructional information in achievement modeling. Psychometrika, 54, 385–396.
Muthén, B. O., Kao, C.-F., & Burstein, L. (1991). Instructionally sensitive psychometrics: application of a new IRT-based detection technique to mathematics achievement test items. Journal of Educational Measurement, 28, 1–22.
Nagy, G., Retelsdorf, J., Goldhammer, F., Schiepe-Tiska, A., & Lüdtke, O. (2017). Veränderungen der Lesekompetenz von der 9. zur 10. Klasse: Differenzielle Entwicklungen in Abhängigkeit der Schulform, des Geschlechts und des soziodemografischen Hintergrunds? Zeitschrift für Erziehungswissenschaft, 2(20), 177–203.
Naumann, A., Hochweber, J., & Hartig, J. (2014). Modeling instructional sensitivity using a longitudinal multilevel differential item functioning approach. Journal of Educational Measurement, 51(4), 381–399.
Naumann, A., Hochweber, J., & Hartig, J. (2015). An explanatory longitudinal multilevel IRT approach to instructional sensitivity. Paper presented at the Annual Meeting of the National Council on Measurement in Education (NCME), Chicago.
Naumann, A., Hochweber, J., & Klieme, E. (2016). A psychometric framework for the evaluation of instructional sensitivity. Educational Assessment, 21(2), 1–13.
Naumann, A., Hartig, J., & Hochweber, J. (2017). Absolute and relative measures of instructional sensitivity. Journal of Educational and Behavioral Statistics, 42(6), 678–705.
Pellegrino, J. W. (2002). Knowing what students know. Issues in Science & Technology, 19(2), 48–52.
Polikoff, M. S. (2010). Instructional sensitivity as a psychometric property of assessments. Educational Measurement: Issues and Practice, 29(4), 3–14.
Polikoff, M. S. (2016). Evaluating the Instructional Sensitivity of Four States’ Student Achievement Tests. Educational Assessment, 21(2), 102–119.
Polikoff, M. S., & Porter, A. C. (2014). Instructional alignment as a measure of teaching quality. Educational Evaluation and Policy Analysis, 36(4), 399–416.
Popham, W. J. (2007). Instructional insensitivity of tests: accountability’s dire drawback. Phi Delta Kappan, 89(2), 146–155.
Popham, J. W., & Ryan, J. M. (2012). Determining a high-stakes test’s instructional sensitivity. Paper presented at the Annual Conference of the National Council on Measurement in Education, Vancouver.
Porter, A. C. (2002). Measuring the content of instruction: uses in research and practice. Educational Researcher, 31(7), 3–14.
Ramsteck, C., & Maier, U. (2015). Testdatenbasierte Schul-und Unterrichtsentwicklung. Analyse von Handlungsmustern bei der Rezeption und Nutzung von Vergleichsarbeitsdaten. In J. Schrader, J. Schmid, K. Amos, & A. Thiel (Hrsg.), Governance von Bildung im Wandel (S. 119–144). Wiesbaden: Springer.
Raudenbush, S. W., & Bryk, A. S. (2002). Hierarchical linear models: applications and data analysis methods. Thousand Oaks: SAGE.
Rindermann, H. (2006). Was messen internationale Schulleistungsstudien? Schulleistungen, Schülerfähigkeiten, kognitive Fähigkeiten, Wissen oder allgemeine Intelligenz? Psychologische Rundschau, 57(2), 69–86.
Robitzsch, A. (2009). Methodische Herausforderungen bei der Kalibrierung von Leistungstests. In D. Granzer, O. Köller, & A. Bremerich-Vos (Hrsg.), Bildungsstandards Deutsch und Mathematik (S. 42–106). Weinheim: Beltz.
Ruiz-Primo, M. A., Shavelson, R. J., Hamilton, L., & Klein, S. (2002). On the evaluation of systemic science education reform: searching for instructional sensitivity. Journal of Research in Science Teaching, 39(5), 369–393.
Ruiz-Primo, M. A., Li, M., Wills, K., Giamellaro, M., Lan, M.-C., Mason, H., & Sands, D. (2012). Developing and evaluating instructionally sensitive assessments in science. Journal of Research in Science Teaching, 49(6), 691–712.
Spoden, C., & Leutner, D. (2011). Vergleichsarbeiten. URN: urn:nbn:de:0111-pedocs-107492
Stanat, P., & Pant, H.-A. (2016). Die IQB-Bildungstrends als zentrales Element des Bildungsmonitorings. In D. P. Stanat, K. Böhme, S. Schipolowski, & N. Haag (Hrsg.), IQB-Bildungstrend 2015. Sprachliche Kompetenzen am Ende der 9. Jahrgangsstufe im zweiten Ländervergleich (S. 13–19). Münster: Waxmann.
United States Court of Appeals, fifth Circuit. (1981). DEBRA P. v. Ralph D. TURLINGTON (Nr. No. 79-3074).
Weinert, F. E. (2001). Leistungsmessungen in Schulen. Weinheim: Beltz.
Yoon, B., & Resnick, L. B. (1998). Instructional validity, opportunity to learn, and equity: New standards examinations for the California Mathematics Renaissance. Los Angeles: Center for the Study of Evaluation.
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
About this article
Cite this article
Naumann, A., Musow, S., Aichele, C. et al. Instruktionssensitivität von Tests und Items. Z Erziehungswiss 22, 181–202 (2019). https://doi.org/10.1007/s11618-018-0832-0
Published:
Issue Date:
DOI: https://doi.org/10.1007/s11618-018-0832-0