Standard

Machine Learning im Bildungskontext : Evidenz für die Genauigkeit der automatisierten Beurteilung von Essays im Fach Englisch. / Meyer, Jennifer; Jansen, Thorben; Fleckenstein, Johanna et al.

In: Zeitschrift für Pädagogische Psychologie, 10.12.2020.

Research output: Contribution to journalJournal articleResearchpeer-review

Harvard

APA

Vancouver

Author

Meyer, Jennifer ; Jansen, Thorben ; Fleckenstein, Johanna et al. / Machine Learning im Bildungskontext : Evidenz für die Genauigkeit der automatisierten Beurteilung von Essays im Fach Englisch. In: Zeitschrift für Pädagogische Psychologie. 2020.

BibTeX

@article{776ddd3fa96e4b50a6c78cc0120ff1bb,
title = "Machine Learning im Bildungskontext: Evidenz f{\"u}r die Genauigkeit der automatisierten Beurteilung von Essays im Fach Englisch",
abstract = "Argumentatives Schreiben ist eine bedeutsame Kompetenz in der Fremdsprache Englisch. Entsprechende Schreibaufgaben sind Teil von Schulabschlusspr{\"u}fungen in der Sekundarstufe II und von Zugangstests f{\"u}r Hochschulen (z.B. TOEFL{\textregistered}). Trotz ihrer Bedeutsamkeit wurden diese komplexen Schreibleistungen bisher im Kontext gro{\ss}er Schulleistungsuntersuchungen kaum empirisch untersucht. Ein Grund daf{\"u}r ist die aufwendige Auswertung der Essays, f{\"u}r die eine gro{\ss}e Anzahl speziell trainierter Kodiererinnen und Kodierer zur Beurteilung ben{\"o}tigt wird. Um den Aufwand der Auswertung zu reduzieren, k{\"o}nnen Machine Learning Verfahren eingesetzt werden, welche die Urteile der Kodiererinnen und Kodierer approximieren. Dabei werden linguistische Eigenschaften der Essays automatisiert erfasst, die dann genutzt werden, um mit Hilfe von statistischen Verfahren des maschinellen Lernens die menschlichen Urteile vorherzusagen. In der vorliegenden Arbeit soll dieses Vorgehen dargestellt und das Potenzial solcher automatisierten Prozeduren in Bezug auf die Vorhersagegenauigkeit untersucht werden. Dazu lagen Texte von N = 2179 Sch{\"u}lerinnen und Sch{\"u}lern der 11. Jahrgangsstufe in Deutschland und der Schweiz vor. Zur Kodierung der Texte wurde die open source-Software The Common Text Analysis Platform (CTAP) eingesetzt, die linguistische Textmerkmale automatisch kodiert. Auf Basis dieser Textmerkmale wurden die vorliegenden Urteile von trainierten Kodiererinnen und Kodierern des Educational Testing Service (ETS) vorhersagt. Die Genauigkeit der Vorhersage erwies sich als zufriedenstellend (r = .75; Anteil genauer {\"U}bereinstimmung: 42%) und konnte im Vergleich mit einer etablierten kommerziellen Software des ETS (e-rater{\textregistered}; r = .81; Anteil genauer {\"U}bereinstimmung: 42%) bestehen. Es wurden vergleichbare Ergebnisse f{\"u}r die lineare Regression sowie Gradient Boosting als Analysestrategien zur Vorhersage der menschlichen Urteile gefunden. M{\"o}glichkeiten und Limitationen der automatisierten Textbeurteilung und deren Anwendung in Forschung und Praxis werden diskutiert.",
author = "Jennifer Meyer and Thorben Jansen and Johanna Fleckenstein and Stefan Keller and Olaf K{\"o}ller",
year = "2020",
month = dec,
day = "10",
doi = "10.1024/1010-0652/a000296",
language = "Deutsch",
journal = "Zeitschrift f{\"u}r P{\"a}dagogische Psychologie",
issn = "1010-0652",
publisher = "Hogrefe Verlag",

}

RIS

TY - JOUR

T1 - Machine Learning im Bildungskontext

T2 - Evidenz für die Genauigkeit der automatisierten Beurteilung von Essays im Fach Englisch

AU - Meyer, Jennifer

AU - Jansen, Thorben

AU - Fleckenstein, Johanna

AU - Keller, Stefan

AU - Köller, Olaf

PY - 2020/12/10

Y1 - 2020/12/10

N2 - Argumentatives Schreiben ist eine bedeutsame Kompetenz in der Fremdsprache Englisch. Entsprechende Schreibaufgaben sind Teil von Schulabschlussprüfungen in der Sekundarstufe II und von Zugangstests für Hochschulen (z.B. TOEFL®). Trotz ihrer Bedeutsamkeit wurden diese komplexen Schreibleistungen bisher im Kontext großer Schulleistungsuntersuchungen kaum empirisch untersucht. Ein Grund dafür ist die aufwendige Auswertung der Essays, für die eine große Anzahl speziell trainierter Kodiererinnen und Kodierer zur Beurteilung benötigt wird. Um den Aufwand der Auswertung zu reduzieren, können Machine Learning Verfahren eingesetzt werden, welche die Urteile der Kodiererinnen und Kodierer approximieren. Dabei werden linguistische Eigenschaften der Essays automatisiert erfasst, die dann genutzt werden, um mit Hilfe von statistischen Verfahren des maschinellen Lernens die menschlichen Urteile vorherzusagen. In der vorliegenden Arbeit soll dieses Vorgehen dargestellt und das Potenzial solcher automatisierten Prozeduren in Bezug auf die Vorhersagegenauigkeit untersucht werden. Dazu lagen Texte von N = 2179 Schülerinnen und Schülern der 11. Jahrgangsstufe in Deutschland und der Schweiz vor. Zur Kodierung der Texte wurde die open source-Software The Common Text Analysis Platform (CTAP) eingesetzt, die linguistische Textmerkmale automatisch kodiert. Auf Basis dieser Textmerkmale wurden die vorliegenden Urteile von trainierten Kodiererinnen und Kodierern des Educational Testing Service (ETS) vorhersagt. Die Genauigkeit der Vorhersage erwies sich als zufriedenstellend (r = .75; Anteil genauer Übereinstimmung: 42%) und konnte im Vergleich mit einer etablierten kommerziellen Software des ETS (e-rater®; r = .81; Anteil genauer Übereinstimmung: 42%) bestehen. Es wurden vergleichbare Ergebnisse für die lineare Regression sowie Gradient Boosting als Analysestrategien zur Vorhersage der menschlichen Urteile gefunden. Möglichkeiten und Limitationen der automatisierten Textbeurteilung und deren Anwendung in Forschung und Praxis werden diskutiert.

AB - Argumentatives Schreiben ist eine bedeutsame Kompetenz in der Fremdsprache Englisch. Entsprechende Schreibaufgaben sind Teil von Schulabschlussprüfungen in der Sekundarstufe II und von Zugangstests für Hochschulen (z.B. TOEFL®). Trotz ihrer Bedeutsamkeit wurden diese komplexen Schreibleistungen bisher im Kontext großer Schulleistungsuntersuchungen kaum empirisch untersucht. Ein Grund dafür ist die aufwendige Auswertung der Essays, für die eine große Anzahl speziell trainierter Kodiererinnen und Kodierer zur Beurteilung benötigt wird. Um den Aufwand der Auswertung zu reduzieren, können Machine Learning Verfahren eingesetzt werden, welche die Urteile der Kodiererinnen und Kodierer approximieren. Dabei werden linguistische Eigenschaften der Essays automatisiert erfasst, die dann genutzt werden, um mit Hilfe von statistischen Verfahren des maschinellen Lernens die menschlichen Urteile vorherzusagen. In der vorliegenden Arbeit soll dieses Vorgehen dargestellt und das Potenzial solcher automatisierten Prozeduren in Bezug auf die Vorhersagegenauigkeit untersucht werden. Dazu lagen Texte von N = 2179 Schülerinnen und Schülern der 11. Jahrgangsstufe in Deutschland und der Schweiz vor. Zur Kodierung der Texte wurde die open source-Software The Common Text Analysis Platform (CTAP) eingesetzt, die linguistische Textmerkmale automatisch kodiert. Auf Basis dieser Textmerkmale wurden die vorliegenden Urteile von trainierten Kodiererinnen und Kodierern des Educational Testing Service (ETS) vorhersagt. Die Genauigkeit der Vorhersage erwies sich als zufriedenstellend (r = .75; Anteil genauer Übereinstimmung: 42%) und konnte im Vergleich mit einer etablierten kommerziellen Software des ETS (e-rater®; r = .81; Anteil genauer Übereinstimmung: 42%) bestehen. Es wurden vergleichbare Ergebnisse für die lineare Regression sowie Gradient Boosting als Analysestrategien zur Vorhersage der menschlichen Urteile gefunden. Möglichkeiten und Limitationen der automatisierten Textbeurteilung und deren Anwendung in Forschung und Praxis werden diskutiert.

U2 - 10.1024/1010-0652/a000296

DO - 10.1024/1010-0652/a000296

M3 - Artikel in Fachzeitschrift

JO - Zeitschrift für Pädagogische Psychologie

JF - Zeitschrift für Pädagogische Psychologie

SN - 1010-0652

ER -

ID: 1439912