Machine Learning im Bildungskontext : Evidenz für die Genauigkeit der automatisierten Beurteilung von Essays im Fach Englisch. / Meyer, Jennifer; Jansen, Thorben; Fleckenstein, Johanna et al.
In: Zeitschrift für Pädagogische Psychologie, 10.12.2020.Research output: Contribution to journal › Journal article › Research › peer-review
}
TY - JOUR
T1 - Machine Learning im Bildungskontext
T2 - Evidenz für die Genauigkeit der automatisierten Beurteilung von Essays im Fach Englisch
AU - Meyer, Jennifer
AU - Jansen, Thorben
AU - Fleckenstein, Johanna
AU - Keller, Stefan
AU - Köller, Olaf
PY - 2020/12/10
Y1 - 2020/12/10
N2 - Argumentatives Schreiben ist eine bedeutsame Kompetenz in der Fremdsprache Englisch. Entsprechende Schreibaufgaben sind Teil von Schulabschlussprüfungen in der Sekundarstufe II und von Zugangstests für Hochschulen (z.B. TOEFL®). Trotz ihrer Bedeutsamkeit wurden diese komplexen Schreibleistungen bisher im Kontext großer Schulleistungsuntersuchungen kaum empirisch untersucht. Ein Grund dafür ist die aufwendige Auswertung der Essays, für die eine große Anzahl speziell trainierter Kodiererinnen und Kodierer zur Beurteilung benötigt wird. Um den Aufwand der Auswertung zu reduzieren, können Machine Learning Verfahren eingesetzt werden, welche die Urteile der Kodiererinnen und Kodierer approximieren. Dabei werden linguistische Eigenschaften der Essays automatisiert erfasst, die dann genutzt werden, um mit Hilfe von statistischen Verfahren des maschinellen Lernens die menschlichen Urteile vorherzusagen. In der vorliegenden Arbeit soll dieses Vorgehen dargestellt und das Potenzial solcher automatisierten Prozeduren in Bezug auf die Vorhersagegenauigkeit untersucht werden. Dazu lagen Texte von N = 2179 Schülerinnen und Schülern der 11. Jahrgangsstufe in Deutschland und der Schweiz vor. Zur Kodierung der Texte wurde die open source-Software The Common Text Analysis Platform (CTAP) eingesetzt, die linguistische Textmerkmale automatisch kodiert. Auf Basis dieser Textmerkmale wurden die vorliegenden Urteile von trainierten Kodiererinnen und Kodierern des Educational Testing Service (ETS) vorhersagt. Die Genauigkeit der Vorhersage erwies sich als zufriedenstellend (r = .75; Anteil genauer Übereinstimmung: 42%) und konnte im Vergleich mit einer etablierten kommerziellen Software des ETS (e-rater®; r = .81; Anteil genauer Übereinstimmung: 42%) bestehen. Es wurden vergleichbare Ergebnisse für die lineare Regression sowie Gradient Boosting als Analysestrategien zur Vorhersage der menschlichen Urteile gefunden. Möglichkeiten und Limitationen der automatisierten Textbeurteilung und deren Anwendung in Forschung und Praxis werden diskutiert.
AB - Argumentatives Schreiben ist eine bedeutsame Kompetenz in der Fremdsprache Englisch. Entsprechende Schreibaufgaben sind Teil von Schulabschlussprüfungen in der Sekundarstufe II und von Zugangstests für Hochschulen (z.B. TOEFL®). Trotz ihrer Bedeutsamkeit wurden diese komplexen Schreibleistungen bisher im Kontext großer Schulleistungsuntersuchungen kaum empirisch untersucht. Ein Grund dafür ist die aufwendige Auswertung der Essays, für die eine große Anzahl speziell trainierter Kodiererinnen und Kodierer zur Beurteilung benötigt wird. Um den Aufwand der Auswertung zu reduzieren, können Machine Learning Verfahren eingesetzt werden, welche die Urteile der Kodiererinnen und Kodierer approximieren. Dabei werden linguistische Eigenschaften der Essays automatisiert erfasst, die dann genutzt werden, um mit Hilfe von statistischen Verfahren des maschinellen Lernens die menschlichen Urteile vorherzusagen. In der vorliegenden Arbeit soll dieses Vorgehen dargestellt und das Potenzial solcher automatisierten Prozeduren in Bezug auf die Vorhersagegenauigkeit untersucht werden. Dazu lagen Texte von N = 2179 Schülerinnen und Schülern der 11. Jahrgangsstufe in Deutschland und der Schweiz vor. Zur Kodierung der Texte wurde die open source-Software The Common Text Analysis Platform (CTAP) eingesetzt, die linguistische Textmerkmale automatisch kodiert. Auf Basis dieser Textmerkmale wurden die vorliegenden Urteile von trainierten Kodiererinnen und Kodierern des Educational Testing Service (ETS) vorhersagt. Die Genauigkeit der Vorhersage erwies sich als zufriedenstellend (r = .75; Anteil genauer Übereinstimmung: 42%) und konnte im Vergleich mit einer etablierten kommerziellen Software des ETS (e-rater®; r = .81; Anteil genauer Übereinstimmung: 42%) bestehen. Es wurden vergleichbare Ergebnisse für die lineare Regression sowie Gradient Boosting als Analysestrategien zur Vorhersage der menschlichen Urteile gefunden. Möglichkeiten und Limitationen der automatisierten Textbeurteilung und deren Anwendung in Forschung und Praxis werden diskutiert.
U2 - 10.1024/1010-0652/a000296
DO - 10.1024/1010-0652/a000296
M3 - Artikel in Fachzeitschrift
JO - Zeitschrift für Pädagogische Psychologie
JF - Zeitschrift für Pädagogische Psychologie
SN - 1010-0652
ER -
ID: 1439912