„Das Sprachmodell GPT von OpenAI zeigt eine zu menschlichen Prüferinnen und Prüfern ähnliche Leistung beim Einordnen von Freitextantworten. (…) Die Forschenden plädieren dafür, Prüfungsaufgaben weiterhin eng von Menschen begleiten zu lassen. Als kritische Zweitprüferin sei KI aber durchaus geeignet.“

„Wenn das KI-Modell eine Rangfolge der Textantworten nach Korrektheit und Vollständigkeit erstellen sollte – im Sinne von: die beste, zweitbeste oder schlechteste Antwort -, erreichte GPT eine vergleichbare Leistung zu menschlichen Prüferinnen und Prüfern.“

„Bei der Bewertung der Textantworten nach einem Punktesystem schnitt das KI-Modell qualitativ etwas schlechter ab. Tendenziell bewertete GPT großzügiger als die Menschen, zum Teil um fast eine ganze Note.“

Quelle