October 29, 2025 1 Min. Lesezeit

Reflections on the Reproducibility of Commercial LLM Performance in Empirical Software Engineering Studies

Zusammenfassung

Large Language Models haben sowohl in der Industrie als auch in der Wissenschaft bemerkenswertes Interesse geweckt. Die Durchführung empirischer Studien mit LLMs bleibt jedoch herausfordernd und wirft Fragen auf, wie reproduzierbare Ergebnisse erzielt werden können.

Wir untersuchten 85 Artikel, die LLM-zentrierte Studien beschreiben und auf der ICSE 2024 und ASE 2024 veröffentlicht wurden. Von den 85 Artikeln stellten 18 Forschungsartefakte bereit und verwendeten OpenAI-Modelle. Wir versuchten, diese 18 Studien zu replizieren – nur fünf waren hinreichend vollständig und ausführbar. Bei keiner der fünf Studien konnten wir die Ergebnisse vollständig reproduzieren.

Unsere Ergebnisse unterstreichen die Notwendigkeit strengerer Evaluierungen von Forschungsartefakten und robusterer Studiendesigns, um den reproduzierbaren Wert zukünftiger Publikationen zu gewährleisten.

DOI PDF herunterladen