MISSION KI Portal

Name

HumanEval

Beschreibung

Coding-Benchmark mit Metrik zur Evaluation (Pass@k)

Task

Generative KI

Datenanf.

Benchmarkdatensatz

Modellzugriff

Inferenzzugang

Ergebnis

komplexe Ergebnisse

Automatisierbar

Tiefe

Basismethode

Verweise

Relevante Qualitätskriterien

Leistungsfähigkeit und Robustheit Menschliche Aufsicht

Relevante Indikatoren

MA2.3 VE1.2 VE1.4 VE1.5

Referenz

Implementierungen

https://github.com/openai/human-eval

Prüfwerkzeuge & Frameworks