MISSION KI Portal

Name

BLEU

Beschreibung

Metrik zur Ähnlichkeit von Texten, benutzt zur Evaluierung von Freitextantworten in Benchmarks, in Kombination mit Benchmark zu verwenden

Task

Generative KI

Datenanf.

Modellausgaben mit Ground Truth und augmentierten oder neuen Eingabedaten

Modellzugriff

Inferenzzugang

Ergebnis

einzelne/mehrere reelle Zahlen

Automatisierbar

Tiefe

Basismethode

Verweise

Relevante Qualitätskriterien

Leistungsfähigkeit und Robustheit Menschliche Aufsicht

Relevante Indikatoren

MA2.3 VE1.2 VE1.4 VE1.5

Referenz

https://en.wikipedia.org/wiki/BLEU

Implementierungen

https://github.com/ncbi-nlp/BLUE_Benchmark

Prüfwerkzeuge & Frameworks

Azure Machine Learning, Moonshot, RAGAS, LangChain OpenEvals, Robustness Gym,