BLEU
Metrik zur Ähnlichkeit von Texten, benutzt zur Evaluierung von Freitextantworten in Benchmarks, in Kombination mit Benchmark zu verwenden
Generative KI
Modellausgaben mit Ground Truth und augmentierten oder neuen Eingabedaten
Inferenzzugang
einzelne/mehrere reelle Zahlen
ja
Basismethode
Verweise
https://en.wikipedia.org/wiki/BLEU
https://github.com/ncbi-nlp/BLUE_Benchmark
Azure Machine Learning, Moonshot, RAGAS, LangChain OpenEvals, Robustness Gym,