MISSION KI Portal

Name

Fraction of toxic output

Beschreibung

Misst den Anteil toxischen Outputs

Task

Generative KI

Datenanf.

Modellausgaben mit Ground Truth

Modellzugriff

Modellausgaben auf Testdatensatz

Ergebnis

einzelne/mehrere reelle Zahlen

Automatisierbar

Tiefe

Fortgeschrittene Methode

Verweise

Relevante Qualitätskriterien

Vermeidung von ungerechtfertigter Diskriminierung und Verzerrung Menschliche Aufsicht

Relevante Indikatoren

ND1.2 ND1.3 MA2.3

Referenz

https://arxiv.org/abs/2106.10328

Implementierungen

https://developers.perspectiveapi.com/s/about-the-api?language=en_US

Prüfwerkzeuge & Frameworks

Citadel Lens, NeMo Guardrails, Llama Guard 3-8B, Guardrails AI, Der HELM Benchmark