MISSION KI Portal

Prüfkriterien
Indikatoren
VE1.2

Indikator

VE1.2

Beschreibung

Es müssen geeignete Metriken und Tests definiert werden, um zu bewerten, ob die Leistung des KI-Systems die beabsichtigte Funktionsweise realisiert.

Qualitätsdimension

Verlässlichkeit

Kriterium

Leistungsfähigkeit und Robustheit

Typ

Analyse

Bezugsebene

Komponente

Zusätzliche Informationen

Bei Verwendung von Modellen externer Anbieter Dokumentationen und klare Begründungen zur Validierung bereitstellen Die beabsichtigte Funktionsweise sollte sich aus dem Verwendungszweck und Anwendungsbereich ergeben. Unterscheidung zwischen Basismethoden und fortgeschrittene Methoden: - In der "Technische Prüfmethodensammlung.xlsx" sind einige gängige Methoden gelistet und in Basis- und fortgeschrittene Methoden kategorisiert - Selbst entwickelte Testmethoden werden als fortgeschrittene Methoden anerkannt Die ausgewählten Metriken und Tests sollten wenn möglich einen hohen Grad der Automatisierung erlauben

Verknüpfung

Relevante technische Prüfmethoden

Accuracy Recall Precision F1-Score False Positive Rate False Negative Rate True Positive Rate True Negative Rate False Omission Rate Matthews correlation coeffictient ROC-AUC Calibration Error Brier Score Cohen Kappa score R2 RMSE MAE MAPE mAP IoU mIoU Panoptic Quality Mutual information score Homogeneity Score Silhouette Score Mahalanobis Distance Wasserstein metric DICE Score HOTA (Higher Order Tracking Accuracy)MMLU BoolQ OpenBookQA TruthfulQA HellaSwag QuAC NaturalQuestions NarrativeQA XSUM CNN/DailyMail IMDB RAFT GSM8K MATH APPS LSAT HumanEval LegalBench Data imputation ROUGE BLEU Structural similarity index measure (SSIM)Fréchet Inception Distance (FID)Inception Score CIDEr: Consensus-based Image Description Evaluation Cosine Similartiy CLIP Image Quality Assessment CLIP score Signal-to-Noise Ratio (SNR)Perceptual evaluation of Speech Quality (PESQ)Short-Time Objective Intelligibility (STOI)Fuzzy Testing Neuron Coverage Out-of-distribution (OOD) generalization Monte Carlo Dropout

→ In Tabelle anzeigen

Observablen

Qualitätslevels A bis D

Analyse - Metriken / Schwellenwerte [Leistungsfähigkeit]
Durch den Anwendungsbereich begründete Auswahl und Anzahl an Metriken und Tests, je nach Nutzen möglichst unterschiedlicher Kategorien. Dies schließt ein:

statistische Auswertung des KI-Modells oder empirische Auswertung der Systemfunktionalität auf das gesamte KI-System z.B. im Sinne von Nutzerexperimenten oder Befragungen
abhängig vom KI-Modell gewählte passende Methoden zur Unsicherheitsbestimmung oder die Nutzung probabilistischer KI- Modellarchitekturen; Metriken für Kalibrierung von Unsicherheitsbestimmung (z.B. über Konfidenzwerte)

Die ausgewählten Metriken und Tests sollten möglichst die folgenden Merkmale und Rahmenbedingungen aufweisen:

Methoden sollten für jedes KI-Modell im und für das KI-System als Ganzes angewendet werden, falls dieses einen gesammelten Output erzeugt
wenn durch die Auswahl begründet, sollten die Metriken und Tests sowohl Basismethoden (simple Metrik) und einige fortgeschrittene Methoden (hinsichtlich Informationsgehalt, Aussagekräftigkeit, Implementierungsaufwand, z.B. umfangreiches Prüfwerkzeug - siehe zusätzliche Information) umfassen
Festlegung von Schwellenwerten (als Mindestanforderungen an die Funktionalität/Leistung) und Begründung der Schwellenwerte unter Berücksichtigung des Anwendungsbereichs und Verwendungszwecks (falls anwendbar: Abstufung der Metriken und Schwellenwerte nach unterschiedlichen Einsatzszenarien mit Bezug zur Definition des Anwendungsbereichs)

Die Begründung der Metriken, Tests und Methoden geht auf folgende Aspekte ein:

Anwendungsbereich, Zweck des KI-Systems,
Modelltyp,
Zusammensetzung des KI-Systems (d.h., Zusammenspiel der Komponenten bzw. Zusammenhang von ML-Modell und Gesamtsystem), Aufgabenbereich der KI-Systems (z.B. Klassifikation vs. Regression)

statistische Auswertung des KI-Modells oder empirische Auswertung der Systemfunktionalität auf das gesamte KI-System z.B. im Sinne von Nutzerexperimenten oder Befragungen
abhängig vom KI-Modell gewählte passende Methoden zur Unsicherheitsbestimmung oder die Nutzung probabilistischer KI- Modellarchitekturen; Metriken für Kalibrierung von Unsicherheitsbestimmung (z.B. über Konfidenzwerte)

Die ausgewählten Metriken und Tests sollten möglichst die folgenden Merkmale und Rahmenbedingungen aufweisen:

Methoden sollten für jedes KI-Modell im und für das KI-System als Ganzes angewendet werden, falls dieses einen gesammelten Output erzeugt
wenn durch die Auswahl begründet, sollten die Metriken und Tests sowohl Basismethoden (simple Metrik) und einige fortgeschrittene Methoden (hinsichtlich Informationsgehalt, Aussagekräftigkeit, Implementierungsaufwand, z.B. umfangreiches Prüfwerkzeug - siehe zusätzliche Information) umfassen
Festlegung von Schwellenwerten (als Mindestanforderungen an die Funktionalität/Leistung) und Begründung der Schwellenwerte unter Berücksichtigung des Anwendungsbereichs und Verwendungszwecks

Die Begründung der Metriken, Tests und Methoden geht auf folgende Aspekte ein:

Anwendungsbereich, Zweck des KI-Systems,
Modelltyp,
Zusammensetzung des KI-Systems (d.h., Zusammenspiel der Komponenten bzw. Zusammenhang von ML-Modell und Gesamtsystem), Aufgabenbereich der KI-Systems (z.B. Klassifikation vs. Regression)

Analyse - Metriken / Schwellenwerte [Leistungsfähigkeit]
Durch den Anwendungsbereich begründete Auswahl und Anzahl an Metriken und Tests. Dies schließt je nach KI- Modell mindestes eine Methode ein aus:

statistische Auswertung des KI-Modells oder empirische Auswertung der Systemfunktionalität auf das gesamte KI-System z.B. im Sinne von Nutzerexperimenten oder Befragungen

Die ausgewählten Metriken und Tests sollten möglichst die folgenden Merkmale und Rahmenbedingungen aufweisen:

Methoden können entweder für jedes KI-Modell oder für das KI-System als Ganzes angewendet werden, je nachdem, was sinnvoller und machbar ist
Es genügen Basismethoden (hinsichtlich Informationsgehalt, Aussagekräftigkeit, Implementierungsaufwand, z.B. umfangreiches Prüfwerkzeug - siehe zusätzliche Information)
Festlegung von Schwellenwerten (als Mindestanforderungen an die Funktionalität/Leistung) und Begründung der Schwellenwerte unter Berücksichtigung des Anwendungsbereichs und Verwendungszwecks

Die Begründung der Metriken, Tests und Methoden geht auf mindestens einen der folgenden Aspekte ein:

Anwendungsbereich, Zweck des KI-Systems,
Modelltyp,
Zusammensetzung des KI-Systems (d.h., Zusammenspiel der Komponenten bzw. Zusammenhang von ML-Modell und Gesamtsystem), Aufgabenbereich der KI-Systems (z.B. Klassifikation vs. Regression)

Es wurden systematisch keine Metriken oder Tests festgelegt, die zur Untersuchung der Leistungsfähigkeit des Systems dienen.