VE1.3
Es müssen geeignete Metriken und Tests definiert werden, um zu bewerten, ob die Robustheit des KI-Systems die beabsichtigte Funktionsweise realisiert.
Verlässlichkeit
Leistungsfähigkeit und Robustheit
Analyse
Komponente
Die beabsichtigte Funktionsweise sollte sich aus dem Verwendungszweck und Anwendungsbereich ergeben. Die Begründung der Metriken geht auf zum Beispiel auf folgende Aspekte ein: - Anwendungsbereich, Zweck des KI-Systems, - Modelltyp, - Zusammensetzung des KI-Systems (d.h., Zusammenspiel der Komponenten bzw. Zusammenhang von ML-Modell und Gesamtsystem), - ML-Task (Classification/Regression/Generation/Unsupervised (z.B. Clustering, Anomaly Detection…)/Reinforcement Learning etc.) Für die statistische Auswertung: falls vorhanden auf etablierten Benchmark-Datensätzen, z.B. mit passenden Augmentierungen zur Abdeckung von Robustheitstests Unterscheidung zwischen Basismethoden und fortgeschrittene Methoden: - In der "Technische Prüfmethodensammlung.xlsx" sind einige gängige Methoden gelistet und in Basis- und fortgeschrittene Methoden kategorisiert - Selbst entwickelte Testmethoden werden als fortgeschrittene Methoden anerkannt Die ausgewählten Metriken und Tests sollten wenn möglich einen hohen Grad der Automatisierung erlauben

Observablen

Qualitätslevels A bis D

Analyse - Metriken / Schwellenwerte [Robustheit]

Durch den Anwendungsbereich begründete Auswahl und Anzahl an Metriken, Tests und Methoden zur Analyse der Robustheit des Systems, je nach Nutzen möglichst unterschiedlicher Kategorien. Dies schließt ein:

  • statistische Auswertung der Robustheit des KI-Modells. z.B. zur Bestimmung von Edge-Cases oder empirische Auswertung der Systemfunktionalität z.B. im Sinne von Experimenten zu Extrembedingungen
  • abhängig vom KI-Modell gewählte passende Methoden zur Unsicherheitsbestimmung oder die Nutzung probabilistischer KI- Modellarchitekturen; Metriken für Kalibrierung von Unsicherheitsbestimmung z.B. zur Bewertung von Outliereffekten
  • Detektion von fehlerhaften Eingaben oder Fehlfunktionen auf Modellebene

Die ausgewählten Metriken und Tests sollten mindestens die folgenden Merkmale aufweisen:

  • Methoden sollten für jedes KI-Modell im und für das KI-System als Ganzes angewendet werden, falls dieses einen gesammelten Output erzeugt
  • wenn durch die Auswahl begründet, sollten die Metriken und Tests sowohl Basismethoden (simple Metrik) und einige fortgeschrittene Methoden (hinsichtlich Informationsgehalt, Aussagekräftigkeit, Implementierungsaufwand, z.B. umfangreiches Prüfwerkzeug - siehe zusätzliche Information) umfassen
  • Festlegung von Schwellenwerten (als Mindestanforderungen an die Robustheit) und Begründung der Schwellenwerte unter Berücksichtigung des Anwendungsbereichs und Verwendungszwecks (falls anwendbar: Abstufung der Metriken und Schwellenwerte nach unterschiedlichen Einsatzszenarien mit Bezug zur Definition des Anwendungsbereichs)

Die Begründung der Metriken, Tests und Methoden geht auf folgende Aspekte ein:

  • Anwendungsbereich, Zweck des KI-Systems,
  • Modelltyp,
  • Zusammensetzung des KI-Systems (d.h., Zusammenspiel der Komponenten bzw. Zusammenhang von ML-Modell und Gesamtsystem), Aufgabenbereich der KI-Systems (z.B. Klassifikation vs. Regression)

Analyse - Metriken / Schwellenwerte [Robustheit]

Durch den Anwendungsbereich begründete Auswahl und Anzahl an Metriken und Tests, je nach Nutzen möglichst unterschiedlicher Kategorien. Dies schließt ein:

  • statistische Auswertung des KI-Modells oder empirische Auswertung der Systemfunktionalität auf das gesamte KI-System z.B. im Sinne von Nutzerexperimenten oder Befragungen
  • abhängig vom KI-Modell gewählte passende Methoden zur Unsicherheitsbestimmung oder die Nutzung probabilistischer KI- Modellarchitekturen; Metriken für Kalibrierung von Unsicherheitsbestimmung z.B. zur Bewertung von Outliereffekten
  • Detektion von fehlerhaften Eingaben oder Fehlfunktionen auf Modellebene

Die ausgewählten Metriken und Tests sollten möglichst die folgenden Merkmale aufweisen:

  • Methoden sollten für jedes KI-Modell im und für das KI-System als Ganzes angewendet werden, falls dieses einen gesammelten Output erzeugt
  • wenn durch die Auswahl begründet, sollten die Metriken und Tests sowohl Basismethoden (simple Metrik) und einige fortgeschrittene Methoden (hinsichtlich Informationsgehalt, Aussagekräftigkeit, Implementierungsaufwand, z.B. umfangreiches Prüfwerkzeug - siehe zusätzliche Information) umfassen
  • Festlegung von Schwellenwerten (als Mindestanforderungen an die Funktionalität/Leistung) und Begründung der Schwellenwerte unter Berücksichtigung des Anwendungsbereichs und Verwendungszwecks

Die Begründung der Metriken, Tests und Methoden geht auf folgende Aspekte ein:

  • Anwendungsbereich, Zweck des KI-Systems,
  • Modelltyp,
  • Zusammensetzung des KI-Systems (d.h., Zusammenspiel der Komponenten bzw. Zusammenhang von ML-Modell und Gesamtsystem), Aufgabenbereich der KI-Systems (z.B. Klassifikation vs. Regression)

Analyse - Metriken / Schwellenwerte [Leistungsfähigkeit]
Durch den Anwendungsbereich begründete Auswahl und Anzahl an Metriken und Tests. Dies schließt je nach KI- Modell mindestes eine Methode ein aus:

  • statistische Auswertung des KI-Modells oder empirische Auswertung der Systemfunktionalität auf das gesamte KI-System z.B. im Sinne von Nutzerexperimenten oder Befragungen
  • Detektion von fehlerhaften Eingaben oder Fehlfunktionen auf Modellebene

Die ausgewählten Metriken und Tests sollten möglichst die folgenden Merkmale aufweisen:

  • Methoden können entweder für jedes KI-Modell oder für das KI-System als Ganzes angewendet werden, je nachdem, was sinnvoller und machbar ist
  • Es genügen Basismethoden (hinsichtlich Informationsgehalt, Aussagekräftigkeit, Implementierungsaufwand, z.B. umfangreiches Prüfwerkzeug - siehe zusätzliche Information)
  • Festlegung von Schwellenwerten (als Mindestanforderungen an die Funktionalität/Leistung) und Begründung der Schwellenwerte unter Berücksichtigung des Anwendungsbereichs und Verwendungszwecks

Die Begründung der Metriken, Tests und Methoden geht auf folgende Aspekte ein:

  • Anwendungsbereich, Zweck des KI-Systems,
  • Modelltyp,
  • Zusammensetzung des KI-Systems (d.h., Zusammenspiel der Komponenten bzw. Zusammenhang von ML-Modell und Gesamtsystem), Aufgabenbereich der KI-Systems (z.B. Klassifikation vs. Regression)

Es wurden systematisch keine Metriken oder Tests festgelegt, die zur Untersuchung der Robustheit des Systems dienen.