VE1.2
Es müssen geeignete Metriken und Tests definiert werden, um zu bewerten, ob die Leistung des KI-Systems die beabsichtigte Funktionsweise realisiert.
Verlässlichkeit
Leistungsfähigkeit und Robustheit
Analyse
Komponente
Bei Verwendung von Modellen externer Anbieter Dokumentationen und klare Begründungen zur Validierung bereitstellen Die beabsichtigte Funktionsweise sollte sich aus dem Verwendungszweck und Anwendungsbereich ergeben. Unterscheidung zwischen Basismethoden und fortgeschrittene Methoden: - In der "Technische Prüfmethodensammlung.xlsx" sind einige gängige Methoden gelistet und in Basis- und fortgeschrittene Methoden kategorisiert - Selbst entwickelte Testmethoden werden als fortgeschrittene Methoden anerkannt Die ausgewählten Metriken und Tests sollten wenn möglich einen hohen Grad der Automatisierung erlauben

Observablen

Qualitätslevels A bis D

Analyse - Metriken / Schwellenwerte [Leistungsfähigkeit]
Durch den Anwendungsbereich begründete Auswahl und Anzahl an Metriken und Tests, je nach Nutzen möglichst unterschiedlicher Kategorien. Dies schließt ein:

  • statistische Auswertung des KI-Modells oder empirische Auswertung der Systemfunktionalität auf das gesamte KI-System z.B. im Sinne von Nutzerexperimenten oder Befragungen
  • abhängig vom KI-Modell gewählte passende Methoden zur Unsicherheitsbestimmung oder die Nutzung probabilistischer KI- Modellarchitekturen; Metriken für Kalibrierung von Unsicherheitsbestimmung (z.B. über Konfidenzwerte)

Die ausgewählten Metriken und Tests sollten möglichst die folgenden Merkmale und Rahmenbedingungen aufweisen:

  • Methoden sollten für jedes KI-Modell im und für das KI-System als Ganzes angewendet werden, falls dieses einen gesammelten Output erzeugt
  • wenn durch die Auswahl begründet, sollten die Metriken und Tests sowohl Basismethoden (simple Metrik) und einige fortgeschrittene Methoden (hinsichtlich Informationsgehalt, Aussagekräftigkeit, Implementierungsaufwand, z.B. umfangreiches Prüfwerkzeug - siehe zusätzliche Information) umfassen
  • Festlegung von Schwellenwerten (als Mindestanforderungen an die Funktionalität/Leistung) und Begründung der Schwellenwerte unter Berücksichtigung des Anwendungsbereichs und Verwendungszwecks (falls anwendbar: Abstufung der Metriken und Schwellenwerte nach unterschiedlichen Einsatzszenarien mit Bezug zur Definition des Anwendungsbereichs)

Die Begründung der Metriken, Tests und Methoden geht auf folgende Aspekte ein:

  • Anwendungsbereich, Zweck des KI-Systems,
  • Modelltyp,
  • Zusammensetzung des KI-Systems (d.h., Zusammenspiel der Komponenten bzw. Zusammenhang von ML-Modell und Gesamtsystem), Aufgabenbereich der KI-Systems (z.B. Klassifikation vs. Regression)

Analyse - Metriken / Schwellenwerte [Leistungsfähigkeit]
Durch den Anwendungsbereich begründete Auswahl und Anzahl an Metriken und Tests, je nach Nutzen möglichst unterschiedlicher Kategorien. Dies schließt ein:

  • statistische Auswertung des KI-Modells oder empirische Auswertung der Systemfunktionalität auf das gesamte KI-System z.B. im Sinne von Nutzerexperimenten oder Befragungen
  • abhängig vom KI-Modell gewählte passende Methoden zur Unsicherheitsbestimmung oder die Nutzung probabilistischer KI- Modellarchitekturen; Metriken für Kalibrierung von Unsicherheitsbestimmung (z.B. über Konfidenzwerte)

Die ausgewählten Metriken und Tests sollten möglichst die folgenden Merkmale und Rahmenbedingungen aufweisen:

  • Methoden sollten für jedes KI-Modell im und für das KI-System als Ganzes angewendet werden, falls dieses einen gesammelten Output erzeugt
  • wenn durch die Auswahl begründet, sollten die Metriken und Tests sowohl Basismethoden (simple Metrik) und einige fortgeschrittene Methoden (hinsichtlich Informationsgehalt, Aussagekräftigkeit, Implementierungsaufwand, z.B. umfangreiches Prüfwerkzeug - siehe zusätzliche Information) umfassen
  • Festlegung von Schwellenwerten (als Mindestanforderungen an die Funktionalität/Leistung) und Begründung der Schwellenwerte unter Berücksichtigung des Anwendungsbereichs und Verwendungszwecks

Die Begründung der Metriken, Tests und Methoden geht auf folgende Aspekte ein:

  • Anwendungsbereich, Zweck des KI-Systems,
  • Modelltyp,
  • Zusammensetzung des KI-Systems (d.h., Zusammenspiel der Komponenten bzw. Zusammenhang von ML-Modell und Gesamtsystem), Aufgabenbereich der KI-Systems (z.B. Klassifikation vs. Regression)

Analyse - Metriken / Schwellenwerte [Leistungsfähigkeit]
Durch den Anwendungsbereich begründete Auswahl und Anzahl an Metriken und Tests. Dies schließt je nach KI- Modell mindestes eine Methode ein aus:

  • statistische Auswertung des KI-Modells oder empirische Auswertung der Systemfunktionalität auf das gesamte KI-System z.B. im Sinne von Nutzerexperimenten oder Befragungen

Die ausgewählten Metriken und Tests sollten möglichst die folgenden Merkmale und Rahmenbedingungen aufweisen:

  • Methoden können entweder für jedes KI-Modell oder für das KI-System als Ganzes angewendet werden, je nachdem, was sinnvoller und machbar ist
  • Es genügen Basismethoden (hinsichtlich Informationsgehalt, Aussagekräftigkeit, Implementierungsaufwand, z.B. umfangreiches Prüfwerkzeug - siehe zusätzliche Information)
  • Festlegung von Schwellenwerten (als Mindestanforderungen an die Funktionalität/Leistung) und Begründung der Schwellenwerte unter Berücksichtigung des Anwendungsbereichs und Verwendungszwecks

Die Begründung der Metriken, Tests und Methoden geht auf mindestens einen der folgenden Aspekte ein:

  • Anwendungsbereich, Zweck des KI-Systems,
  • Modelltyp,
  • Zusammensetzung des KI-Systems (d.h., Zusammenspiel der Komponenten bzw. Zusammenhang von ML-Modell und Gesamtsystem), Aufgabenbereich der KI-Systems (z.B. Klassifikation vs. Regression)

Es wurden systematisch keine Metriken oder Tests festgelegt, die zur Untersuchung der Leistungsfähigkeit des Systems dienen.