Observablen
Qualitätslevels A bis D
Analyse - Metriken / Schwellenwerte [Leistungsfähigkeit]
Durch den Anwendungsbereich begründete Auswahl und Anzahl an Metriken und Tests, je nach Nutzen möglichst unterschiedlicher Kategorien. Dies schließt ein:
- statistische Auswertung des KI-Modells oder empirische Auswertung der Systemfunktionalität auf das gesamte KI-System z.B. im Sinne von Nutzerexperimenten oder Befragungen
- abhängig vom KI-Modell gewählte passende Methoden zur Unsicherheitsbestimmung oder die Nutzung probabilistischer KI- Modellarchitekturen; Metriken für Kalibrierung von Unsicherheitsbestimmung (z.B. über Konfidenzwerte)
Die ausgewählten Metriken und Tests sollten möglichst die folgenden Merkmale und Rahmenbedingungen aufweisen:
- Methoden sollten für jedes KI-Modell im und für das KI-System als Ganzes angewendet werden, falls dieses einen gesammelten Output erzeugt
- wenn durch die Auswahl begründet, sollten die Metriken und Tests sowohl Basismethoden (simple Metrik) und einige fortgeschrittene Methoden (hinsichtlich Informationsgehalt, Aussagekräftigkeit, Implementierungsaufwand, z.B. umfangreiches Prüfwerkzeug - siehe zusätzliche Information) umfassen
- Festlegung von Schwellenwerten (als Mindestanforderungen an die Funktionalität/Leistung) und Begründung der Schwellenwerte unter Berücksichtigung des Anwendungsbereichs und Verwendungszwecks (falls anwendbar: Abstufung der Metriken und Schwellenwerte nach unterschiedlichen Einsatzszenarien mit Bezug zur Definition des Anwendungsbereichs)
Die Begründung der Metriken, Tests und Methoden geht auf folgende Aspekte ein:
- Anwendungsbereich, Zweck des KI-Systems,
- Modelltyp,
- Zusammensetzung des KI-Systems (d.h., Zusammenspiel der Komponenten bzw. Zusammenhang von ML-Modell und Gesamtsystem), Aufgabenbereich der KI-Systems (z.B. Klassifikation vs. Regression)
Analyse - Metriken / Schwellenwerte [Leistungsfähigkeit]
Durch den Anwendungsbereich begründete Auswahl und Anzahl an Metriken und Tests, je nach Nutzen möglichst unterschiedlicher Kategorien. Dies schließt ein:
- statistische Auswertung des KI-Modells oder empirische Auswertung der Systemfunktionalität auf das gesamte KI-System z.B. im Sinne von Nutzerexperimenten oder Befragungen
- abhängig vom KI-Modell gewählte passende Methoden zur Unsicherheitsbestimmung oder die Nutzung probabilistischer KI- Modellarchitekturen; Metriken für Kalibrierung von Unsicherheitsbestimmung (z.B. über Konfidenzwerte)
Die ausgewählten Metriken und Tests sollten möglichst die folgenden Merkmale und Rahmenbedingungen aufweisen:
- Methoden sollten für jedes KI-Modell im und für das KI-System als Ganzes angewendet werden, falls dieses einen gesammelten Output erzeugt
- wenn durch die Auswahl begründet, sollten die Metriken und Tests sowohl Basismethoden (simple Metrik) und einige fortgeschrittene Methoden (hinsichtlich Informationsgehalt, Aussagekräftigkeit, Implementierungsaufwand, z.B. umfangreiches Prüfwerkzeug - siehe zusätzliche Information) umfassen
- Festlegung von Schwellenwerten (als Mindestanforderungen an die Funktionalität/Leistung) und Begründung der Schwellenwerte unter Berücksichtigung des Anwendungsbereichs und Verwendungszwecks
Die Begründung der Metriken, Tests und Methoden geht auf folgende Aspekte ein:
- Anwendungsbereich, Zweck des KI-Systems,
- Modelltyp,
- Zusammensetzung des KI-Systems (d.h., Zusammenspiel der Komponenten bzw. Zusammenhang von ML-Modell und Gesamtsystem), Aufgabenbereich der KI-Systems (z.B. Klassifikation vs. Regression)
Analyse - Metriken / Schwellenwerte [Leistungsfähigkeit]
Durch den Anwendungsbereich begründete Auswahl und Anzahl an Metriken und Tests. Dies schließt je nach KI- Modell mindestes eine Methode ein aus:
- statistische Auswertung des KI-Modells oder empirische Auswertung der Systemfunktionalität auf das gesamte KI-System z.B. im Sinne von Nutzerexperimenten oder Befragungen
Die ausgewählten Metriken und Tests sollten möglichst die folgenden Merkmale und Rahmenbedingungen aufweisen:
- Methoden können entweder für jedes KI-Modell oder für das KI-System als Ganzes angewendet werden, je nachdem, was sinnvoller und machbar ist
- Es genügen Basismethoden (hinsichtlich Informationsgehalt, Aussagekräftigkeit, Implementierungsaufwand, z.B. umfangreiches Prüfwerkzeug - siehe zusätzliche Information)
- Festlegung von Schwellenwerten (als Mindestanforderungen an die Funktionalität/Leistung) und Begründung der Schwellenwerte unter Berücksichtigung des Anwendungsbereichs und Verwendungszwecks
Die Begründung der Metriken, Tests und Methoden geht auf mindestens einen der folgenden Aspekte ein:
- Anwendungsbereich, Zweck des KI-Systems,
- Modelltyp,
- Zusammensetzung des KI-Systems (d.h., Zusammenspiel der Komponenten bzw. Zusammenhang von ML-Modell und Gesamtsystem), Aufgabenbereich der KI-Systems (z.B. Klassifikation vs. Regression)
Es wurden systematisch keine Metriken oder Tests festgelegt, die zur Untersuchung der Leistungsfähigkeit des Systems dienen.