VE1.4
Es muss ein Testplan entwickelt und implementiert sein, der das Prüfen aller vorgesehenen Metriken und Tests umfasst, einschließlich einer Prüfung des KI-Systems unter repräsentativen Bedingungen des Anwendungsbereiches.
Verlässlichkeit
Leistungsfähigkeit und Robustheit
Maßnahme
System/Komponente
Die Einteilung der Metriken und Methoden in einfach bis fortgeschritten hängt von vielen Details ab, aber orientiert sich grob and Komplexität und erwarteten Informationsgehalt (z.B. einfach Metrik, Benchmark, bis hin zu Expertengetriebene Validierungsansätze wie etwa systematische Schwachstellensuche, visuelle Exploration, Anwendung von XAI-Methoden, etc.)
Der Grad der Automatisierung der Tests, wenn möglich sollten automatisierbare Methoden bevorzugt eingesetzt werden
AccuracyRecallPrecisionF1-ScoreFalse Positive RateFalse Negative RateTrue Positive RateTrue Negative RateFalse Omission RateMatthews correlation coeffictientROC-AUCCalibration ErrorBrier ScoreCohen Kappa scoreR2RMSEMAEMAPEmAPIoUmIoUPanoptic QualityMutual information scoreHomogeneity ScoreSilhouette ScoreMahalanobis DistanceWasserstein metricDICE ScoreHOTA (Higher Order Tracking Accuracy)MMLUBoolQOpenBookQATruthfulQAHellaSwagQuACNaturalQuestionsNarrativeQAXSUMCNN/DailyMailIMDBRAFTGSM8KMATHAPPSLSATHumanEvalLegalBenchData imputationROUGEBLEUStructural similarity index measure (SSIM)Fréchet Inception Distance (FID)Inception ScoreCIDEr: Consensus-based Image Description EvaluationCosine SimilartiyCLIP Image Quality AssessmentCLIP scoreSignal-to-Noise Ratio (SNR)Perceptual evaluation of Speech Quality (PESQ)Short-Time Objective Intelligibility (STOI)Fuzzy TestingNeuron CoverageOut-of-distribution (OOD) generalizationMonte Carlo DropoutSlicelineSpotlightDominoSVM Failure DirectionsSystematic Weakness searchAdversial accuracyRobustness radiusTime until Adversary's SucessMinimum Distortion Radius
Observablen
Qualitätslevels A bis D
Orga. Maßnahmen - Systemnahe Prozesse Dokumentierter Testplan für Leistungsfähigkeit und Robustheit, der mindestens die folgenden Punkte definiert (z.B. tabellarisch):
- Testobjekte müssen definiert werden (d.h., zu testendes Modell (mit Versionsnummer) oder andere zu testende Komponente/Algorithmus wie etwa eine Unsicherheitsschätzung zur Bewertung von Outliereffekten)
- vorgesehene Testmethoden müssen mindestens die in VE1.2-VE1.3 zuvor definierten Metriken und Tests beinhalten und müssen, soweit möglich Leistungsfähigkeit, Robustheit und Unsicherheitsabschätzung abdecken. Je nach zuvor festgestellter Analyse müssen möglicherweise auch fortgeschrittene Methoden im Testplan vorgesehen werden (zum Beispiel hinsichtlich Implementierungsaufwand und Hardwareanforderungen) und die Eigenschaften der Testmethoden klar und im Detail festgehalten sein hinsichtlich Komplexität und Informationsgehalt
- ggf. müssen zusätzliche Vorgaben zu den Testparametern festgelegt werden
- Verwendeten Testdaten müssen beschrieben werden
- die Testumgebung muss eine Prüfung des KI-Systems unter repräsentativen Bedingungen des Anwendungsbereichs erlauben, mit einer hohen Nähe zur späteren Produktivumgebung
- Zeitpunkt bzw. Regelmäßigkeit der Tests, einschließlich Vorbereitung von Testplänen für eine zukünftige Betriebsphase des KI-Systems, um die Leistungsfähigkeit und Robustheit des KI-Systems fortwährend testen zu können, insbesondere hinsichtlich auf eine Änderung der Systemzusammensetzung oder sich verändernder Trainingsdaten, siehe VE1.6
- Beachtung der Auswirkung möglicher signifikanter Änderungen des KI-Systems in Robustheitstests
- die für die Durchführung benötigten Testressourcen (Software- und Hardwareanforderungen) müssen bestimmt und festgehalten sein
- verantwortliche Person zur Durchführung und Dokumentation der Tests muss festgelegt sein
- Begründung des Testplans mit Bezug auf den Anwendungskontext (einschließlich ggf.. einer ODD) und auf VE1.2-VE1.3 mit einer Argumentation dass der Testplan alle wichtigen Aspekte der Leistungsfähigkeit und Robustheit (bzgl. aller notwendigen, repräsentativen Szenarien) abdeckt.
Orga. Maßnahmen - Systemnahe Prozesse Dokumentierter Testplan für Leistungsfähigkeit und Robustheit, der mindestens die folgenden Punkte definiert (z.B. tabellarisch):
- Testobjekte müssen definiert werden (d.h., zu testendes Modell (mit Versionsnummer) oder andere zu testende Komponente/Algorithmus wie etwa eine Unsicherheitsschätzung zur Bewertung von Outliereffekten)
- Vorgesehene Testmethoden müssen mindestens die in VE1.2-VE1.3 zuvor definierten Metriken und Tests beinhalten und müssen, soweit möglich Leistungsfähigkeit, Robustheit und Unsicherheitsabschätzung abdecken. Je nach zuvor festgestellter Analyse müssen möglicherweise auch fortgeschrittene Methoden im Testplan vorgesehen werden (zum Beispiel hinsichtlich Implementierungsaufwand und Hardwareanforderungen) und die Eigenschaften der Testmethoden klar und im Detail festgehalten sein hinsichtlich Komplexität und Informationsgehalt
- ggf. müssen zusätzliche Vorgaben zu den Testparametern festgelegt werden
- Verwendeten Testdaten müssen beschrieben werden
- Die Testumgebung muss eine Prüfung des KI-Systems unter möglichst repräsentativen Bedingungen des Anwendungsbereichs erlauben, aber nicht unbedingt die endgültige Produktivumgebung genau widerspiegeln
- Zeitpunkt bzw. Regelmäßigkeit der Tests, einschließlich Vorbereitung von Testplänen für eine zukünftige Betriebsphase des KI-Systems, um die Leistungsfähigkeit und Robustheit des KI-Systems fortwährend testen zu können, insbesondere hinsichtlich auf eine Änderung der Systemzusammensetzung oder sich verändernder Trainingsdaten, siehe VE1.6
- Die für die Durchführung benötigten Testressourcen (Software- und Hardwareanforderungen) müssen bestimmt und festgehalten sein
- Verantwortliche Person zur Durchführung und Dokumentation der Tests muss festgelegt sein
- Begründung des Testplans mit Bezug auf den Anwendungskontext (einschließlich ggf.. einer ODD) und auf VE1.2-VE1.3
Orga. Maßnahmen - Systemnahe Prozesse Dokumentierter Testplan für Leistungsfähigkeit und Robustheit, der mindestens die folgenden Punkte definiert (z.B. tabellarisch):
- Testobjekte müssen definiert werden (d.h., zu testendes Modell (mit Versionsnummer) oder andere zu testende Komponente/Algorithmus wie etwa eine Unsicherheitsschätzung zur Bewertung von Outliereffekten)
- Vorgesehene Testmethoden müssen mindestens die in VE1.2-VE1.3 zuvor definierten Metriken und Tests beinhalten und müssen, soweit möglich Leistungsfähigkeit, Robustheit und Unsicherheitsabschätzung abdecken. Die Eigenschaften der Testmethoden müssen klar und im Detail festgehalten sein hinsichtlich Komplexität und Informationsgehalt
- ggf. müssen zusätzliche Vorgaben zu den Testparametern festgelegt werden
- Verwendeten Testdaten müssen beschrieben werden
- Zeitpunkt bzw. Regelmäßigkeit der Tests, einschließlich Vorbereitung von Testplänen für eine zukünftige Betriebsphase des KI-Systems, um die Leistungsfähigkeit und Robustheit des KI-Systems fortwährend testen zu können, insbesondere hinsichtlich auf eine Änderung der Systemzusammensetzung oder sich verändernder Trainingsdaten, siehe VE1.6
- Die für die Durchführung benötigten Testressourcen (Software- und Hardwareanforderungen) müssen bestimmt und festgehalten sein
- Verantwortliche Person zur Durchführung und Dokumentation der Tests muss festgelegt sein
Es wurden keine systematischen Testpläne definiert