VE1.5
.
Das KI-System muss gemäß dem Testplan mit unterschiedlichen Eingaben, Bedingungen und Umgebungen getestet werden, um seine Leistungsfähigkeit und Robustheit sicherzustellen
Verlässlichkeit
Leistungsfähigkeit und Robustheit
Maßnahme
System/Komponente
Für die technische Details zur Beschreibung von Anwendungsbereichen siehe z.B. der Fraunhofer KI-Prüfkatalog z.B. [VE-R-RE-RI-01], [VE-R-RE-KR-02], [VE-R-RO-RI-01], [VE-R-RO- KR-01], [VE-R-RO-KR-03] und generell die Testmaßnahmen im Kapitel Verlässlichkeit.
AccuracyRecallPrecisionF1-ScoreFalse Positive RateFalse Negative RateTrue Positive RateTrue Negative RateFalse Omission RateMatthews correlation coeffictientROC-AUCCalibration ErrorBrier ScoreCohen Kappa scoreR2RMSEMAEMAPEmAPIoUmIoUPanoptic QualityMutual information scoreHomogeneity ScoreSilhouette ScoreMahalanobis DistanceWasserstein metricDICE ScoreHOTA (Higher Order Tracking Accuracy)MMLUBoolQOpenBookQATruthfulQAHellaSwagQuACNaturalQuestionsNarrativeQAXSUMCNN/DailyMailIMDBRAFTGSM8KMATHAPPSLSATHumanEvalLegalBenchData imputationROUGEBLEUStructural similarity index measure (SSIM)Fréchet Inception Distance (FID)Inception ScoreCIDEr: Consensus-based Image Description EvaluationCosine SimilartiyCLIP Image Quality AssessmentCLIP scoreSignal-to-Noise Ratio (SNR)Perceptual evaluation of Speech Quality (PESQ)Short-Time Objective Intelligibility (STOI)Fuzzy TestingNeuron CoverageOut-of-distribution (OOD) generalizationMonte Carlo DropoutSlicelineSpotlightDominoSVM Failure DirectionsSystematic Weakness searchAdversial accuracyRobustness radiusTime until Adversary's SucessMinimum Distortion Radius
Observablen
Qualitätslevels A bis D
Tech. Maßnahme - Tests
- Formelle Beschreibung des Anwendungsbereichs als Eingabe für Testmethoden (Eingaberaum, Anwendungsbereich mit Verteilung, Anwendungsgrenze, ggfs. Beschreibung einer ODD)
- Entlang des Testplans (siehe VE1.4), Analyse der Abdeckung des Anwendungsbereichs (oder ggfls. einer ODD) durch die vorhandenen Testdaten
- Beschreibung des gegebenen Formats d.h. die Eingaben, Bedingungen und Umgebungen, auf denen auf Leistungsfähigkeit und Robustheit direkt oder indirekt getestet wird
- Durchführung des Tests entlang des Testplans und Dokumentation aller Testergebnisse
- Dokumentation von Schwachstellen, dabei mindestens a) Jede aufgrund des Systemdesigns und in Bezug auf den Verwendungszweck unerwartete Minderung in der tatsächlichen Leistungsfähigkeit des KI-Systems b) Grenzen des Eingabebereichs (In welchen Situationen/ bei welchen Eingaben funktioniert das KI-System nur eingeschränkt oder gar nicht mehr? c) Shortcuts in Modellen (falls keine identifiziert wurden ist dies so zu dokumentieren)
Tech. Maßnahme - Tests
- Formelle Beschreibung des Anwendungsbereichs als Eingabe für Testmethoden (Eingaberaum, Anwendungsbereich mit Verteilung, Anwendungsgrenze, ggfls. Beschreibung einer ODD)
- Durchführung des Tests entlang des Testplans und Dokumentation aller Testergebnisse
- Dokumentation von Schwachstellen, dabei mindestens a) Jede aufgrund des Systemdesigns und in Bezug auf den Verwendungszweck unerwartete Minderung in der tatsächlichen Leistungsfähigkeit des KI-Systems b) Grenzen des Eingabebereichs (In welchen Situationen/ bei welchen Eingaben funktioniert das KI-System nur eingeschränkt oder gar nicht mehr?
Tech. Maßnahme - Tests
- Formelle Beschreibung des Anwendungsbereichs als Eingabe für Testmethoden (Eingaberaum, Anwendungsbereich mit Verteilung, Anwendungsgrenze, ggfls. Beschreibung einer ODD)
- Durchführung des Tests entlang des Testplans und Dokumentation aller Testergebnisse
Es wurden keine dokumentierten Tests durchgeführt.