Technische Prüfmethodensammlung – Erläuterung der Taxonomie
Die technische Prüfmethodensammlung fokussiert sich auf Verfahren, die KI-Systemeigenschaften substanziieren, indem sie spezifische Eigenschaften von Daten oder KI-Komponenten auf Testausgaben abbilden. Jede technische Prüfmethode in der Sammlung ist über Indikatoren-IDs mit dem Prüfkriterienkatalog verknüpft. Anbieter erhalten so eine Übersicht etablierter Verfahren, die zur Evidenzerzeugung bezüglich eines Indikators prinzipiell geeignet sind. Natürlich müssen spezifische technische Prüfmethoden immer noch basierend auf einer Analyse des zu prüfenden KI-Systems, insbesondere dessen Aufgabenstellung und Anwendungsbereich, ausgewählt werden (siehe z.B. VE1.2 und VE1.3), sodass keine Vorgabe zur Nutzung bestimmter technischer Prüfmethoden möglich ist.
Zur Unterstützung der Anbieter bei der Auswahl geeigneter technischer Prüfmethoden dient daher die Kategorisierung der Methoden, welche nach sechs Aspekten erfolgt ist: Datenanforderungen, Ergebniskomplexität, Modellzugriff, Anwendbarkeit der Aufgabe, Möglichkeit der Automatisierung und Komplexität der technischen Prüfmethode. Diese Kategorien werden im Folgenden näher erläutert.
Datenanforderungen:
Die Anforderungen an die Daten beschreiben, welche Elemente in den Daten mindestens verfügbar sein müssen, um eine technische Prüfmethode anwenden zu können. So verlangen zum Beispiel die meisten Testverfahren, dass die vorliegenden Testfälle mit einer entsprechenden Ground Truth gelabelt sein müssen, bei einer Klassifikationsaufgabe beispielsweise muss bekannt sein, welche Klasse das Modell ausgibt, und welche Klasse die richtige gewesen wäre. Das minimale Szenario enthält nur diese beiden Informationen: Modellausgaben und Ground Truth. Für manche technische Prüfmethoden ist es notwendig, nicht nur Ausgabe und Ground Truth mit einzubeziehen, sondern auch die Eingabedaten, beispielsweise, wenn bei Transparenz- und Erklärbarkeitsmethoden gewisse Eigenschaften der Eingabedaten hervorgehoben werden sollten. Daneben gibt es Testverfahren, die neben Ausgabe und Ground Truth augmentierte oder neue Eingabedaten erfordern. Bei Robustheitsmethoden werden beispielsweise die Eingabedaten mit zufälligen Störfaktoren belegt und die Änderungen in den Ausgabedaten betrachtet. Weiterhin werden manche Methoden auf einen ganzen vorliegenden Datensatz angewandt, d.h. sowohl auf Test- als auch auf Trainingsdaten. Das ist beispielsweise relevant, um Vollständigkeit, Fehlerfreiheit, Repräsentativität oder Fairness dieser Datensätze zu messen und so früh mögliche ungewünschte Auswirkungen auf das KI-System zu erkennen. Zuletzt gibt es Benchmarkdatensätze, hier sind neben den vorgegebenen Aufgaben des Benchmarks nur die Antworten des KI-Systems auf genau diese Aufgabenstellungen als Ausgabedaten notwendig. Benchmarkdatensätze sind besonders bei generativer KI relevant, um Modellfähigkeiten einschätzen und vergleichen zu können.
Ergebniskomplexität:
Die Einordnung in der Kategorie Ergebniskomplexität soll einen schnellen Überblick darüber geben, wie leicht Ausgaben verstanden und weiterverarbeitet werden können. Bei einer einzelnen oder mehreren reellen Zahl als Ausgabe ist es verhältnismäßig leicht, Schwellwerte für einen erfolgreichen Test festzulegen, dem entgegen stehen komplexere Ausgaben, die ggf. menschliche Interpretation erfordern oder größere Komplexitäten in der Schwellwertfestlegung und Weiterverarbeitung aufweisen. Beispiele für die erste Art wären beispielsweise Genauigkeit oder F1-Score, bei der zweiten Art könnte man etwa an Heatmaps denken, die die Eingabedaten mit Gewichten versehen, um so zu messen, welche Teile bspw. für eine Klassifizierungsentscheidung besonders relevant waren.
Modellzugriff:
Die Kategorisierung des Modellzugriffs für Auditierung und Tests umfasst vier Klassen: modellunabhängig, Modellausgaben auf Testdatensatz, Inferenzzugang und vollständiger Modellzugang. Im ersten Szenario „modellunabhängig“ können die Tests von Prüfer durchgeführt werden, ohne dass ein Zugriff auf das Modell erforderlich ist. Beim Szenario mit festem Testsatz können die Prüfenden die Leistung des Modells anhand eines statischen Datensatzes bewerten, ohne die Eingaben zu verändern, so dass es sich um eine rein beobachtende Methode handelt. Im Szenario "Inferenzzugang" können die Prüfer neue Eingaben machen, um das Verhalten des Modells auf ungesehenen oder selbst erstellten Datensätzen zu testen und so die Robustheit und Fairness des Modells zu prüfen, ohne interne Parameter zu kennen. Der vollständige Modellzugriff bietet den Prüfenden einen umfassenden Zugang zu den internen Parametern, der Architektur und den Trainingsmethoden des Modells und ermöglicht so eingehende Evaluierungen, einschließlich White-Box-Tests, Debugging, Fehleranalysen und Einblicke in den Trainingsprozess. Diese verfeinerte Aufteilung unterstreicht die unterschiedlichen Zugriffsmöglichkeiten der Prüfer, die von minimaler bis hin zu vollständiger Transparenz reichen.
Anwendbarkeit der Aufgabe:
Unsere Kategorisierung der Anwendbarkeit von Aufgaben umfasst ein breites Spektrum von KI-Aufgaben, die für verschiedene Modelltypen relevant sind. Die Klasse "Agnostisch" umfasst Tests, die auf jedes Modell anwendbar sind, unabhängig davon, ob es sich um einen Klassifikator, Regressor oder ein generatives Modell handelt. "Klassifizierung" konzentriert sich auf Modelle, die diskrete Etiketten zuweisen, wobei sich die Tests auf relevante Leistungsmetriken konzentrieren. "Regression" bezieht sich auf Modelle, die kontinuierliche Werte vorhersagen und anhand bestimmter Fehlermetriken bewertet werden. "Clustering" umfasst unbeaufsichtigte Modelle, die ähnliche Datenpunkte gruppieren und anhand von Metriken für die Clustering-Qualität bewertet werden. "Erkennung" zielt auf Aufgaben der Objekterkennung ab, die anhand von Präzisions- und Lokalisierungsmetriken bewertet werden. "Segmentierung" befasst sich mit der Klassifizierung auf Pixelebene, wobei gemeinsame Metriken zur Bewertung der Segmentierungsqualität verwendet werden. Der Bereich "Generative KI" schließlich befasst sich mit Modellen zur Generierung neuer Inhalte, die sowohl mit quantitativen Metriken als auch mit subjektiven menschlichen Einschätzungen zu Qualität und Kreativität bewertet werden.
Automatisierungsmöglichkeit:
Die Einordnung der Prüfmethoden nach der Möglichkeit, diese in Prüfungsabläufen ermöglicht eine Einschätzung der Eignung für eine Integration in eigene automatisierte (Prüf-)Prozesse von Unternehmen. „Ja“ bedeutet dabei, dass eine Prüfmethode sehr einfach durch Setzung eines entsprechenden (anwendungsfallabhängigen) Schwellwertes potentiell automatisiert werden kann. Bei Prüfmethoden, die „wahrscheinlich“ automatisiert werden können bedarf es weiterer Überlegungen oder komplexerer Methoden zur Automatisierung, beispielsweise ist die Automatisierung von adversiellen Attacken grundsätzlich denkbar, bedarf aber nicht nur einer Schwellwertsetzung, die definiert, wann eine Attacke erfolgreich war, sondern auch Algorithmen, die diese Attacken automatisiert durchführen können. Unter „Nein“ fallen solche Metriken, die aufgrund ihrer Ausgaben nicht oder nur mit sehr großem Aufwand sinnvoll durch Schwellwertsetzung automatisiert zur Prüfung genutzt werden können, beispielsweise bei Methoden wie LIME, die ein lokales, interpretierbares Modell ausgeben.
Tiefe der technischen Prüfmethode:
Die Tiefe der technischen Prüfmethode beschreibt, wie gründlich die Methode bestimmte Eigenschaften des Testgegenstandes untersucht. Hier wird unterschieden zwischen Basismethoden und fortgeschrittenen Methoden. Eine tiefergehende technischen Prüfmethode (“Fortgeschrittene Methode”) hat typischerweise eine hohe inhärente Komplexität, die einhergeht mit einem erhöhten Erkenntnisgewinn. Dieser ist oft gekoppelt mit einem erhöhten Aufwand in Bezug auf die Auswertung der Testergebnisse. Typischerweise liefern tiefergehende technische Prüfmethoden Ergebnisse, deren Anwendung und Interpretation Expertinnen- und Expertenverständnis sowie weitere nachfolgende Analyse-Schritte auf seitens der Prüfer benötigen.