26. feb. 2026

Peter Busk

AI og GxP: Sådan validerer du machine learning-modeller

Introduktion

"Kan vi overhovedet bruge AI i et GxP-miljø?" Det er et spørgsmål vi ofte møder i Hyperbolic, når vi arbejder med pharma- og medicinalvirksomheder. Svaret er ja, men det kræver en fundamental anderledes tilgang til validering end traditionel software.

Machine learning-modeller er ikke deterministiske som klassisk software. De lærer fra data, og deres output kan ændre sig over tid. Dette skaber unikke udfordringer i regulerede miljøer, hvor validering, sporbarhed og reproducerbarhed er lovkrav.

Hvorfor er ML-validering anderledes?

Traditionel software valideres ved at verificere at den gør præcis det, den er kodet til. En algoritme der beregner en dosis vil altid give samme output for samme input. Men en ML-model:

  • Lærer mønstre fra træningsdata

  • Kan give forskellige resultater ved retræning

  • Har indbygget usikkerhed

  • Ændrer sig når data ændrer sig

Dette betyder at klassisk Software Development Life Cycle (SDLC) validering ikke er nok. Vi skal tænke i "Model Lifecycle Management."

Regulatorisk landskab

FDA, EMA og andre myndigheder er stadig ved at udvikle specifikke guidelines for AI/ML. Men de eksisterende regler gælder fuldt ud:

  • 21 CFR Part 11: Elektroniske optegnelser og signaturer

  • EU GMP Annex 11: Computeriserede systemer

  • GAMP 5: Good Automated Manufacturing Practice

I Hyperbolic arbejder vi ud fra princippet: AI-systemer i GxP skal opfylde samme krav til kvalitet, sikkerhed og dataintegritet som al anden software, plus yderligere krav specifikt for ML.

Validerings-framework for ML i GxP

Fase 1: Data Governance og kvalificering

Alt starter med data. I GxP er det ikke nok at have meget data, det skal være kvalificeret data.

Data lineage: Dokumentér præcis hvor data kommer fra. Hvilke systemer? Hvilke processer? Hvordan blev det indsamlet?

Data kvalitet: Valider at data er:

  • Komplet (ingen kritiske mangler)

  • Korrekt (valideret mod kildesystemer)

  • Konsistent (ingen konflikter eller duplikering)

  • Aktuelt (opdateret i henhold til krav)

Data splitting: Dokumentér hvordan data opdeles i træning, validering og test. Dette split skal være reproducerbart og sporbart.

I et projekt for en medicinalvirksomhed etablerede vi komplet data lineage fra produktionssystemer gennem rensning til træningsdata. Hver transformation var dokumenteret og valideret.

Fase 2: Model-udvikling og dokumentation

Requirements Specification: Hvad skal modellen kunne? Definer klart:

  • Problemformulering

  • Acceptable accuracy-niveauer

  • Performance-krav

  • Sikkerhedskrav

Model Selection: Dokumentér hvorfor denne specifikke model-type blev valgt. Vi sammenligner typisk 3-5 forskellige tilgange og dokumenterer rationale for valget.

Hyperparameter tuning: Al tuning skal være sporbar. Vi logger alle eksperimenter med MLflow eller lignende værktøjer, så det er dokumenteret hvordan vi nåede til den finale konfiguration.

Fase 3: Validering og test

Her adskiller GxP-validering sig virkelig fra standard ML-praksis.

Test på uafhængige data: Test-data må ALDRIG have været set under træning eller tuning. I GxP kræver vi ofte et "locked" test-set, der først åbnes når modellen er færdig.

Performance kvalificering: Definer accept-kriterier på forhånd. Eksempel:

  • Minimum accuracy: 95%

  • Maksimum false negative rate: 2%

  • Performance skal være stabil på tværs af forskellige batches

Edge case testing: Test modellen på:

  • Outliers og ekstreme værdier

  • Manglende data

  • Data uden for trænings-distribution

  • Known failure modes

Bias analyse: Dokumentér at modellen ikke har uacceptabel bias. For en model til screening af clinical trial kandidater testede vi performance på tværs af alder, køn og etnicitet for at sikre ingen diskrimination.

Fase 4: Deployment og Change Control

Versionering: Hver model-version skal være entydigt identificeret. Vi versionerer:

  • Model-arkitektur

  • Træningsdata (inkl. eksakt split)

  • Hyperparametre

  • Dependencies (biblioteker og versioner)

Change control: Enhver ændring skal gå gennem formelt change control. Selv små justeringer kræver:

  • Impact assessment

  • Testing

  • Godkendelse

  • Dokumentation

Rollback plan: Hvad gør vi hvis modellen fejler i produktion? Der skal altid være en plan for at rulle tilbage til tidligere version eller til manuel proces.

Fase 5: Kontinuerlig overvågning

ML-modeller er ikke "set and forget." I GxP kræver vi kontinuerlig overvågning.

Performance monitoring: Track løbende:

  • Prediction accuracy

  • Distribution af input-data (data drift)

  • Distribution af outputs

  • Response times

Periodic review: Kvartalsvis eller halvårlig review hvor vi verificerer at modellen stadig performer som forventet.

Retræning og revalidering: Når skal modellen retrænes? Definer klare kriterier:

  • Performance falder under threshold

  • Signifikant data drift detekteret

  • Nye regulatory krav

  • Ændringer i underliggende proces

Praktiske udfordringer og løsninger

Udfordring: Forklarlighed

Regulatorer vil ofte vide "hvorfor" modellen træffer en beslutning. Deep learning modeller er notorisk svære at forklare.

Vores tilgang:

  • Præferer forklarlige modeller hvor muligt (decision trees, linear models)

  • For komplekse modeller: Implementer SHAP eller LIME for at forklare individuelle predictions

  • Dokumentér model-adfærd grundigt gennem sensitivity analyse

Udfordring: Reproducerbarhed

At kunne reproducere exact samme model er kritisk i GxP, men ML involverer ofte randomness.

Vores tilgang:

  • Sæt ALLE random seeds og dokumentér dem

  • Version-kontrol af alt (kode, data, config)

  • Containerisering (Docker) af hele miljøet

  • Automatiserede pipelines der sikrer identisk process

Udfordring: Audit trails

GxP kræver komplet audit trail af alle ændringer og beslutninger.

Vores tilgang:

  • Automatisk logging af alle model-interaktioner

  • Integration med elektroniske QMS-systemer

  • 21 CFR Part 11 compliant signatures på kritiske beslutninger

Case: Validering af kvalitetskontrol-model

Vi udviklede en AI-model til automatisk inspektion af pharmaceutical tablets. Dette var et kategori 5 system (GAMP) med direkte GxP-impact.

Vores tilgang:

  1. 6 måneders data collection og kvalificering fra produktionslinje

  2. Valg af CNN-arkitektur efter sammenligning med 4 alternative tilgange (dokumenteret)

  3. Locked test-set med 10,000 tablets verificeret manuelt af 3 uafhængige inspektører

  4. Performance krav: Min 99% accuracy, max 0.1% false negatives (defekte tablets markeret som OK)

  5. Komplet validerings-dokumentation: IQ/OQ/PQ på 300+ sider

  6. Kontinuerlig overvågning med ugentlig performance review

Resultat: Model godkendt af QA, implementeret i produktion, og har kørt stabilt i 18+ måneder med konsistent >99.5% accuracy.

Værktøjer og best practices

MLOps for GxP:

  • MLflow til experiment tracking (med audit logging)

  • DVC til data og model versionering

  • Great Expectations til data validering

  • Evidently AI til monitoring af data drift

  • SHAP/LIME til model forklarlighed

Dokumentation templates: Vi har udviklet GxP-ready templates for:

  • ML Model Requirements Specification

  • ML Model Design Document

  • Validation Plan og Report

  • Change Control procedures for ML

Konklusion

AI og ML kan absolut bruges i GxP-miljøer, men det kræver disciplin, grundig dokumentation og en struktureret tilgang til validering. Det er ikke nok at have en model der "virker", den skal være valideret, reproducerbar og kontinuerligt overvåget.

I Hyperbolic kombinerer vi dyb forståelse af både AI/ML-teknologi og GxP-krav. Vi hjælper pharma-virksomheder med at navigere dette komplekse landskab og implementere AI-løsninger der både leverer værdi og opfylder regulatory krav.

Kontakt os for en konsultation om validering af AI i jeres GxP-miljø.

Af

Peter Busk

CEO & Partner