26. feb. 2026
Peter Busk
AI og GxP: Sådan validerer du machine learning-modeller
Introduktion
"Kan vi overhovedet bruge AI i et GxP-miljø?" Det er et spørgsmål vi ofte møder i Hyperbolic, når vi arbejder med pharma- og medicinalvirksomheder. Svaret er ja, men det kræver en fundamental anderledes tilgang til validering end traditionel software.
Machine learning-modeller er ikke deterministiske som klassisk software. De lærer fra data, og deres output kan ændre sig over tid. Dette skaber unikke udfordringer i regulerede miljøer, hvor validering, sporbarhed og reproducerbarhed er lovkrav.
Hvorfor er ML-validering anderledes?
Traditionel software valideres ved at verificere at den gør præcis det, den er kodet til. En algoritme der beregner en dosis vil altid give samme output for samme input. Men en ML-model:
Lærer mønstre fra træningsdata
Kan give forskellige resultater ved retræning
Har indbygget usikkerhed
Ændrer sig når data ændrer sig
Dette betyder at klassisk Software Development Life Cycle (SDLC) validering ikke er nok. Vi skal tænke i "Model Lifecycle Management."
Regulatorisk landskab
FDA, EMA og andre myndigheder er stadig ved at udvikle specifikke guidelines for AI/ML. Men de eksisterende regler gælder fuldt ud:
21 CFR Part 11: Elektroniske optegnelser og signaturer
EU GMP Annex 11: Computeriserede systemer
GAMP 5: Good Automated Manufacturing Practice
I Hyperbolic arbejder vi ud fra princippet: AI-systemer i GxP skal opfylde samme krav til kvalitet, sikkerhed og dataintegritet som al anden software, plus yderligere krav specifikt for ML.
Validerings-framework for ML i GxP
Fase 1: Data Governance og kvalificering
Alt starter med data. I GxP er det ikke nok at have meget data, det skal være kvalificeret data.
Data lineage: Dokumentér præcis hvor data kommer fra. Hvilke systemer? Hvilke processer? Hvordan blev det indsamlet?
Data kvalitet: Valider at data er:
Komplet (ingen kritiske mangler)
Korrekt (valideret mod kildesystemer)
Konsistent (ingen konflikter eller duplikering)
Aktuelt (opdateret i henhold til krav)
Data splitting: Dokumentér hvordan data opdeles i træning, validering og test. Dette split skal være reproducerbart og sporbart.
I et projekt for en medicinalvirksomhed etablerede vi komplet data lineage fra produktionssystemer gennem rensning til træningsdata. Hver transformation var dokumenteret og valideret.
Fase 2: Model-udvikling og dokumentation
Requirements Specification: Hvad skal modellen kunne? Definer klart:
Problemformulering
Acceptable accuracy-niveauer
Performance-krav
Sikkerhedskrav
Model Selection: Dokumentér hvorfor denne specifikke model-type blev valgt. Vi sammenligner typisk 3-5 forskellige tilgange og dokumenterer rationale for valget.
Hyperparameter tuning: Al tuning skal være sporbar. Vi logger alle eksperimenter med MLflow eller lignende værktøjer, så det er dokumenteret hvordan vi nåede til den finale konfiguration.
Fase 3: Validering og test
Her adskiller GxP-validering sig virkelig fra standard ML-praksis.
Test på uafhængige data: Test-data må ALDRIG have været set under træning eller tuning. I GxP kræver vi ofte et "locked" test-set, der først åbnes når modellen er færdig.
Performance kvalificering: Definer accept-kriterier på forhånd. Eksempel:
Minimum accuracy: 95%
Maksimum false negative rate: 2%
Performance skal være stabil på tværs af forskellige batches
Edge case testing: Test modellen på:
Outliers og ekstreme værdier
Manglende data
Data uden for trænings-distribution
Known failure modes
Bias analyse: Dokumentér at modellen ikke har uacceptabel bias. For en model til screening af clinical trial kandidater testede vi performance på tværs af alder, køn og etnicitet for at sikre ingen diskrimination.
Fase 4: Deployment og Change Control
Versionering: Hver model-version skal være entydigt identificeret. Vi versionerer:
Model-arkitektur
Træningsdata (inkl. eksakt split)
Hyperparametre
Dependencies (biblioteker og versioner)
Change control: Enhver ændring skal gå gennem formelt change control. Selv små justeringer kræver:
Impact assessment
Testing
Godkendelse
Dokumentation
Rollback plan: Hvad gør vi hvis modellen fejler i produktion? Der skal altid være en plan for at rulle tilbage til tidligere version eller til manuel proces.
Fase 5: Kontinuerlig overvågning
ML-modeller er ikke "set and forget." I GxP kræver vi kontinuerlig overvågning.
Performance monitoring: Track løbende:
Prediction accuracy
Distribution af input-data (data drift)
Distribution af outputs
Response times
Periodic review: Kvartalsvis eller halvårlig review hvor vi verificerer at modellen stadig performer som forventet.
Retræning og revalidering: Når skal modellen retrænes? Definer klare kriterier:
Performance falder under threshold
Signifikant data drift detekteret
Nye regulatory krav
Ændringer i underliggende proces
Praktiske udfordringer og løsninger
Udfordring: Forklarlighed
Regulatorer vil ofte vide "hvorfor" modellen træffer en beslutning. Deep learning modeller er notorisk svære at forklare.
Vores tilgang:
Præferer forklarlige modeller hvor muligt (decision trees, linear models)
For komplekse modeller: Implementer SHAP eller LIME for at forklare individuelle predictions
Dokumentér model-adfærd grundigt gennem sensitivity analyse
Udfordring: Reproducerbarhed
At kunne reproducere exact samme model er kritisk i GxP, men ML involverer ofte randomness.
Vores tilgang:
Sæt ALLE random seeds og dokumentér dem
Version-kontrol af alt (kode, data, config)
Containerisering (Docker) af hele miljøet
Automatiserede pipelines der sikrer identisk process
Udfordring: Audit trails
GxP kræver komplet audit trail af alle ændringer og beslutninger.
Vores tilgang:
Automatisk logging af alle model-interaktioner
Integration med elektroniske QMS-systemer
21 CFR Part 11 compliant signatures på kritiske beslutninger
Case: Validering af kvalitetskontrol-model
Vi udviklede en AI-model til automatisk inspektion af pharmaceutical tablets. Dette var et kategori 5 system (GAMP) med direkte GxP-impact.
Vores tilgang:
6 måneders data collection og kvalificering fra produktionslinje
Valg af CNN-arkitektur efter sammenligning med 4 alternative tilgange (dokumenteret)
Locked test-set med 10,000 tablets verificeret manuelt af 3 uafhængige inspektører
Performance krav: Min 99% accuracy, max 0.1% false negatives (defekte tablets markeret som OK)
Komplet validerings-dokumentation: IQ/OQ/PQ på 300+ sider
Kontinuerlig overvågning med ugentlig performance review
Resultat: Model godkendt af QA, implementeret i produktion, og har kørt stabilt i 18+ måneder med konsistent >99.5% accuracy.
Værktøjer og best practices
MLOps for GxP:
MLflow til experiment tracking (med audit logging)
DVC til data og model versionering
Great Expectations til data validering
Evidently AI til monitoring af data drift
SHAP/LIME til model forklarlighed
Dokumentation templates: Vi har udviklet GxP-ready templates for:
ML Model Requirements Specification
ML Model Design Document
Validation Plan og Report
Change Control procedures for ML
Konklusion
AI og ML kan absolut bruges i GxP-miljøer, men det kræver disciplin, grundig dokumentation og en struktureret tilgang til validering. Det er ikke nok at have en model der "virker", den skal være valideret, reproducerbar og kontinuerligt overvåget.
I Hyperbolic kombinerer vi dyb forståelse af både AI/ML-teknologi og GxP-krav. Vi hjælper pharma-virksomheder med at navigere dette komplekse landskab og implementere AI-løsninger der både leverer værdi og opfylder regulatory krav.
Kontakt os for en konsultation om validering af AI i jeres GxP-miljø.

Af
Peter Busk
CEO & Partner
[ HyperAcademy ]
Vores indsigter fra branchen



