Kontakt os

Home

HyperAcademy

AI og GxP: Sådan validerer du machine learning-modeller

people sitting down near table with assorted laptop computers

26. feb. 2026

Peter Busk

AI og GxP: Sådan validerer du machine learning-modeller

Introduktion

"Kan vi overhovedet bruge AI i et GxP-miljø?" Det er et spørgsmål vi ofte møder i Hyperbolic, når vi arbejder med pharma- og medicinalvirksomheder. Svaret er ja, men det kræver en fundamental anderledes tilgang til validering end traditionel software.

Machine learning-modeller er ikke deterministiske som klassisk software. De lærer fra data, og deres output kan ændre sig over tid. Dette skaber unikke udfordringer i regulerede miljøer, hvor validering, sporbarhed og reproducerbarhed er lovkrav.

Hvorfor er ML-validering anderledes?

Traditionel software valideres ved at verificere at den gør præcis det, den er kodet til. En algoritme der beregner en dosis vil altid give samme output for samme input. Men en ML-model:

Lærer mønstre fra træningsdata
Kan give forskellige resultater ved retræning
Har indbygget usikkerhed
Ændrer sig når data ændrer sig

Dette betyder at klassisk Software Development Life Cycle (SDLC) validering ikke er nok. Vi skal tænke i "Model Lifecycle Management."

Regulatorisk landskab

FDA, EMA og andre myndigheder er stadig ved at udvikle specifikke guidelines for AI/ML. Men de eksisterende regler gælder fuldt ud:

21 CFR Part 11: Elektroniske optegnelser og signaturer
EU GMP Annex 11: Computeriserede systemer
GAMP 5: Good Automated Manufacturing Practice

I Hyperbolic arbejder vi ud fra princippet: AI-systemer i GxP skal opfylde samme krav til kvalitet, sikkerhed og dataintegritet som al anden software, plus yderligere krav specifikt for ML.

Validerings-framework for ML i GxP

Fase 1: Data Governance og kvalificering

Alt starter med data. I GxP er det ikke nok at have meget data, det skal være kvalificeret data.

Data lineage: Dokumentér præcis hvor data kommer fra. Hvilke systemer? Hvilke processer? Hvordan blev det indsamlet?

Data kvalitet: Valider at data er:

Komplet (ingen kritiske mangler)
Korrekt (valideret mod kildesystemer)
Konsistent (ingen konflikter eller duplikering)
Aktuelt (opdateret i henhold til krav)

Data splitting: Dokumentér hvordan data opdeles i træning, validering og test. Dette split skal være reproducerbart og sporbart.

I et projekt for en medicinalvirksomhed etablerede vi komplet data lineage fra produktionssystemer gennem rensning til træningsdata. Hver transformation var dokumenteret og valideret.

Fase 2: Model-udvikling og dokumentation

Requirements Specification: Hvad skal modellen kunne? Definer klart:

Problemformulering
Acceptable accuracy-niveauer
Performance-krav
Sikkerhedskrav

Model Selection: Dokumentér hvorfor denne specifikke model-type blev valgt. Vi sammenligner typisk 3-5 forskellige tilgange og dokumenterer rationale for valget.

Hyperparameter tuning: Al tuning skal være sporbar. Vi logger alle eksperimenter med MLflow eller lignende værktøjer, så det er dokumenteret hvordan vi nåede til den finale konfiguration.

Fase 3: Validering og test

Her adskiller GxP-validering sig virkelig fra standard ML-praksis.

Test på uafhængige data: Test-data må ALDRIG have været set under træning eller tuning. I GxP kræver vi ofte et "locked" test-set, der først åbnes når modellen er færdig.

Performance kvalificering: Definer accept-kriterier på forhånd. Eksempel:

Minimum accuracy: 95%
Maksimum false negative rate: 2%
Performance skal være stabil på tværs af forskellige batches

Edge case testing: Test modellen på:

Outliers og ekstreme værdier
Manglende data
Data uden for trænings-distribution
Known failure modes

Bias analyse: Dokumentér at modellen ikke har uacceptabel bias. For en model til screening af clinical trial kandidater testede vi performance på tværs af alder, køn og etnicitet for at sikre ingen diskrimination.

Fase 4: Deployment og Change Control

Versionering: Hver model-version skal være entydigt identificeret. Vi versionerer:

Model-arkitektur
Træningsdata (inkl. eksakt split)
Hyperparametre
Dependencies (biblioteker og versioner)

Change control: Enhver ændring skal gå gennem formelt change control. Selv små justeringer kræver:

Impact assessment
Testing
Godkendelse
Dokumentation

Rollback plan: Hvad gør vi hvis modellen fejler i produktion? Der skal altid være en plan for at rulle tilbage til tidligere version eller til manuel proces.

Fase 5: Kontinuerlig overvågning

ML-modeller er ikke "set and forget." I GxP kræver vi kontinuerlig overvågning.

Performance monitoring: Track løbende:

Prediction accuracy
Distribution af input-data (data drift)
Distribution af outputs
Response times

Periodic review: Kvartalsvis eller halvårlig review hvor vi verificerer at modellen stadig performer som forventet.

Retræning og revalidering: Når skal modellen retrænes? Definer klare kriterier:

Performance falder under threshold
Signifikant data drift detekteret
Nye regulatory krav
Ændringer i underliggende proces

Praktiske udfordringer og løsninger

Udfordring: Forklarlighed

Regulatorer vil ofte vide "hvorfor" modellen træffer en beslutning. Deep learning modeller er notorisk svære at forklare.

Vores tilgang:

Præferer forklarlige modeller hvor muligt (decision trees, linear models)
For komplekse modeller: Implementer SHAP eller LIME for at forklare individuelle predictions
Dokumentér model-adfærd grundigt gennem sensitivity analyse

Udfordring: Reproducerbarhed

At kunne reproducere exact samme model er kritisk i GxP, men ML involverer ofte randomness.

Vores tilgang:

Sæt ALLE random seeds og dokumentér dem
Version-kontrol af alt (kode, data, config)
Containerisering (Docker) af hele miljøet
Automatiserede pipelines der sikrer identisk process

Udfordring: Audit trails

GxP kræver komplet audit trail af alle ændringer og beslutninger.

Vores tilgang:

Automatisk logging af alle model-interaktioner
Integration med elektroniske QMS-systemer
21 CFR Part 11 compliant signatures på kritiske beslutninger

Case: Validering af kvalitetskontrol-model

Vi udviklede en AI-model til automatisk inspektion af pharmaceutical tablets. Dette var et kategori 5 system (GAMP) med direkte GxP-impact.

Vores tilgang:

6 måneders data collection og kvalificering fra produktionslinje
Valg af CNN-arkitektur efter sammenligning med 4 alternative tilgange (dokumenteret)
Locked test-set med 10,000 tablets verificeret manuelt af 3 uafhængige inspektører
Performance krav: Min 99% accuracy, max 0.1% false negatives (defekte tablets markeret som OK)
Komplet validerings-dokumentation: IQ/OQ/PQ på 300+ sider
Kontinuerlig overvågning med ugentlig performance review

Resultat: Model godkendt af QA, implementeret i produktion, og har kørt stabilt i 18+ måneder med konsistent >99.5% accuracy.

Værktøjer og best practices

MLOps for GxP:

MLflow til experiment tracking (med audit logging)
DVC til data og model versionering
Great Expectations til data validering
Evidently AI til monitoring af data drift
SHAP/LIME til model forklarlighed

Dokumentation templates: Vi har udviklet GxP-ready templates for:

ML Model Requirements Specification
ML Model Design Document
Validation Plan og Report
Change Control procedures for ML

Konklusion

AI og ML kan absolut bruges i GxP-miljøer, men det kræver disciplin, grundig dokumentation og en struktureret tilgang til validering. Det er ikke nok at have en model der "virker", den skal være valideret, reproducerbar og kontinuerligt overvåget.

I Hyperbolic kombinerer vi dyb forståelse af både AI/ML-teknologi og GxP-krav. Vi hjælper pharma-virksomheder med at navigere dette komplekse landskab og implementere AI-løsninger der både leverer værdi og opfylder regulatory krav.

Kontakt os for en konsultation om validering af AI i jeres GxP-miljø.

Peter Busk

CEO & Partner

Forrige Artikel

Næste Artikel

[ HyperAcademy ]

Vores indsigter fra branchen

Flere artikler

Colorful software or web code on a computer monitor

26. feb. 2026

IT & softwareudvikling

Afkast på IT-projekter: Sådan måler du værdien

"Kan I bygge os en app?" "Hvad koster det?" "1,5 millioner kroner." "Hvad får vi for pengene?" Dette er en samtale, vi ofte har i Hyperbolic. Og det rigtige svar er ikke "En app med disse funktioner." Det rigtige svar er "Værdi, der overstiger investeringen."

Læs mere

26. feb. 2026

IT & softwareudvikling

Skalering af agil udvikling: Fra 5 til 50 udviklere

Agil virker fantastisk med et lille team. Fem udviklere, en produktejer, daglige stand-ups, to-ugers sprint. Kommunikation er nem, beslutninger er hurtige, udrulning forløber problemfrit. Men så vokser virksomheden. Pludselig har I 20 udviklere. Derefter 50. Og den agile proces, der virkede så godt, begynder at krakelere. Stand-ups tager 45 minutter. Teams træder på hinandens tæer. Udgivelser bliver kaotiske.

Læs mere

26. feb. 2026

IT & softwareudvikling

Cybersecurity i regulerede brancher

I Hyperbolic arbejder vi med cybersikkerhed både i medicinalindustrien og generel softwareudvikling. Regulerede brancher har unikke udfordringer: Sikkerhed skal balanceres med overholdelse af krav, ældre systemer er ofte sårbare, og konsekvenserne af brud er katastrofale.

Læs mere

AI og GxP: Sådan validerer du machine learning-modeller

Peter Busk

Vores indsigter fra branchen

Afkast på IT-projekter: Sådan måler du værdien

Skalering af agil udvikling: Fra 5 til 50 udviklere

Cybersecurity i regulerede brancher

Vi udvikler apps og komplekse IT-løsninger

Vi udvikler apps og komplekse IT-løsninger

Vi udvikler apps og komplekse IT-løsninger