Frågan om att använda molntjänster inom offentlig sektor, myndigheter och industri som hanterar känsligt data står högt på agendan.
Många tjänster i molnet som skulle göra stor nytta för medborgare, patienter och förmånstagare är nästintill omöjliga att tillhandahålla i de begränsade datacenter som enskilda organisationer kan bygga upp.
GDPR har inneburit att känsligt data hanteras mycket varsammare av organisationer än tidigare, vilket är mestadels positivt. Men det innebär också juridiska problem som får som följd att användning av de avancerade bildbehandlingstjänster som finns för t.ex. diagnosticering eller IoT-tjänster för sensorer som diabetespumpar begränsas och i många fall inte ens kommer patienter till del.
Problemet är att de innovativa tjänster som skulle göra stor nytta samlar in känslig data, vilken lagras på de stora molnplattformarna (AWS, Azure, GCP). Tjänsterna är ofta s.k. multi-tenant, vilket betyder att de fysiska servrarna som tjänsterna bygger på används av många olika företag och organisationer, så du kan sällan garantera att det känsliga datat sparas separat. Ytterligare ett problem är att amerikanska myndigheter har kunnat begära att ta del av det data som molnplattformarna förfogar över, då moderbolagen är amerikanska. Vissa hoppas att det nya Trans-Atlantic Data Privacy Framework ska lösa de problemen, men liksom inför dess föregångare EU-US Privacy Shield och Safe Harbour innan dess, är många skeptiska.
Molnplattformarna framhåller gärna att data är krypterat på vägen till och från plattformarna (in transit) och även när det är lagrat på plattformen (at rest). Men när data används dekrypteras det och är alltså åtkomligt för de personer som har behörighet. Molnplattformarna framhåller också att data är säkrare i deras datacenter än i de som enskilda organisationer har råd att upprätthålla. Det stämmer i fråga om externa hot, problemet är att molnleverantörerna hanterar behörigheterna och i vissa fall kryptonycklarna och kan då dekryptera vid behov. Alltså har plattformarna och tjänsteleverantörerna tillgång till data i klartext.
Det bästa vore om man kunde använda de tjänster som plattformarna erbjuder, men utan att behöva röja känsliga patient- eller medborgaruppgifter.
Lyckligtvis finns det några lösningar på det här problemet, genom olika former av kryptografi.
Compute to data
Man kan tänka sig en lösning där man tar tjänsterna till data, d.v.s. man omgrupperar tillfälligtvis beräkningsresurser till t.ex. ett sjukhus för att skapa en modell för att förutsäga sjukdom med sjukhusets data, utan att någon känslig data behöver lämna sjukhusets servrar. Sjukhuset får sedan belöning utifrån användbarhet av modellen. OceanDAO har lanserat en sådan modell, där man försöker skapa en ny sorts dataekonomi genom att öka möjligheten att få ut värde av sin egen data och molnplattformarna har olika erbjudanden kring att ställa servrar on-prem, t.ex. Azure Arc.
Secure MultiParty Computation
En annan modell är MPC (Secure MultiParty Computation) där man separerar de som bidrar med data från varandra och modellen. Det gör att konkurrerande parter kan samarbeta, då de inte ser varandras data, eller dess struktur, men där det finns behov av att samarbeta, t.ex. för banker som undersöker penningtvätt. Den är svårtillämpbar i våra tänkta fall, men skulle kunna vara ett sätt att dela information mellan myndigheter utan att kompromissa med personlig integritet.
ZK-SNARKs
Metoden med bäst namn. ZK-SNARK eller “Zero-Knowledge Succint Non-Interactive Argument of Knowledge”, är ett sätt att visa att man har något eller har gjort något, utan att avslöja någon mer information än så. När du exempelvis går på Systembolaget måste du (om du är yngre än jag) visa legitimation. Men egentligen vill du bara bevisa att du är över 21 år, inte visa ditt namn, personnummer, osv. eftersom det finns risk för t.ex. identitetsstöld. Genom ett ”Zero-Knowledge Proof” skulle du kunna bevisa att du är över 21 år, utan att avslöja någon annan information. ZK-SNARKs är ett snabbare och generaliserat sätt att åstadkomma detta. Det är mycket bra för t.ex. digitala identiteter och digitala betalningar, men skulle också kunna vara del av ett ramverk för kommunikation mellan myndigheter som bibehåller personlig integritet.
Homomorphic Encryption
Den metod som är bäst lämpad för uppgiften är dock homomorf kryptering (HE, eller Full Homomorphic Encryption, FHE). Homomorf, d.v.s. att man omvandlar något till något annat som liknar ursprunget. Det betyder att en organisation som har känsligt data som den behöver behandla kan kryptera den, skicka den till en molntjänst som erbjuder behandlingen och få tillbaka resultatet, utan att behöva dekryptera innehållet. Alltså kommer inte molntjänsten att ha sett det känsliga datat utan enbart krypterat data. Behandlingen körs på det krypterade datat men är tillämplig på dekrypterat data, eftersom operationerna på det krypterade datat är homomorfa, alltså behåller förändringarna när det dekrypteras, om man använder rätt metod när man behandlar det.
Om man t.ex. vill träna en maskininlärningsmodell för att hitta avvikelser i bidragsutbetalningar, kan man träna modellen med molnresurser på krypterat data genom FHE. Sedan implementeras modellen i myndighetens egen miljö och kan upptäcka avvikelser på riktigt, dekrypterat data, utan att ha röjt några känsliga uppgifter för en molnleverantör.
Nackdelen med FHE är att den är beräkningsmässigt kostsam och kan ta mellan 1000 – 1 000 000 gånger längre tid (eller mer datorkraft). Men eftersom detta är något som bara behöver göras initialt när modellen skapas och när modellen ska uppdateras, så är det betydligt effektivare än att köpa in hårdvara för att kunna göra det hos den enskilda organisationen eller myndigheten. Hastigheten är något som det pågår mycket arbete med och exempelvis uppnår en FHE-modell av ett neuralt nätverk samma prognosresultat som en standardmodell på MNIST-datasetet om än något långsammare (ca 2 minuter med 128-bitars säkerhet).
Det går tyvärr inte att använda existerande SaaS-lösningar och liknande med krypterat data på detta sätt, utan man måste anpassa programmen till att använda krypterat data, men vi tror att det bara är en tidsfråga innan det börjar erbjudas.
Slutsats
Genom att använda de olika kryptografiska tekniker som ständigt utvecklas kan de två motstridiga målen personlig integritet och effektivitet med gemensamma molntjänster uppnås. Med FHE finns möjligheten till hybridlösningar där beräkningskapacitet i molnet används för vissa delar av databehandlingen och on-premises används för mindre beräkningsintensiva applikationer och direkt användargränssnitt.
Vi föreslår att organisationer med värdefullt, men känsligt data som är tveksamma till molntjänster kontaktar oss för en diskussion om hur de kan dra nytta av molnet, samtidigt som de förbättrar sina tjänster mot kunder eller medborgare.
Bilden är tagen ur en AI-bildgenerator med texten ”a romatic oil painting of cryptography enabling cures by unlocking stranded data at public institutions”
Comments