Postnummerstrategin för att bekämpa Covid-19

Tuesday 12 May, 2020

Bild: 2017-09/dsc01062.jpg

Det har förts en diskussion om huruvida smittspårningsappar skulle vara ett effektivt sätt att bekämpa Covid-19. Vissa forskare argumenterar emot detta och menar att en slumpmässig testning av befolkningen skulle fungera precis lika bra. Jag har funderat över detta och tror att det kan finnas ytterligare en metod - som varken bygger på smittspårning eller slumpmässiga tester. Har valt att kalla strategin för "postnummerstrategin", eftersom den bygger på att man enbart använder statistik om vilka postnummer som olika individer är folkbokförda på.

Det finns 17000 postnummer i Sverige. När en person registreras som smittad av Covid-19 kommer med nödvändighet även det postnummer som personen är folkbokförd på att registreras.

Och det är här allt börjar. Att beräkna sannolikheten för att en individ som är folkbokförd på postnummer X smittar en person som är folkbokförd på postnummer Y kan tyckas som en omöjlig uppgift. Men för en dator är det förhållandevis enkelt att räkna ut denna sannolikhet, på grundval av annan information som är relaterad till respektive postnummer.

Postnummerstrategin handlar om att beräkna sannolikheten för att postnummer smittar varandra, inte för att människor gör det. Därför kränker inte datainsamlingen individers personliga integritet. Man kan diskutera om datainsamlingen kränker bostadsområdenas personliga integritet, men det är en annan fråga.

Beräknar man sannolikheten för att en person som bort i postnummerområde X smittar en person som bor i postnummerområde Y får man en matris med 290 miljoner olika sannolikheter. Matrisen har även en egensannolikhet - diagonalen - som visar sannolikheten för att en individ som exempelvis bor på postnummer 11758 smittar en person som bor inom samma postnummerområde.

En algoritm för att skapa underlag för individuella beslut skulle bygga på denna matris. Varje gång en individ registreras som smittad av Covid-19 används matrisen för att beräkna sannolikheten för att denna individ ska smitta personer i vart och ett av de övriga 17000 postnumren. För vart och ett av dessa postnummer är sannolikheten givetvis oerhört låg. Om R ligger på 2,0 är sannolikheten i snitt 2,0/10000000=0,0002 promille. Men om antalet smittade är 100000 kommer sannolikheten att bli smittad uppgå till 2 procent.

Poängen med matrisen är att beräkna sannolikheten för att en enskild individ blir smittad, givet att hen bor i postnummerområde X. Summan av sannolikheterna för att någon av de 100000 smittade personerna smittar just mig är beroende av i vilka postnummerområden som de smittade bor. Om alla smittade bor i Stockholm och jag själv bor i Gällivare, exempelvis postnummer 98201, är sannolikheten betydligt mindre än om jag bor på Vingårdsgatan i Stockholm, alltså postnummer 11758.

Information om vilka personer som är smittade är känslig och kan givetvis inte offentliggöras. Informationen om hur många som är smittade i ett visst postnummer är däremot inte speciellt känslig och skulle kunna göras allmänt tillgänglig. I samma ögonblick som en person konstateras smittad skulle databasen kunna uppdateras. Denna information finns redan i dag i patientjournaler och behöver bara bearbetas centralt, för att därefter aggregeras och publiceras på postnummernivå.

Med hjälp av statistiken om andelen smittade på postnummernivå kan den betingade sannolikheten för att bli smittad också beräknas på postnummernivå. Varje individ får då i realtid ett underlag för att fatta beslut om åtgärder för att undvika smitta. Ska jag avstå från att gå på restaurang, ska jag undvika att gå till jobbet eller bör jag till och med låsa in mig i lägenheten?

I dag fattas sådana beslut på grundval av mycket oprecis information - rena gissningar. Med realtidsdata skulle besluten baseras på verkliga risker som antagligen ligger väldigt nära de faktiska riskerna.

Men människor som får veta att de är smittade kommer ju att isolera sig, vilken är då poängen med att undvika postnummer där många är smittade? Problemet med det resonemanget är att smittspårning, bland annat modellen med smittspårningsappar, förutsätter att individer isolerar sig - vilket kan ske eller inte. Vi kan inte garantera att individerna verkligen isolerar sig och de kan redan ha hunnit smitta ner ett antal andra - vanligen boende inom samma eller näraliggande postnummer.

Med en klustersmitta som Covid-19 ger postnummermetoden oss en framförhållning som det är svårt att uppnå med andra metoder. Även en app som spårar i realtid kommer att ligga efter, då smittan registreras först efter test. Med postnummermetoden spårar vi sannolika smittbärare i realtid och till och med i framtiden. Smittspårningen är bakåtblickande, postnummermetoden är prediktiv och ser framåt.

Ska inte gå in på vilken metod som är lämpligast för att beräkna sannolikhetsmatrisen, men det förefaller vara en hyfsat enkel tillämpning av maskininlärning. Det går antingen att använda verkliga data om vem som smittat vem eller låta programmet lära sig smittvägarna självt - baserat på indirekt information.

Det första steget för att pröva om postnummermetoden fungerar i verkligheten vore att simulera smittspridning baserat på verkliga data. Leker med tanken att använda det amerikanska dataset på countynivå som jag tidigare använt. Men allra bäst vore givetvis verkliga svenska data om antalet smittade på postnummernivå. Även en rudimentär sannolikhetsmatris, som bara baseras på geografiskt avstånd och befolkningstäthet, skulle innebära en stor förbättring av möjligheten att bedöma risken för smitta. 

Det enda som myndigheterna egentligen behöver tillhandahålla är ett API som i realtid redovisar hur många som registrerats som smittade varje enskilt dygn i varje postnummerområde. Med denna information som underlag kan apptillverkare lösa resten - den mest självklara applikationen är förstås en app som varnar för Covidsmitta, baserat på individens geografiska position. Men även massutskick av SMS, informationskampanjer och eventuella restriktioner kan baseras på informationen.

Jag är övertygad om att epidemin på Järvafältet mycket snabbt hade bekämpats om statistik på postnummernivå hade funnits tillgänglig när Covid-19 började spridas i landet i januari. Problemet med Covid-19 är egentligen inte att vi saknar motmedel, problemet är att fienden är osynlig. Med postnummerstrategin kan viruset synliggöras och därmed också bekämpas.