Dålig data kring Corona

Under Corona har stora mängder data samlats in och analyserats under kort tid. Det är för alla som jobbar med data uppenbart att de olika källorna, tvivelaktig kvalitet och data som inte är av samma format lätt kan ge upphov till bristfälliga analyser.

Ändå matas vi som medborgare/konsumenter med mängder av undersökningar, om allt från vilka vitaminer som hjälper mot Corona till studier över vilka som är immuna mot viruset. Alla dessa undersökningar bygger på ofullständig data av bristande kvalitet. Därför bör de tas med en nypa salt. Jag säger inte att alla är fel, bara att man inte kan vara säker på att de är rätt och om det inte framgår vilken data de bygger på så bör man inte bry sig alls om innehållet.

Samma sak är det med företag och deras analyser kring Covid-19 och samhällets reaktioner. Hur påverkas till exempel produktiviteten av att jobba hemifrån? Vad kan man tro om hur kunderna återvänder när länderna öppnas upp? Vad händer med ekonomin framöver? Alla analyser bygger på den data vi har och saknar insikter från data vi inte har. Då det är stora brister i hur data samlats in, preparerats, kontrollerats så går det inte att lita på allt. Det gör det svårt att fatta beslut om framtiden.

Det betyder dock inte att man ska sluta fatta beslut baserat på befintlig data. Men det man bör göra är att vara medveten om bristerna och i möjligaste mån försöka förebygga felaktiga slutsatser.

Det är viktigt att kontrollera data som kommer in för att hitta avvikelser och eventuellt utesluta källor/datamängder som inte förefaller ha bra kvalitet. Detta kan göras både automatiskt och manuellt.

Samtidigt måste den data som ska användas prepareras så den är konformativ (i brist på relevanta svenska ord försöker jag skapa ett svenskt ord av ett engelskt), dvs är jämförbar, tolkningsbar och i samma format som annan data och inte leder till felaktigheter.

Det är också viktigt att vara medveten om brister i datan och att förmedla det till de som tar del av analyserna. Det handlar inte bara om att i största allmänhet varna för att datan kanske inte är korrekt utan att upplysa om eventuella brister man kan se eller misstänka. Men det är också viktigt att ha med information om var datan kommer ifrån, vem som är ansvarig för den och vad syftet var med att samla in den. Har man inte hela bilden så är risken stor att man drar fel slutsatser och fattar beslut som kan vara förödande.

Jag försöker skriva så att alla ska förstå, men för den som vill grotta ner sig mer kring datakvalitet och Corona rekommenderas följare läsning på engelska:

Kommentera

Denna webbplats använder Akismet för att minska skräppost. Lär dig hur din kommentardata bearbetas.

%d bloggare gillar detta: