{h1}
vetenskap + teknik

Googles influensofel visar problemet med stora data

Anonim

När folk pratar om "stora data" finns det ett ofta citerat exempel: ett förslag till folkhälsoverktyg som kallas Google Flu Trends. Det har blivit något av en uppringning för den stora dataförflyttningen, men det kanske inte är lika effektiv som många påståenden.

Tanken bakom stora data är att stor mängd information kan hjälpa oss att göra saker som mindre volymer inte kan. Google skisserade först Flu Trends-tillvägagångssättet i ett 2008-papper i tidskriften Nature. I stället för att förlita sig på sjukdomsövervakning som används av de amerikanska centrumen för sjukdomsbekämpning och förebyggande behandling (CDC) - till exempel besök på läkare och laboratorietester - föreslog författarna att det skulle vara möjligt att förutsäga epidemier genom Google-sökningar. När de lider av influensa, kommer många amerikaner att söka efter information relaterad till deras tillstånd.

Google-teamet samlade in mer än 50 miljoner potentiella söktermer - alla sorters fraser, inte bara ordet "influensa" - och jämförde hur ofta man sökte efter dessa ord med antalet rapporterade influensaliknande fall mellan 2003 och 2006. Dessa data avslöjade att av de miljontals fraserna fanns det 45 som gav bästa passform till de observerade data. Teamet testade sedan sin modell mot sjukdomsrapporter från den efterföljande epidemin 2007. Förutsägningarna verkade vara ganska nära det verkliga sjukdomsnivået. Eftersom influensatendenser skulle kunna förutsäga en ökning av fallen före CDC, blev det trumpet som ankomsten av den stora datatiden.

Mellan 2003 och 2008 hade influensepidemier i USA varit starkt säsongsmässiga, vilket framträdde varje vinter. Under 2009 började dock de första fallen (som rapporterades av CDC) i påsk. Flu Trends hade redan gjort sina förutsägelser när CDC-data publicerades, men det visade sig att Google-modellen inte stämde överens med verkligheten. Det hade väsentligt underskattat storleken på det ursprungliga utbrottet.

Problemet var att Flu Trends bara kunde mäta vad folk söker efter; Det analyserade inte varför de letade efter dessa ord. Genom att avlägsna mänsklig inmatning och låta de råa uppgifterna göra arbetet, måste modellen göra sina förutsägelser med endast sökfrågor från de föregående handfulla åren. Trots att dessa 45 villkor matchade de regelbundna säsongsutbrotten från 2003-8, återspeglade de inte den pandemi som kom fram under 2009.

Sex månader efter att pandemin startade, uppdaterade Google - som nu hade nytta av efterhand - sin modell så att den matchade CDC-data för 2009. Trots dessa förändringar sprang den uppdaterade versionen av influensatendenser till svårigheter igen förra vintern när den överskattade influensapidemins storlek i New York State. Incidenterna 2009 och 2012 tog upp frågan om hur bra influensatendenser är för att förutse framtida epidemier, i motsats till att bara hitta mönster i tidigare data.

I en ny analys, publicerad i tidskriften PLOS Computational Biology, rapporterar amerikanska forskare att det finns "betydande fel i uppskattningar av influensatiming och intensitet" i Google Flu Trends. Detta bygger på jämförelse av prognosen för Google Flu Trend och de faktiska epidemiedata på nationell, regional och lokal nivå mellan 2003 och 2013

Även när sökbeteendet var korrelerat med influensafall, misstod modellen ibland viktiga folkhälsoprognoser såsom topputbrottstorlek och kumulativa fall. Förutsägningarna var särskilt stora av varumärket 2009 och 2012:

Trots att de kritiserade vissa aspekter av Flu Trends-modellen tror forskarna att övervakning av internetsökfrågor kan visa sig vara värdefulla, särskilt om det var kopplat till andra övervaknings- och prediktionsmetoder.

Andra forskare har också föreslagit att andra källor till digitala data - från Twitter matar till mobiltelefonen GPS - har potential att vara användbara verktyg för att studera epidemier. Sådana metoder kan, såväl som att hjälpa till att analysera utbrott, låta forskare analysera mänsklig rörelse och spridning av information om folkhälsan (eller felaktiga uppgifter).

Även om det har skett mycket uppmärksamhet på webbaserade verktyg finns det en annan typ av stora data som redan har stor inverkan på sjukdomsforskning. Genomsekvensering möjliggör för forskare att sammanfatta hur sjukdomar överför och var de kommer ifrån. Sekvensdata kan till och med avslöja förekomsten av en ny sjukdomsvariant: tidigare i veckan tillkännagav forskare en ny typ av dengue fever virus.

Det råder ingen tvekan om att stora data kommer att ha några viktiga tillämpningar under de kommande åren, vare sig inom medicin eller inom andra områden. Men förespråkare måste vara försiktiga med vad de använder för att illustrera idéerna. Även om det finns gott om framgångsrika exempel som dyker upp, är det ännu inte klart att Google Flu Trends är en av dem.

Rekommenderas

Inhemskt våld utelämnas ofta från dömningsreformer. Därför är det ett misstag

Harcèlement sexuel au travail: une question de consentement?

Hur tillgång till sjukvård för döva kan förbättras i Kenya