Estamos vivendo uma realidade bem distinta do nosso cotidiano. Em quarentena, presos em casa, seja trabalhando ou apenas vendo a grama crescer na janela, é inevitável acessarmos nossos devices em busca de informações se já podemos colocar o nariz para fora de casa com segurança. É claro, também ficamos preocupados com nossa saúde e a de parentes em geral. O volume de informação recebido é enorme, e já desconsideradas as fake news, somos atropelados por notícias sobre o que acontece aqui e no mundo. Este cenário torna desafiador entender o contexto de maneira adequada. E é preciso ter muita calma nesta hora, já que a própria mídia, na sua mais boa vontade, às vezes comete equívocos ao interpretar dados, como por exemplo, medir o distanciamento entre duas linhas de um gráfico com a palma da mão.

Grafico Corona Virus Bahia

As notícias chegam em tempo real sobre o número de casos, de mortes e diferentes fluxos de explicações e indicações. Quais informações devemos olhar mais atentamente para tomar melhores decisões (ou para nos preocuparmos ou tranquilizarmos)?

Nós, da Math Marketing, com nosso time multidisciplinar com Engenheiros, Cientistas da Computação, Estatísticos, Biotecnólogos (pois é!), Físicos, Jornalistas, Historiadores e Publicitários nos sentimos na obrigação de criar um artigo que possa servir de guia para uma melhor interpretação de dados, mesmo que esta não seja muito a sua praia. A intenção é que você seja capaz de filtrar e interpretar as informações mais necessárias nesse momento tão crítico para não cair em gráficos e visões tão complexas que acabam por confundir ou no pior dos casos enganar.

Os dados do momento

Um breve contexto antes de analisarmos os números. Para que esta leitura esteja sempre atualizada, vamos considerar os números iniciais da pandemia no Brasil, que é quando o nosso estudo foi realizado. O racional por trás dos dados estará sempre atualizado para você que está chegando agora. Dado o recado, boa leitura!

Os dados da pandemia

Até o dia 30 de março de 2020, contabilizávamos 4.324 casos confirmados do coronavírus (COVID-19) no Brasil, segundo informações do Ministério da Saúde. O número de mortes atingia a marca de 140, sendo 98 destes somente no estado de São Paulo.

Numero de casos por estado
Figura 1

Estima-se que a transmissão comunitária do vírus começou dia 13/03 no estado de São Paulo. Porém a declaração nacional foi publicada dia 20/03 pelo Ministério da Saúde.

Abaixo vemos um gráfico com a evolução diária do número de casos confirmados no Brasil à época.

Gráfico de Obitos corona virus
Figura 2

Esses são os dados do cenário analisado, mas o que eles representam?

Nas seções abaixo procuraremos exemplificar quais informações devemos nos orientar para tomar.

Dados sem contexto, são inúteis

 

Com o grande volume de dados compartilhados publicamente, seria fácil assumir que temos as informações necessárias para indicar com precisão como a doença progredirá e quais serão seus impactos a longo prazo. Mas nos estágios iniciais de uma epidemia, o fato de que os números, taxas e conhecimento da doença mudarão diariamente (talvez até a cada hora), a constante mudança é a única certeza.

Dessa forma, entender o contexto faz toda a diferença (e como faz!). Muitos dos dashboards que estão aparecendo na mídia e até mesmo as manchetes dos jornais apresentam os números brutos de casos, recuperados e mortes. Entretanto, o que esses números querem dizer? Como foram calculados? Como chegaram nesse valor? 

Comparabilidade de dados entre países.

Epidemias possuem dinâmicas de propagação particulares, dentre elas o contato entre pessoas e a distância que estas percorrem entre cidades/estados. Sendo assim, é praticamente impossível fazer uma comparação precisa entre os países nessa situação. Cada país está adotando diferentes estratégias de medição de casos. Essas estratégias podem variar de quantidades de testes por habitantes, metodologia para avaliar o que é um caso ou não, ou até mesmo a legislação e medidas adotadas para controle.

Testes do coronavírus por habitantes

Um dos principais fatores que impacta diretamente na quantidade de casos conhecidos de COVID-19 é o número de testes por habitantes pois, quanto mais testes realizados, espera-se que mais casos sejam notificados. Contudo, nem sempre isso é verdade, pois diferentes fatores impactam na testagem, início da política de testes, disponibilidade de testes no mercado.

Peguemos por exemplo, a Itália e a Coréia do Sul, com populações parecidas, 60,48 milhões e 51,47 milhões, respectivamente. Até o dia 29/03/2020 a Itália havia realizado 35 mil testes a mais que a Coreia do Sul, sendo que a quantidade de testes por milhões de habitantes estava bem próxima, 7.251 e 7.622, respectivamente.

Porém o número de casos positivos para COVID-19 variava bruscamente, 92.472 e 9.583, quase 10x a mais para Itália. Isso decorre por conta política de testagens em massa terem começado tardiamente na Itália, que pode ter impactado na proliferação do vírus.

Gráfico de testes do corona virus

O Brasil, ainda segue uma linha de verificar somente os casos graves, podendo levar a uma subnotificação e uma sensação de situação controlada. Por fim, é muito difícil encontrar informações sobre o número das aplicações realizadas no Brasil, sendo que a última estatística verificada na época deste estudo, no dia 18/03/2020, eram de 45.708 testes realizados, ou seja, a cada 1 milhão de habitantes 218 eram testados.

Metodologias

Outra situação que impacta diretamente nos números é a definição do que é considerado um paciente infectado. Em fevereiro, o balanço de Hubei, China, incluiu como contaminadas pessoas que a imagem do pulmão apresentasse sinais de pneumonia, sem a necessidade de um exame laboratorial. Com isso os casos passaram de 15 mil para 60 mil naquele momento –distorcendo as análises de propagação e letalidade.

Para a situação brasileira considera-se paciente infectado quando o teste realizado para o COVID-19 testa positivo.

Estratégias de controle para o vírus

Dentro dos fatores que impactam o número de casos (e mortes) está a estratégia de contenção adotada por cada país. Estratégias mais radicais como supressão, em que distanciamento social precisa envolver quase toda a população, a quarentena de todos os casos identificados é imperativa, a testagem é feita em massa, e há fechamento de escolas, universidades e comércios, a tendência é ter um aumento de casos num primeiro momento, mas o pico do número de infectados é menor e ocorre de forma mais lenta do que se nada fosse feito. São os cenários no qual menos vidas são afetadas, segundo estudo da Imperial College London para o caso do Brasil.

Por outro lado, uma estratégia mais branda como a mitigação, em que a quarentena é para quem pode ter sido infectado, distanciamento social, redução de aglomerações públicas e outras ações que dependem da disposição da sociedade em cumprir, podem reduzir o número de casos num primeiro momento, mas posteriormente tende a se observar uma rápida evolução da propagação do vírus.

Temos como exemplo duas províncias Italianas: em Lodi aplicou-se a supressão em 23 de fevereiro. Bergamo só fez isso em 8 de março. Nas duas primeiras semanas, indiferente a medida tomada e as características da província, população, densidade demográfica, ou mesmo a quantidade de testes o crescimento no número de casos segue uma taxa aproximada. Após a segunda semana (07/03/2020), observa-se que a curva de Bergamo assume um comportamento exponencial, tendo uma taxa de crescimento superior à de Lodi, que assume um comportamento mais linear.

grafico corona vírus
Fonte: Leverhulme Center for Demographic Science

Entretanto, cabe ressaltar que somente o número de casos não é o suficiente para se comparar, pois há divergências entre as províncias que não estavam sendo levadas em conta, tais como: número de testes, densidade populacional, além da análise ser em uma breve janela de tempo, no caso, um mês. Porém, serve como um indicativo que a supressão é a melhor alternativa.

Caso Especial – Cidade de Vò

Um estudo piloto iniciado pela universidade de Pádua e a Cruz Vermelha, testaram todos os moradores da pequena cidade de Vò, próximo a Veneza, com 3.300 habitantes. Como houve teste em todas as pessoas da cidade, foram capazes de obter um parâmetro sobre o novo coronavírus.

Logo após a primeira morte na Itália, que foi em Vò, em 22 de fevereiro, a pequena cidade declarou supressão total, ou seja, ninguém mais entrava e ninguém mais saía. Além disso, adotou uma política de testar todos os moradores da cidade.

Na primeira rodada de testes, encontrou 3% da população infectada, embora metade dos portadores não apresentasse sintomas, ou seja, eram assintomáticos.

Isolou-se os infectados, a segunda rodada, cerca de 10 dias depois, mostrou que a taxa de infecção havia caído para 0,3%. Nesta segunda rodada foram identificados pelo menos seis indivíduos que tinham o vírus, mas sem sintomas, o que significa que eles poderiam ficar em quarentena.

Dessa forma, foram capazes de erradicar a doença em menos de 14 dias.

Cuidado com os gráficos, nem sempre são o que parecem

Gráficos são elementos visuais que têm como finalidade auxiliar no processo de entendimento de uma informação, contudo, com pequenos ajustes e alterações ainda que matematicamente corretas, podem levar o usuário a interpretar os dados de forma errônea. Por isso, preste atenção nas seguintes situações.

tabela corona vírus
Tabela A
  • Qual é a função da tabela?

Na tabela A, a ideia é quebrar por faixa etária o número de pessoas hospitalizadas e óbitos no período de 12/02/2020 até 24/03/2020.

  • Quais variáveis estão sendo apresentadas?

Na tabela A, a coluna ”age” é a faixa estária agrupada de 0-17, 18-44, 45-64, 65-74 e 75. A coluna ”hospitalized” é o número de pessoas hospitalizadas. Porém, por que a classe de 18-44 está unida? Repare que ela é a maior de todas em faixa etária (compreende um total de 26 anos) e assim fica com o segundo maior número de hospitalizações, dando a entender que para este grupo o número de hospitalizados é próximo ao das classes 45-64, 65-74.  

Tabela B
  • Qual é a função do gráfico?

No gráfico B, espera-se apresentar a evolução no número de casos de COVID-19, em diferentes localidades do mundo após a identificação do primeiro caso.

  • Quais variáveis estão sendo apresentadas?

Um gráfico bidimensional é composto normalmente por dois eixos principais, o eixo horizontal (X) e o eixo vertical (Y), vamos agora identificar o que é cada um dos itens nos gráficos acima.

No caso da imagem B, o eixo X é o número de dias desde o primeiro caso de COVID-19. O eixo Y é o número de número casos de COVID-19, mas, calma aí, como pode o espaçamento entre 1, 10, 100, 1.000, 10.000 e 100.000? Isso ocorre, pois na verdade os números estão em escala logarítmica, entretanto essa informação não aparece em nenhum local.

Nos dois gráficos abaixo, exemplificamos a diferença de suavizar as curvas através da escala logarítmica. O gráfico da esquerda, em log, aproxima as diferentes curvas dos diferentes países, como se fosse um zoom, dando a ideia que as curvas estão mais próximas do que de fato estão, quando vemos na escala linear (número não transformado).

Evolução Coronavirus

No gráfico abaixo separamos apenas as curvas do Brasil para que possamos compreender melhor a diferença entre o comportamento das curvas em escala logarítmica e linear.

grafico coronavirus BRASIL
Legenda: Comparação entre a evolução do número de casos em escala logarítmica (eixo da esquerda) e linear (eixo da direita). Aqui, novamente, devemos dar uma devida atenção a diferença de comportamento entre as curvas. A log, se aproxima de uma reta, enquanto a linear de uma exponencial.

Note como os dados em log assumem uma tendência linear, enquanto os gráficos não transformados assumem uma tendência exponencial, como é possível ver na imagem acima.

Procure interpretar o dado que está sendo mostrado.

Embora a ideia de um gráfico seja transmitir uma informação de forma rápida e acessível, a comunicação de informações em uma pandemia é um momento único, no qual, tanto as decisões individuais quanto as decisões políticas podem impactar a escala da doença, o cuidado na comunicação deve ser essencial.

Por fim…

 

Pregamos que o momento é de humildade, admitindo o quanto ainda não sabemos sobre a atual pandemia e admitindo que ainda é cedo para concluir a melhor estratégia.

Países como a Suécia (https://www.thejournal.ie/sweden-response-to-coronavirus-5061488-Mar2020/) estão adotando estratégias bastante diferentes da maioria, justamente confiando que parte do que inferimos atualmente pode não estar correto.

Todos os modelos matemáticos que governos do mundo tem usado para prever os números de casos e internações, por mais geniais que possam ser, vão produzir estimativas tão boas quanto os dados que forem utilizados para alimentar esses modelos. E aí começam as perguntas… uma vez que a epidemia ainda está em curso, que dados usamos para as variáveis que anda não sabemos? Por exemplo, qual a taxa de fatalidade correta, a da Alemanha, inferior a 1% dos casos ou a da Itália, acima de 10% dos casos? (https://www.vox.com/world/2020/3/27/21196246/coronavirus-germany-death-rate-covid-19-cases-italy-europe) Seria isso a diferença do volume de testes? Da idade da população? Ou de ambos e de mais alguns fatores ainda desconhecidos?

Saibam que mesmo os avançados modelos do Imperial College London (que tem apoiado decisões governamentais, inclusive no Reino Unido) tem sido constantemente revisados, indicando a cada revisão números diferentes e inclusive tento sido julgado como “errado” recentemente. (https://www.dailywire.com/news/epidemiologist-behind-highly-cited-coronavirus-model-admits-he-was-wrong-drastically-revises-model)

 

Então, por favor, ao consumirem os dados de estimativas de casos ou mortes, o façam com moderação.

Estudos realizado por:
Felipe Vargas
Sergio Larentis
Jesus Bardini