13/03/2020 às 4:49

Como Mentir com Estatística: aprenda a não ser enganado

TC School TC School

De início, Darrell Huff (1993), em Como Mentir com Estatística, compila uma série de pontos críticos nas informações transmitidas sob o argumento da comprovação estatística, tanto utilizando casos verídicos (veja um exemplo aqui) quanto casos hipotéticos e plausíveis de serem encontrados na vida real.

De início, Huff expõe um caso em que um homem atribui o espaço dado pelos jornais como proxy para “taxa de criminalidade”.

Com isso, uma inocente constatação de um civil se mostra preocupante no sentido que a informação absorvida pode ser propagada, sem os devidos cuidados.

 

Isso evidencia uma deficiência considerável quanto à absorção de informações numéricas e alarmantes, que se utilizam e/ou deturpam números estatísticos.

Analogamente, citam-se os casos recentes em que o Ministro das Relações Exteriores atribui o aumento da temperatura média do planeta ao fato de os observatórios estarem mais próximos do asfalto – hoje presente em um número maior do que fora outrora. Assim, o ministro questiona o aquecimento global e expõe essa opinião para toda a população.

Cita-se também como exemplo a fala do ex-presidente Luiz Inácio sobre criar números fictícios sobre as mazelas do Brasil em conferências nacionais e internacionais, sem que ao menos existisse fonte para os números expostos.

Nessa toada, Como Mentir com Estatística expõe a necessidade de discutir métodos e termos estatísticos, a fim de que a população se proteja da má utilização, já aprendida e amplamente praticada pelos “criminosos”.

 

 

O caso da média salarial dos ex-alunos de Yale

Utilizando uma notícia veiculada pelo jornal Sun, de Nova Iorque, sobre a expressiva média salarial (25.111 dólares) dos ex-estudantes da universidade Yale, Huff expõe diversos potenciais problemas relacionados à forma como o número foi obtido. No primeiro ponto, o autor busca falsear o resultado colocando em questão os indivíduos observados na eventual pesquisa.

Questiona-se se, de fato, todos os alunos (ou todos os tipos) estão representados nessa pesquisa. Existe uma probabilidade de que apenas os alunos mais bem-sucedidos tenham sido abordados anos após a formatura.

 

Segundo o autor, para se obter uma amostra bem distribuída da população em estudo, é necessário que a amostra contenha membros dos diversos tipos ali presentes. Como exemplo, Huff cita o reconhecimento dos tipos de feijões, em um grupo grande de feijões, com base em uma amostra aleatória.

Esses pontos são suficientes para colocar em evidência “verdades” bradadas pela grande mídia sobre aumento de índices que amedrontam a população.

 

Aplicando o conceito ao aumento do número de casos de feminicídio em Minas Gerais

Recentemente, a TV afiliada à rede globo, em Minas Gerais, noticiou que o estado apresentou o maior número de casos de feminicídios do país, em 2018.

Ocorre que, embora o número absoluto possa ser verdadeiro, descabe de sentido comparar valores absolutos entre estados com populações significativamente distintas.

Resultados de pesquisas e as mentiras estatísticas que as pessoas contam

Na sequência, o autor expõe outro possível problema relacionado ao respondente dizer ou não a verdade, tendo em vista a informação advém de um questionário.

Analogamente, Huff cita um levamento a respeito das revistas consumidas por parte da população americana, em que ficou constatado que a maior parte dos respondentes mentiu ao ser questionado, informando aquilo que soava mais socialmente aceitável, para não ser julgado.

Exemplo do registro de tumores de Connecticut e o viés de sobrevivência

Em outro exemplo, o autor apresenta um caso em que dados pregressos dos arquivos de Registros de Tumores do Connecticut foram preenchidos com os indivíduos ainda moradores do estado norte americano.

Isso expõe um caso de viés de sobrevivência, o que pode invalidar o que foi exposto, uma vez que a amostra está enviesada. Logo, para ser representativa, a amostra precisa ser aleatória. Com isso, o autor sugere: “experimente dar esta espécie de segunda olhada nas coisas que ler. Você poderá evitar aprender um monte de coisas que não existem”.

Possível explicação para a eleição de Donald Trump

Dado o alto custo para se chegar a uma amostra aleatória representativa, existe a alternativa de se chegar a uma “amostra aleatória estratificada”. Contudo, a estratificação aumenta a discricionariedade na escolha dos parâmetros de grupos.

Tais potenciais problemas podem ajudar a explicar, inclusive, o equívoco do consenso das prévias na última eleição norte-americana, em que o então candidato Donald Trump se mostrava derrotado.

Ocorre que em “enquetes de rua”, o viés de escolha do entrevistador tira a aleatoriedade e prejudica o resultado, dado que “sua informação sobre as proporções pode estar incorreta”.

Ademais, uma vez estabelecidas as proporções (com risco de estarem erradas), você sai à rua e abre mão de quem está em casa, e vice-versa.

 

 

Perguntas diferentes para pessoas diferentes

Em outro ponto crítico, Huff comenta um caso de questionário aplicado durante a II Guerra Mundial, em que ficou evidente um viés desconhecido acerca do entrevistado por parte do entrevistador.

Isso porque as respostas feitas aos entrevistados negros eram significativamente diferentes daquelas feitas aos de cor não negra.

 

O problema das medidas de tendência central

Em Como Mentir com Estatística, Huff também faz uma série de críticas ao uso das medidas de tendência central, as quais são tratadas como “tipos de médias”. Assim, ele destaca a diferença entre média, mediana e moda, demonstrando a diferença causada na distribuição da variável. Ainda, isso costuma ser usado em favor de quem emite a informação, confiando que o interlocutor desconhece tais medidas estatísticas.

A título de exemplo, ele cita que empresas podem rearranjar e/ou reclassificar valores de remunerações de salários e lucros, a fim de transmitir uma mensagem de lucros baixos e menos desigualdade entre donos e funcionários, para justificar a rejeição a um eventual pedido de aumento por parte dos funcionários ou sindicatos.

 

 

Os numerozinhos que não estão lá

No capítulo 3, Huff lança luz naquilo que ele chamada de “os numerozinhos que não estão lá”, para enfatizar que uma notícia com uso de “estatísticas” por vezes deixa de lado informações relevantes para o “correto” entendimento sobre o experimento ou teste que tenha sido enunciado.

Isso ocorre, frequentemente, em propagandas de produtos dentários, por exemplo. A estratégia citada é “pinçar” uma pequena amostra para provar o ponto que se deseja demonstrar (e vender).

Huff ainda salienta que a eventual melhoria do produto deve ser algo considerável, de modo a chamar atenção do potencial comprador. Desta forma, o anunciante consegue criar uma roupagem científica em algo grosseiramente comercial.

Por mais que um ou outro telespectador esteja alerta, a grande massa tenderá a comprar a ideia.

Experimentos incorretos

Outra estratégia mencionada pelo autor é a condução incorreta do experimento. Nas ciências médicas, o experimento é algo mais praticado em relação às ciências sociais, que invariavelmente se utilizam de um “quase-experimento”. Fato é que a investigação requer sempre que existam, minimamente, 2 grupos comparáveis a priori.

Mantendo o controle do ambiente, ambos recebem algo que represente o fenômeno de interesse (vírus, bactéria etc.). Tempos depois, o grupo de tratamento deverá receber o antídoto enquanto o outro ficará como grupo de controle (e receberá algo inócuo – placebo).

Assim, se o fato de apenas aguardar o decorrer do tempo “curar” ambos os grupos, de nada terá adiantado o antídoto. O problema está na comparabilidade dos grupos.

Na clássica descrição acima, parte-se do pressuposto que o ambiente está de fato controlado e que ambos os grupos estão expostos aos mesmos impulsos.

O caso da vacina contra a poliomielite

Huff retrata um caso de teste de vacina contra um tipo específico de poliomielite em crianças (450 no grupo de tratamento e 680 no grupo de controle), isto é, em ambiente de difícil isolamento dos efeitos externos.

Tempos depois, após uma epidemia, nenhuma das crianças de ambos os grupos foi diagnosticada com aquele tipo de doença. Na ocasião, observou-se uma baixa incidência de outro tipo de pólio (paralisante). Isso evidenciou que um teste adequado demandaria um número 15 a 20 vezes maior para chegar a alguma conclusão.

Significância estatística e os testes de hipóteses veja o que diz o livro Como Mentir com Estatística

No capítulo seguinte de Como Mentir com Estatística, Huff enfatiza o papel do nível de significância de um teste de hipótese, que diz respeito aos desvios da estatística encontrada.

Ou seja, se, em caso de repetição do teste por 100 vezes, a estatística calculada tende a ser estável. Além disso, ele expõe que determinados tipos de anunciados tornam-se mais úteis quando a classificação se dá em faixas.

Huff aponta que embora números decimais sejam travestidos de precisão, essa imagem comprimida da realidade acaba por distorcer, por exemplo, a construção de apartamentos em número adequado de quartos.

Ou ainda, pode conduzir pais e mães a classificarem seus filhos como anormais em determinados quesitos como altura, ou quanto ao tempo levado para andar, falar ou sentar-se de forma ereta. Esses números omitidos (faixas) são chamados de “normas de Gesell”.

Cuidado com o uso de estatísticas em propagandas

Como Mentir com Estatística também traz uma critica o uso de estatísticas incompletas em propagandas, como uma realizada por uma companhia elétrica americana, em 1948.

Nesse exemplo, há um elemento adicional: o uso seleto de termos dúbios, como no anúncio “hoje, a energia elétrica acha-se disponível para mais de três quartos da população das fazendas americanas”.

O termo marcado permite que o leitor entenda a priori que 3/4 da população recebe energia, porém não é isso que a mensagem retrata.

Exemplo do desmatamento com os campos de futebol

Também é possível incrementar com o uso de comparações que visam “ajudar” o leitor na interpretação do caso, se utilizando de uma forma inadequada, como em “Ventos desmataram área equivalente a 700 campos de futebol em SP” (GAMA, 2017).

Se o desmatamento é significativamente grande, a conversão de 698 hectares em 700 campos de futebol não soa honesto. Isso porque um campo de futebol, aquele espaço dentro das ‘4 linhas’, parece grande dentro de uma cidade, mas é algo relativamente pequeno em uma floresta, por exemplo.

Ocorre que jornalistas, invariavelmente, se utilizam do imaginário popular, confiando que ele vai extrapolar i) para a área ocupada pelo estádio; e ii) para algo estratosférico, uma vez que para o cidadão médio, um “estádio” consegue ocupar cerca de 100 mil pessoas.

Ou seja, conduz o leitor a fazer interpretações sem o menor cabimento.

 

Como mentir com gráficos

Adiante, Huff explora o uso da estratégia visual amplamente utilizada para transmitir uma situação: os gráficos. Observa-se que um gráfico truncado, isto é, com o eixo Y (normalmente) fora do intervalo [0; y] pode distorcer significativamente o retrato do evento e, consequentemente, a verdade.

Isso soa verdadeiro quando o eixo truncado é omitido. O autor aponta o “gráfico de barras” como o mais comum de ser retorcido para dar essa impressão. Porém, a técnica de “truncagem” também é aplicada em gráficos de linha para evidenciar, enfatizar ou até mesmo criar tendências.

Exemplo do salário médio mensal

Ainda sobre gráficos, Huff apresenta estratégias “lúdicas” de apresentar uma “realidade”, que é mais perigosa do que a técnica da truncagem. O autor exemplifica com um caso hipotético do salário semanal médio dos carpinteiros dos Estados Unidos da América e da “Rotúndia”.

Ao invés de utilizar um gráfico de barras (não truncado) para expressar uma diferença dos hipotéticos 60 e 30 dólares semanais, o autor demonstra que muitos publicitários extrapolam as dimensões quando vão expressar essa ideia de que “um é o dobro do outro”.

No exemplo, o autor apresenta a figura de um homem segurando um saco de dinheiro e o outro homem com um saco de dinheiro com o dobro do tamanho. Ocorre que o segundo saco também cresceu em largura, alcançando um tamanho de 8 vezes (2³) o primeiro.

Por fim, Huff comenta que “há frequentemente muitas formas de expressar qualquer número” que seja uma pesquisa de opinião, cuja pergunta realizada tenha sido distorcida na interpretação ou até mesmo na divulgação de um resultado de uma empresa.

Há ainda estratégias de distorção da referência, em usos de proporções (como no caso da comparação do número de mortos civis e militares, cujo perfil espera-se ser de pessoas fisicamente mais preparado) ou ainda na distorção na comparação do número de acidentes em climas ensolarados e neblinados. Afinal, os dias de sol são muito mais frequentes.

Entenda os problemas com as correlações

No capítulo 8 de Como Mentir com Estatística, Huff  continua a argumentação sobre formas tradicionais de mentir usando estatística chamando atenção para as correlações. A análise de correlação constitui uma forma limitada de se observar a força de uma relação linear entre duas variáveis.

Contudo, invariavelmente, ouve-se nos noticiários a “prova” de “ligação” de uma coisa e outra. Os termos em destaque induzem o consciente coletivo à ideia de que “é provado cientificamente” que as coisas estão ligadas e, por isso, uma coisa causa a outra.

Existem diversas ferramentas estatísticas que permitem medir uma associação ou relação entre dois fenômenos. Contudo, o problema maior não está no uso da técnica, mas sim na forma como ela é interpretada.

Cada forma esbarra em um limite, uma capacidade informacional. E em diversos momentos, a movimentação de um fenômeno não se dará pela movimentação de outro, mas de eventuais combinações.

Por vezes, o autor lembra que existirá uma relação de incentivo mútuo, como no caso da relação entre riqueza e número de ações: quanto mais riqueza um homem possui, mais ações ele pode ter.

Por outro lado, quanto mais ações um homem tem, mais riquezas ele pode acumular. Logo, olhar só um lado da relação é criar um viés na análise.

Correlações espúrias em Como Mentir com Estatística

O autor também evidencia os casos de correlações espúrias, isto é, movimentações comuns entre fenômenos que não guardam qualquer comprovação teórica, como pode ser observado no portal spurious correlation sobre o consumo de queijo per capta e o número de pessoas mortas enroladas no cobertor.

Neste caso, o coeficiente de correlação é de 0,9471, mas isso não faz o menor sentido teórico ou prático.

Ainda, o número de crianças afogadas em piscinas nos EUA e o número de filmes estrelados pelo ator Nicolas Cage, com uma correlação de 0,66.

Em outro ponto, o autor critica a extrapolação de uma relação dita comprovada, quer seja por uma correlação, que tem um nível informação inferior, quer seja por uma regressão mal especificada.

Correlação espúria com o exemplo das chuvas

O exemplo da relação entre chuva e plantio, observa-se que “a correlação positiva funciona até certo ponto e então rapidamente torna-se negativa”.

Nesse caso, um nível de chuva maior do que desejado acabaria com as plantações. A regressão mal especificada refere-se à presunção de uma relação linear quando, na verdade, a reta que mais se ajustaria aos dados estaria em outra forma funcional não-linear (quadrática, exponencial, senoidal etc.).

Para casos como esses, deve-se existir uma explicação plausível, como no exemplo da relação entre anos de estudos e salário. Embora o senso comum sugira a existência dessa relação, uma teste estatístico deve cuidar para casos incomparáveis não sejam comparados.

Por exemplo, pessoas não formadas que são de origem rica tenderão a ter salários maiores do que os não abastados e não diplomados. Ou ainda, segundo o autor, alunos de filosofia estudarão o mesmo tempo que os engenheiros, mas tenderão a ser professores.

Consequentemente, por terem se tornado professores, não terão salários tão altos. Isso evidencia que o perfil dos participantes de uma pesquisa deve ser esmiuçado antes de proceder à técnica.

Dessa forma, casos como o da relação entre universitários e a probabilidade de se casar poderiam ser evitados. Nesse exemplo, o autor explora que probabilidade é um número obtido em razão do número de um determinado fenômeno, e de posse dessa informação, uma pessoa desavisada ou mal-intencionada pode testar e chegar a conclusões de que mulheres formadas têm chances menores de se casarem do que os homens.

Porém, a pesquisa foi feita em uma grupo de universitários que contava com 93% de homens (e 66% de mulheres) já casados.

Exemplo sobre o consumo de leite e a incidência de câncer em mulheres

Em outros casos, Huff citou uma pesquisa que teria comprovado a relação entre o consumo de leite e a incidência de câncer em mulheres. Contudo, uma segunda análise permitiu explorar diferenças significativas nas idades das mulheres que participaram da amostra.

Como outros estudos sobre a doença evidenciam a aparição a partir de uma certa idade, o primeiro estudo tornou-se inválido ao comparar pessoas que estão no range do fenômeno com pessoas que estão fora do público propenso.

O problema desses estudos “comprovados cientificamente” é que, uma vez espalhados em uma  mídia de massa é o suficiente para transformar no caos, na pausa abrupta, por exemplo, do consumo de leite, o que obriga as empresas do setor a investir inesperados milhares de unidades monetárias para desfazer o processo de demonização do produto.

Segundo Huff, em Como Mentir com Estatística, por mais que existam diferentes formas de se interpretar o resultado de um teste, sempre que o cientista estiver a serviço da indústria, “raramente [darão] aos trabalhadores ou aos consumidores uma melhor visão dos fatos: dão-na frequentemente a pior”.

Na relação com o governo, a situação tende a ser a mesma, quer seja a favor quer seja contra.

Distorções causadas por outras formas gráficas em Como Mentir com Estatística

Na sequência, em Como Mentir com Estatística, voltam-se às críticas de Huff aos gráficos, nas suas formas mais “palatáveis”.

Invariavelmente, as formas tradicionais (barras, linhas, dispersão, rosca e pizza) são trocadas por elementos mais “ilustrativos”, como mapas, silhuetas etc. Contudo, o autor chama atenção para a distorção, por exemplo, que ocorre quando se utiliza um mapa para fazer referência à população.

Ou seja, em países de população heterogeneamente distribuída, como nos EUA, Brasil e tantos outros, descabe de sentido comparar estados de longa extensão territorial com outros de população mais concentrada. O uso desse artifício pode provocar interpretações indevidamente alarmantes.

No Brasil, por exemplo, a região sudeste possui a segunda menor (de cinco) em extensão territorial, mas ocupa o primeiro lugar em população.

 

 

As mentiras estatísticas são sempre com intenção?

Desfigurações da estatística também estão presentes na história, como nas contas simplificadas realizadas por Karl Marx sobre a “mais-valia”. Isso ocorre constantemente quando alguém de uma área do conhecimento se lança a utilizar dados de outra área sem ao menos recorrer a ajuda. É o que ocorre quando publicitários e jornalistas discutem preços e taxas de tributos.

Por outro lado, segundo Huff, contadores, administradores e economistas, por conhecerem sobre a origem dos números e de como manipulá-los, fazem-no para atingir seus próprios interesses.

É comum observar divulgações de uma série histórica, como na divulgação dos resultados de uma empresa, com análise por meio de variação relativa e/ou variação em pontos percentuais quando convém. Ou, ainda, fazendo uso da variação percentual para despistar casos em que houve um “crescimento negativo” de determinado número.

Ou seja, trata-se da arte de contorcer os números e as estatísticas para provar aquilo que se deseja.

Como mentir com estatística: 5 perguntas para não ser enganado

Por fim, Huff disponibiliza 5 perguntas para o leitor se atentar ao se deparar com um enunciado “científico”:

A primeira delas é Quem diz isto?. Nesse ponto, autor sugere a investigação de eventual preconceito sobre a pessoa, entidade ou fenômeno em teste.

Ele mostra que muitos acabam se utilizando de pesquisas realizadas por entidades renomadas, dizendo que “a pesquisa mostra”, mas, na verdade, a interpretação não é da universidade X, mas é extrapolada ou distorcida por quem a propaga.

Como é que ele sabe disso?. Nesse, a busca deve ser epistemológica, prezando pelo conhecimento da amostra, se é ou não significativa para o teste realizado, ou ainda para saber se é aleatória, se não foi baseado na fala de respondentes, com perguntas que o senso comum te leva a dizer o que é mais plausível de ser ouvido.

Depois, O que está faltando?, fazendo menção a interpretações parciais dos resultados. Em um modelo de regressão linear, é possível olhar para o coeficiente negativo e inferir relação inversa, desmentir teoria etc., mas ignorar, por exemplo, a significância daquele coeficiente.

Ou ainda desprezar a análise dos desvios daquele parâmetro, que pode implicar em diversas situações, inclusive, em resultado contrário ao encontrado inicialmente.

Alguém mudou de assunto? é a quarta pergunta, em que o autor investiga o elo entre o número da pesquisa e a interpretação dada por quem divulga, que pode ser o próprio cientista, diga-se de passagem.

Há que se ter cuidado com análises temporais, nesses casos, pois, como o autor exemplifica: “‘Mais casos relatados’ de uma doença nem sempre é o mesmo que ‘mais casos’ da doença”.

Por fim: Isto faz sentido? sugere um questionamento acerca da legitimidade com que o texto é entregue ao interlocutor. O autor sugere a análise da quantidade e comprimento das palavras e frases. Textos curtos, sob o pretexto de “a população não vai entender”, são exemplos de omissão de partes importantes da pesquisa. Sugere ainda cuidado ao analisar tendências passadas e esperar que elas seguirão no futuro.

Sob palavras bem escritas, Huff coloca que se trata apenas de “adivinhação sofisticada”. O autor encerra o livro dizendo que “a gente consegue um enorme retorno de suposições ao investir com um insignificante fato”.

 

Por Paulo Victor Gomes Novaes, Doutorando em Controladoria e Finanças (UFMG)

Leia também “Os Fake Numbers e a Democracia em Vertigem“.

 

Referências

HUFF, DARRELL. Como mentir com a estatística. Traduzido por Alba B. S. Campbell. Edições Financeiras S.A: Rio de Janeiro-RJ, 1993.

GAMA, M. Ventos desmataram área equivalente a 700 campos de futebol em SP em 2016. Folha de São Paulo. Disponível em: https://www1.folha.uol.com.br/ambiente/2017/05/1887852-ventos-desmataram-area-equivalente-a-700-campos-de-futebol-em-sp-em-2016.shtml. Acesso em: 18 fev. 2020.

GPA. Release de Resultados 1T2016. Disponível em: http://www.gpari.com.br/informacoes-financeiras/resultados-trimestrais/. Acesso em 24 set. 2019.

MG2 – BH. Minas é o estado com maior número de feminicídios no Brasil em 2018, aponta estudo. Portal G1. Disponível em: https://g1.globo.com/mg/minas-gerais/noticia/2019/09/10/minas-e-o-estado-com-maior-numero-de-feminicidios-no-brasil-em-2018-aponta-estudo.ghtml.  Acesso em 18 fev. 2020.

VERMELHO. Pesquisa mostra a verdadeira causa da desigualdade salarial por gênero. Portal Vermelho. Disponível em: https://vermelho.org.br/2018/02/22/pesquisa-mostra-a-verdadeira-causa-da-desigualdade-salarial-por-genero/. Acesso em 18 fev. 2020

 

TC School

TC School

Disclaimer: Este material é produzido e distribuído somente com os propósitos de informar e educar, e representa o estado do mercado na data da publicação, sendo que as informações estão sujeitas a mudanças sem aviso prévio. Este material não constitui declaração de fato ou recomendação de investimento ou para comprar, reter ou vender quaisquer títulos ou valores mobiliários. O usuário não deve utilizar as informações disponibilizadas como substitutas de suas habilidades, julgamento e experiência ao tomar decisões de investimento ou negócio. Essas informações não devem ser interpretadas como análise ou recomendação de investimentos e não há garantia de que o conteúdo apresentado será uma estratégia efetiva para os seus investimentos e, tampouco, que as informações poderão ser aplicadas em quaisquer condições de mercados. Investidores não devem substituir esses materiais por serviços de aconselhamento, acompanhamento ou recomendação de profissionais certificados e habilitados para tal função. Antes de investir, por favor considere cuidadosamente a sua tolerância ou a sua habilidade para riscos. A administradora não conduz auditoria nem assume qualquer responsabilidade de diligência (due diligence) ou de verificação independente de qualquer informação disponibilizada neste espaço. Administradora: TradersNews Informação & Educação Ltda. Todos os direitos reservados.

TradersClub

O app essencial para investidores do mercado financeiro brasileiro.

Uma comunidade com milhares de investidores, ferramentas e serviços que vão ajudar você a investir melhor!

TradersClub