Por que não tínhamos ideia de que Trump iria ganhar

Os dados não conseguiram prever Trump, e o design não ajudou.

Por que não tínhamos ideia de que Trump iria ganhar

Será uma vitória esmagadora, assegurei a amigos liberais e familiares nas semanas que se aproximam da eleição. Como eles expressaram preocupação com a controvérsia ressurgente por e-mail de Hillary, ou sua suspeita de que mais pessoas votariam em Trump no dia da eleição do que admitiriam prontamente, zombei de sua ignorância.

Você já verificou The Upshot ? Eu perguntaria, como uma professora de jardim de infância conversando com uma criança com nariz escorrendo. É por New York Times . Ele tem praticamente a melhor equipe de visualização de dados do mundo. E tem Hillary com 85% de chance de vencer. Está bem no topo do site.

[Imagem: via O jornal New York Times ]



Você sabe FiveThirtyEight ? Eu flutuaria com uma alegria particular com o nome confuso e esotérico de que eles nunca se lembrariam bem o suficiente para o Google mais tarde. É o site de dados de Nate Silver. Ele é muito bonito a cara que ligou para Obama em 2008.

No dia da eleição, eu havia atingido o pico dos dados presunçosos, informando no Facebook que Hillary teria tudo isso na bolsa por volta das 21h00 horário do leste. Talvez 9:30. (Desconsidere que nenhuma votação foi fechada na meia hora.)

Mas então aconteceu o oposto. Conforme Trump acumulava vitórias naquela noite, entendi isso voltando ao meu gráfico favorito da temporada - o que passei a chamar FiveThirtyEight Visualização do intestino –Para complementar a experiência de assistir a CNN. Acima de tudo, essa foi a única coisa que me deu a certeza da vitória de Hillary. Trump pode levar a Flórida? Eu verifiquei o viz. A Flórida está no fim do trato GI político, um esfíncter de eleitores defecando bem no território de Trump. A Flórida nunca foi uma coisa certa. Trump pode levar Michigan? Espere. Michigan? Uma mistura de cirurgia mental (se eu cortar o intestino de New Hampshire aqui e depois colocar um elástico em Michigan ali ...), contagem de dedos do colégio eleitoral e pânico absoluto se seguiram enquanto meu cérebro lutava para aceitar os resultados.

Todas as pessoas mais inteligentes estavam erradas. Ou foram eles?

O tweet de Silver demonstra o quão complicado o mundo das estatísticas e probabilidade pode ser. Uma chance de 30% de vitória de Trump parece insondável. Uma chance de 30% de terremoto parece inevitável.

Os resultados da eleição nos surpreenderam, mas o culpado não foi simplesmente nossa incapacidade coletiva de entender as estatísticas. Fomos surpreendidos porque os dados estavam errados, a margem de erro real por trás desses dados provavelmente foi subestimada e o design tornou tudo pior. Quando probabilidade se mistura com notícias se mistura com visualização de dados, a ciência é inerentemente editorializada. E em 2016, as melhores publicações de dados do mundo acabaram por suprir nossa necessidade de narrativas simplificadas - a ponto de até mesmo designers de dados elogiados se perderem em tudo isso.

quanto tempo até 2020 termina siri

Ver esse tipo de coisa se inverter de repente era. . . espere todo mundo estava errado? Todas essas pessoas que estiveram certas o tempo todo com seus cérebros e modelos gigantes, diz Eric Rodenbeck, fundador da elogiada empresa de visualização de dados Estame . Levei alguns dias apenas para me recuperar disso.

[Imagem: via FiveThirtyEight ]

As pesquisas estavam erradas

A verdade fundamental é que todas as projeções políticas são baseadas em pesquisas - o que é realmente apenas um termo sofisticado para um processo em que grupos específicos de pessoas são questionados o que pensam sobre vários candidatos ou questões por telefone, online ou pessoalmente. E os dados da pesquisa de 2016 foram errado no Centro-Oeste e Nordeste. Embora possamos culpar qualquer fenômeno de que gostamos - digamos, o fato de que muitos eleitores republicanos foram relutante em admitir para apoiar um candidato fanático, ou algo muito mais pedestre –Polling sempre se resume a pessoas pesquisando outras pessoas, escalando um pequeno subconjunto de eleitores que estão respondendo a algumas perguntas para, em última análise, falar pelas ações da maioria no dia da eleição.

Vamos parar de pensar que os dados são infalíveis, diz Giorgia Lupi, cofundador da empresa de pesquisa baseada em dados Preciso . Não é. Os dados são principalmente produzidos pelo homem e refletem nossos erros de julgamento.

Em 2008, a diferença entre a votação estadual e a verdadeira votação final era de apenas 1,7 pontos. Em 2016, essa diferença mais que dobrou para 3,9 pontos em dez estados. Como The Upshot colocá-lo em uma eleição post-mortem :

Foi a maior perda de votação em uma eleição presidencial em décadas.

No entanto, de muitas maneiras, não era totalmente fora do comum.

mapa de votos por condado

Aqui, The Upshot deixou-nos com uma narrativa centrada na probabilidade: quem poderia ter visto esta loucura chegando? Exceto que coisas malucas acontecem todos os dias e você deve sempre vê-las chegando! Claro, só porque algo tem poucas chances de acontecer, não significa que não acontecerá. Mesmo uma chance de 10% de algo dar errado ainda vai atrapalhar uma em cada 10 pessoas - o que é muito, na verdade. Mas essa é uma verdade que é muito difícil para a mente humana retificar .

É nisso que precisamos pensar. Como representamos essas coisas? disse Rodenbeck. Isso acontece. Os Giants conquistaram a World Series. É estatisticamente improvável, mas acontece.

A incerteza é um problema com o qual a indústria de mídia de dados continua a lutar. Em última análise, é injusto apontar para a população quando eles não entendem a probabilidade - como todos os designers sabem, você não pode mudar as pessoas, você tem que mudar o design para elas. Isso é especialmente verdadeiro quando aprendemos que muitos dos dados de origem estavam errados para começar. Na verdade, desde a eleição, aprendemos que a diferença entre pesquisa e votação era além da margem de erro padrão da indústria de ~ 3,5% em dez estados .

No entanto, é injusto simplesmente ignorar 2016 um outlier de pesquisa pelo qual ninguém é culpado. As pesquisas são ruins há muito tempo, e alguém fez ver toda essa confusão chegando. No início deste ano, o pesquisador e estatístico da Universidade de Columbia Andrew Gelman publicou um artigo que colocou em questão a margem de erro da votação. Depois de analisar 4.221 pesquisas sobre 608 eleições em nível estadual nos últimos 26 anos, sua equipe descobriu que estávamos subestimando a margem de erro nas pesquisas. Embora uma linha de base de ~ 3,5% seja o padrão, ele propôs que a margem de erro dobrasse para 7%. Isso significaria que se uma pesquisa concluísse que 52% dos americanos votariam em Hillary Clinton, contabilizando a margem de erro, a descoberta verdadeira e confiável seria que algo entre 45% e 59% dos americanos votariam em Hillary. Porque uma margem de erro de 7% na verdade equivale a um intervalo de 14 pontos.

Se a margem de erro é maior do que a margem de vitória, de que adianta visualizar ou discutir essas coisas?

Como The Upshot escreveu sobre esta pesquisa no início de outubro deste ano, a implicação? Mesmo se você vir uma pesquisa no início de novembro que mostra Donald J. Trump por três pontos ou Clinton por cinco, você ainda não deve ter tanta certeza de quem vai ganhar a eleição.

Os Jornais relatou sobre isso . . . ainda assim, nenhum deles [parece ter] adotado, diz Kim Rees, cofundador da empresa de visualização de dados do bem com Periscópico . Bem, OK, você não está realmente agindo. Você não está sendo responsável. Se você realmente acredita que isso é verdade, pelo menos deveria estar considerando isso. Isso me irritou.

No entanto, ao telefone, Gelman é rápido em minimizar a importância de seu próprio artigo quando pergunto sobre ele, dizendo que suspeita que estatísticos da mídia como Silver estão contabilizando muito bem esse desvio de pesquisa em seus modelos. As pesquisas estavam suspensas. . . mais do que deveriam, diz ele, apontando nossa amnésia social de fiascos de votação como Dewey derrota Truma n . Isso acontece. E é assim que acontece. Você tem que esperar que isso aconteça.

44 significado do número do anjo

De qualquer forma, a adoção de uma margem de erro mais ampla é mais do que apenas um problema matemático, deve ser visualizado com clareza para os leitores. Nesse caso, isso essencialmente teria tornado impossível ter certeza de uma vitória por desistência de Hillary Clinton. Sempre há um intervalo. Este intervalo é listado, mas muitas vezes enterrado em sites como The Upshot e FiveThirtyEight sob infográficos mais simples e pequenos que arredondaram as chances de Hillary de vencer para sólidos 85%.

Como The Upshot admitido mais tarde , As reações à vitória do Sr. Trump sugerem que, apesar de nossos esforços, falhamos em explicar que uma chance de 85% não é uma chance de 100%. Se fizéssemos tudo de novo, provavelmente enfatizaríamos a incerteza de uma forma mais visceral, em vez de usar uma simples declaração de probabilidade. . .

E, no entanto, em uma disputa tão acirrada quanto esta eleição - Hillary venceu o voto popular por apenas sete décimos de um por cento e teve quatro pontos de liderança nas pesquisas em muitos estados que perdeu - vale a pena perguntar: se a margem de erro é maior do que a margem de vitória, de que adianta visualizar ou discutir essas coisas? Se essas linhas estão se sobrepondo o tempo todo, você não pode dizer quem está ganhando, diz Rees.

O design é facilmente tendencioso

O design dos gráficos em si também está sujeito a vieses. Como alguém que está naquele mundo e confia nele, lembro-me de quando começamos a trabalhar com visualização de dados, tínhamos a ideia de que tudo o que precisávamos fazer era sair, obter os dados e representá-los, diz Rodenbeck. Esquecemos que havia essa etapa intermediária, que as ações precisavam ser tomadas com base em preconceitos implícitos. Se precisávamos de algo para nos despertar dessa noção, simplesmente aconteceu.

Era como se tivesse sido projetado para uma vitória de Hillary.

Este ano, mapas eleitorais objetivos em vermelho e azul deram lugar a uma nova onda de gráficos inteligentes, fofos e absolutamente emocionantes que tinham comentários silenciosos incorporados. The Upshot e FiveThirtyEight encabeçou suas páginas eleitorais com um gráfico de cabo de guerra entre Hillary e Trump, que no final das contas apresentou uma figura singular - a possível chance de Hillary e Trump cada um ter de vencer. Há uma certa coragem ou ousadia que as pessoas têm quando sentem que os números são dramáticos. Vai estar tão à frente que vamos colocar tudo para fora, diz Rees. É ‘projetar para aquele resultado em que acreditamos’ versus ‘vamos apenas mapear isso como qualquer outra coisa. & Apos;

[Imagem: via FiveThirtyEight ]

O New York Times jitter codificado e aleatoriedade em uma série de medidores de pressão eleitoral que tweetou durante a noite da eleição. Para qualquer pessoa com um coração, parecia que os gráficos estavam literalmente prestes a explodir , como bombas-relógio movidas pela angústia. Enquanto dois New York Times contribuidores têm cada escrito artigos que defendem esta decisão como um meio cientificamente preciso de apresentar margem de erro, o impacto emocional dos gráficos parecia desmedido em comparação com seu valor informativo. Como se não houvesse outro meio de apresentar uma gama de números do que com um suporte de um MacGruber esboço.

O caso mais marcante de bravata de dados - na minha opinião, obviamente - foi em FiveThirtyEight Acima mencionado gráfico de intestinos. Dê uma olhada nisso novamente. Como Rees aponta, não há nenhuma informação aqui que não pudesse ser apresentada em um gráfico de barras antigo e chato que nada mais era do que dados em um eixo X e Y. Em vez de, FiveThirtyEight criou o equivalente a um nostálgico jogo de tabuleiro. Os estados se torceram e se voltaram com valor incerto para toda a eleição como um processo político construído sobre Chutes and Ladders.

Mas o gráfico sinuoso não capturou possibilidades infinitas como os dados traçados. Capturou um resultado potencial. Eu só percebi como esse gráfico aparentemente objetivo era editorializado na própria noite da eleição, assim que Hillary parecia que estava perdendo Michigan. O que essa perda de estado significa para todo o gráfico? Como eu poderia reprocessar FiveThirtyEight Suposições com a mudança de informações? Eu não poderia, porque este gráfico foi construído para uma explosão com cada estado caindo na linha exatamente como Silver projetou.

Era como se tivesse sido projetado para uma vitória de Hillary, diz Rees.

1010 significa amor

Olhando em direção a 2020

Talvez a parte mais difícil de conciliar o que deu errado com as projeções políticas de 2016 é que é difícil saber se podemos confiar no que acontecerá na próxima temporada eleitoral.

Quando penso nas estatísticas dessa forma, me sinto uma idiota por ter sido pego de surpresa pela vitória de Trump.

The Upshot tem publicou minha culpa reconhecendo que poderia ter feito um trabalho melhor representando a incerteza. Enquanto isso, FiveThirtyEight afirma que, de fato, fez prever isso Trump poderia vencer assim como ele fez - o site apenas deu uma baixa probabilidade de acontecer. Basicamente, tínhamos [Trump] como uma chance um pouco melhor do que uma equipe perdendo por 3-2 nas finais da NBA, explicou um funcionário da FiveThirtyEight . Quando penso nas estatísticas que caminho, me sinto como um idiota por ser pego de surpresa por uma vitória de Trump. Talvez seja tudo FiveThirtyEight deveria ter dito toda a temporada eleitoral!

E ainda, o negócio de prognóstico de pesquisas políticas, juntamente com a máquina de notícias movida a mídia social, praticamente dita que exigimos mais dos editores de dados políticos do que uma única metáfora de base para compreender o possível resultado de uma eleição. Sempre há outra história para contar com os dados. Em 2016, todos nós somos viciados em informação, e a próxima correção nunca está longe.

A responsabilidade da mídia é informar o público e contribuir para um processo democrático produtivo, escreveu Danah Boyd, especialista em dados da NYU e da Microsoft Research, em uma postagem de advertência . Ao cobrir as pesquisas políticas como se fossem fatos de maneira obsessiva, eles não estão apenas sendo estatisticamente irresponsáveis, mas também psicologicamente irresponsáveis.

Francamente, é difícil criticar o sistema quando estamos todos mais ou menos preso dentro dele .

Esperançosamente, as pessoas que estão fazendo os gráficos meio que aprenderam e vão se checar na próxima vez que entrarem em algo, perguntando, ‘é apenas minha parcialidade falando, ou este é um número real? & Apos; disse Rees. Na verdade, durante a semana desde a eleição, Rees já organizou 40 voluntários para lançar o que ela chama de Snopes para gráficos de dados, essencialmente uma coleção de especialistas em dados comentando em gráficos que você vê na web. Ele pode até viver como uma extensão do Chrome que qualquer um poderia instalar.

Ao longo dos próximos meses e anos, os designers de dados sem dúvida irão avaliar como eles abordarão os dados nas próximas eleições. Na verdade, a responsabilidade nunca foi tão grande. Se já houve um tempo em que a visualização de dados poderia se ver removida da briga e confusão da política, diz Rodenbeck, acho que vimos isso rudemente rejeitado.

Amanda Cox do Upshot se recusou a comentar para este artigo, e Nate Silver do FiveThirtyEight não respondeu a vários pedidos de comentário.