Pesquisar este blog

sexta-feira, 16 de setembro de 2011

Chances do Brasileirão


Este post é antigo e se refere aos prognósticos feitos após a 23ª rodada, ocorrida em 15 de setembro. Para conferir as chances atualizadas, visite:
http://chancesdobrasileirao.blogspot.com


Geraram muita polêmica os resultados apresentados no programa Redação Sportv desta quinta feira, 15/09, do estudo que fiz sobre as chances de título, de classificação para a Libertadores, e risco de rebaixamento de cada equipe para o Campeonato Brasileiro de 2011. (http://sportv.globo.com/site/programas/redacao-sportv/noticia/2011/09/estatisticas-apontam-corinthians-com-36-de-chances-de-levantar-titulo.html ). Questionou-se o fato de o Corinthians, que tem apenas um ponto ganho a mais do que Vasco e possui o mesmo número de pontos perdidos do Botafogo, possuir uma chance bem maior de ser campeão do que essas duas equipes. Um outro resultado contestado foi a chance bem maior de o Fluminense ir para a Libertadores em relação ao Flamengo, mesmo sendo a diferença entre esses dois times na tabela de apenas 1 ponto, ao final da 23ª rodada.

O tipo de estudo que realizei difere do apresentado em posts anteriores sobre a Mega-Sena ou o jogo de War, onde os cálculos são realizados com base em probabilidades supostas conhecidas1. Neste estudo do Brasileirão 2011, os resultados são calculados a partir de probabilidades subjetivas definidas para a vitória do mandante, empate ou vitória do visitante em cada jogo. Portanto, são compreensíveis – e até esperados – os questionamentos mencionados no parágrafo anterior. Além de mostrar os resultados em si, o objetivo desse post é explicar a metodologia empregada e, principalmente, as hipóteses adotadas no estudo.

Metodologia

Para facilitar o entendimento da metodologia, iniciarei com um exemplo simples. Imagine que estamos a duas rodadas do final do Brasileirão e que, tal como hoje, o Corinthians (COR) está a um ponto e duas vitórias a frente do Vasco (VAS), sendo estes dois times os únicos ainda na briga pelo título. Pela tabela real, os últimos jogos do Corinthians são contra o Figueirense fora e o rival Palmeiras, enquanto o Vasco irá disputar dois clássicos contra Fluminense e Flamengo. As probabilidades estimadas para estes confrontos são as seguintes:

Clássicos => 30% de vitória para cada equipe e 40% para o empate
Figueirense X Corinthians => 45% para o Corinthians, 30% para o Figueirense e 25% para o empate

As combinações possíveis para os resultados dos confrontos e suas respectivas probabilidades2, com base nas hipóteses acima, são mostradas na tabela abaixo. Considerando-se todas essas possibilidades, as chances de título seriam de 76,4% para o Corinthians e 23,6% para o Vasco.

Resultados dos
jogos do Corinthians
Prob.
Resultados dos
jogos do Vasco
Prob.
Campeão*
Prob. da combinação
COR vence as duas
13,5%
Qualquer
100,0%
COR
13,5%
COR vence uma das duas
48,0%
VAS vence as duas
9,0%
VAS
4,3%
VAS não vence as duas
91,0%
COR
43,7%
COR empata as duas
10,0%
VAS vence as duas
9,0%
VAS
0,9%
VAS vence uma e empata a outra
24,0%
VAS
2,4%
VAS empata as duas
16,0%
COR
1,6%
VAS perde pelo menos uma
51,0%
COR
5,1%
COR perde uma e
empata a outra
19,5%
VAS vence pelo menos uma
51,0%
VAS
9,9%
VAS não vence nenhuma
49,0%
COR
9,6%
COR perde as duas
9,0%
VAS vence pelo menos uma
51,0%
VAS
4,6%
VAS empata as duas
16,0%
VAS
1,4%
VAS perde uma e empata a outra
24,0%
COR
2,2%
VAS perde as duas
9,0%
COR
0,8%
* Se houvesse empate em pontos, o campeão seria
Total:
COR
76,4%
  o Corinthians, pelo número de vitórias

VAS
23,6%


O resultado final seria outro se fossem adotadas outras probabilidades para os resultados de cada confronto. A tabela abaixo mostra as chances que se obteriam, através dos mesmos cálculos da tabela acima, para cinco cenários diferentes de probabilidades, do mais favorável ao Corinthians para o mais favorável ao Vasco. Nota-se que, mesmo no cenário mais favorável para o clube da colina, as chances são sempre maiores para o Corinthians.

Chances definidas para cada resultado (%)
Chances de Título
COR x FIG
COR x PAL
VAS x FLU
VAS x FLA
COR
EMP
FIG
COR
EMP
PAL
VAS
EMP
FLU
VAS
EMP
FLA
COR
VAS
70
20
10
50
30
20
30
30
40
30
30
40
89,1%
10,9%
60
20
20
30
40
30
30
40
30
30
40
30
81,3%
18,7%
50
30
20
30
40
30
40
30
30
30
40
30
75,5%
24,5%
30
40
30
30
30
40
50
30
20
40
30
30
59,0%
41,0%
30
30
40
20
30
50
50
30
20
40
30
30
53,5%
46,5%

Neste exemplo simples com duas equipes disputando a vaga e apenas duas rodadas, foi possível enumerar todas as possibilidades de resultados dos 4 jogos e realizar um cálculo matemático exato, a partir das premissas (subjetivas) adotadas para as probabilidades. Este estudo visa estender esta mesma análise para os 152 jogos restantes do campeonato, porém, como o número de combinações a serem analisadas é astronômico (3152 » 1,0 ´ 1072),  não é possível realizá-lo em um tempo computacional razoável.
Desta forma, utilizei técnicas de simulação estocástica. A idéia é relativamente simples: o computador “sorteia” um resultado para cada um dos 152 jogos, com base nas probabilidades assumidas em cada jogo. O conjunto dos resultados obtidos em todos os jogos é chamado de simulação, e consiste em um possível desfecho para o campeonato, que resultará em um determinado campeão. Entretanto, como o processo é aleatório (ou seja, envolve sorteios), uma segunda simulação levaria, muito provavelmente, a outros resultados para vários jogos, e poderíamos ter outro campeão. A chance de título de cada equipe é estimada realizando-se então um grande número de simulações e verificando a proporção de vezes em que cada equipe ficou em primeiro lugar. O mesmo conceito vale para a estimativa da chance de vaga para a Libertadores e do risco de rebaixamento. Nestes casos, verifica-se a proporção de vezes em que cada equipe ficou entre os 5 primeiros ou entre os 4 últimos, respectivamente.

Se o número de simulações for suficientemente grande, o percentual de vezes em que se obteve cada resultado (vitória, empate ou derrota) em cada jogo irá se aproximar, pela Lei dos Grandes Números, das probabilidades definidas para a realização da simulação. Como conseqüência, obtém-se uma estimativa empírica das chances de título, Libertadores ou rebaixamento para cada equipe, evitando-se o cálculo exato que, conforme mencionado anteriormente, é inviável do ponto de vista computacional.

Premissas

A grande dificuldade neste estudo é determinar as probabilidades de vitória, empate e derrota de cada equipe em cada um dos 152 jogos. Como uma análise individual de cada jogo poderia levar a um grau de subjetividade muito grande na análise, decidi avaliar as probabilidades por tipo de confronto. Para tal, dividi as 20 equipes em 3 grupos, de acordo com o critério mostrado na tabela abaixo:

Grupo
Critério
Lista de clubes
A
12 clubes grandes
Vasco (VAS), Flamengo (FLA), Fluminense (FLU), Botafogo (BOT)
Corinthians (COR), Palmeiras (PAL), São Paulo (SPO), Santos (SAN),
Atlético-MG (CAM), Cruzeiro (CRU), Internacional (INT), Grêmio (GRE)
B
Outros campeões brasileiros, porém de menor tradição
Coritiba (COR), Atlético-PR (CAP), Bahia (BAH)
C
Clubes de menor expressão
América-MG(AMG), Avaí (AVA), Figueirense (FIG), Ceará (CEA), Atlético-GO (ATG)


Minha premissa básica, e isto é muito importante na avaliação dos resultados da simulação, foi de não ser tendencioso para nenhuma equipe dentro de cada grupo. Por exemplo, não considerei justo assumir probabilidades diferentes de vitória para Vasco e Santos em seus jogos contra o Grêmio no segundo turno, que serão disputados em casa. Por outro lado, é razoável supor que Flamengo e Avaí não tenham a mesma chance de vencer o São Paulo no Morumbi.

Portanto, com base na definição desses grupos, definem-se diversos tipos de confronto (A´A, A´B, B´C, etc..) e, para cada um deles, estimam-se probabilidades de empate ou vitória para cada tipo de equipe, dependendo de quem é o mandante e quem é o visitante. Os valores adotados são mostrados na tabela abaixo, sendo que, para jogos neutros (que só ocorrem, neste campeonato, entre equipes de um mesmo grupo), considerei 30% de chance de vitória para cada equipe e 40% de chance de empate.
 É claro que tanto o critério para a divisão das equipes nos grupos como os valores considerados para as probabilidades são subjetivos. Dois exemplos contestados no Programa do Sportv foram os grupos em que se situaram as equipes de Coritiba e Atlético-MG (B e A, respectivamente), já que a primeira equipe tem apresentado um ótimo desempenho neste campeonato e a segunda vem rendendo muito abaixo da média. Entretanto, em uma eventual luta pelo rebaixamento, não acredito que seja fácil vencer o clube mineiro fora de casa, por exemplo. De qualquer forma, realizei simulações adicionais invertendo os grupos destas equipes, e os resultados pouco se alteraram em relação aos apresentados adiante.

Probabilidades para cada tipo de jogo
Equipe Visitante
Grupo A
Grupo B
Grupo C
Equipe Mandante
Grupo A
Mand: 40%
 Emp: 30%
  Visit: 30%
Mand: 55%
 Emp: 25%
  Visit: 20%
Mand: 60%
 Emp: 25%
  Visit: 15%
Grupo B
Mand: 30%
 Emp: 40%
  Visit: 30%
Mand: 40%
 Emp: 30%
  Visit: 30%
Mand: 45%
 Emp: 30%
  Visit: 25%
Grupo C
Mand: 30%
 Emp: 25%
  Visit: 45%
Mand: 30%
 Emp: 40%
  Visit: 30%
Mand: 40%
 Emp: 30%
  Visit: 30%

É importante ressaltar que resultados diferentes podem ser obtidos por pessoas que tenham percepções diferentes em relação às premissas consideradas no estudo. Poderia se considerar o histórico de cada equipe no campeonato para a definição das probabilidades dos resultados em cada jogo futuro. No entanto, pode haver conflito entre os históricos de duas equipes em determinado confronto.3 Além disso, este critério beneficiaria ainda mais as equipes que estão em situação privilegiada na tabela, pois tiveram melhor retrospecto até o momento. Como conseqüência, a probabilidade de título para o Corinthians seria ainda maior do que os 36,4% obtidos nesse estudo, resultado que já tem sido bastante questionado por ser considerado exagerado.

Resultados

Inicialmente, para testar o modelo computacional elaborado de acordo com os procedimentos descritos acima, realizei 100.000 simulações para o primeiro exemplo mostrado neste texto, que envolveu a situação hipotética dos jogos de Vasco e Corinthians nas duas últimas rodadas. Realizei 100.000 simulações, e as chances de título obtidas para cada equipe foram de 76,41% e 23,59%, que são praticamente idênticas aos valores teóricos exatos, o que mostra a validade da técnica empírica adotada para estimar as chances de cada equipe.

Em seguida realizei 100.000 simulações com as 15 rodadas restantes do campeonato Brasileiro, obtendo as chances de título, vaga na Libertadores4 e risco de rebaixamento de cada equipe mostrados nos gráficos abaixo. 5


Um primeiro valor que chama a atenção é a grande chance de título do Corinthians, 36,4%, quando comparada com aos seus três adversários mais próximos (Vasco, São Paulo e Botafogo), que estão bem próximos na tabela. A explicação para isso é que as simulações capturaram o fato de o Corinthians ser, dentre esses os times que brigam pelo título, o que já descartou mais jogos difíceis no segundo turno, conforme mostra a tabela a seguir.

Jogos já realizados no segundo turno
Equipe
COR
BOT
SPO
VAS
FLU
INT
FLA
Jogos
em Casa
GRE,
FLA
PAL,
CEA
FLU,
CAM
CEA,
CFC
ATG,
COR
SAN,
AMG
BAH,
CAP
Jogos
fora
CFC,
FLU
CFC
FIG,
GRE
AMG,
FIG
SPO,
CRU
CEA,
PAL
AVA,
COR


Houve também uma inversão nas chances de título em relação à ordem atual de classificação da tabela (na 23ª rodada), com o Vasco (2º) trocando de posição com o Botafogo (4º). Neste caso, pesou o fato do Vasco não ter descartado ainda nenhum jogo contra equipes do grupo A, enquanto o São Paulo já jogou contra Fluminense, Atlético-MG e Grêmio. Já o Botafogo possui um jogo a menos que os demais times. É interessante notar que a ordem obtida para as chances de título é muito parecida com a obtida na classificação planejada do blog do Rica Perrone.6 Naquele estudo, também se leva em consideração os tipos de jogos já descartados por cada equipe, só que comparando os pontos atuais de cada time com os pontos que ele deveria ter segundo o planejamento proposto por ele.

Quanto às chances de Libertadores, estranhou-se também o fato de o Fluminense apresentar mais de 20% de diferença em relação ao Flamengo e Internacional, que estão a apenas 1 e 2 pontos de distância na tabela, respectivamente. Neste caso, observa-se que, enquanto o Fluminense já descartou 3 jogos contra equipes do grupo A (sendo dois fora de casa), o Internacional descartou 2 e o Flamengo, apenas 1.

Na briga contra o rebaixamento, os quatro times com maiores chances correspondem aos quatro últimos da tabela, apenas com uma inversão de ordem entre Bahia e Atlético-PR. Destaca-se também o crescimento do Atlético-MG, que ultrapassou Ceará e Atlético-GO por causa da classificação do time mineiro neste estudo como sendo do grupo A, enquanto as demais equipes são do grupo C.

Como mencionei anteriormente, os resultados irão variar conforme a definição do grupo a que pertence cada equipe e os valores das probabilidades assumidas para os resultados em cada tipo de confronto. Entretanto, um resultado que apresenta maior robustez em relação à definição desses parâmetros é a probabilidade que determinada equipe (qualquer) teria de ser campeão, ir para a Libertadores ou escapar do rebaixamento, em função do número de pontos conquistados no campeonato. Esta estimativa pode ser feita avaliando, ao longo das 100.000 simulações realizadas, o percentual de vezes em que cada um desses objetivos foi alcançado para cada número de pontos, como mostra a tabela abaixo. A título de comparação, mostra-se o número limite de pontos para o qual cada uma dessas metas foi atingida ao longo dos anos de 2006 a 2010.7

Nº pontos
Chances de
Título

Pontuação do campeão nas edições anteriores

Ano
Campeão
Nº pontos
76
96,4 %

2010
Fluminense
71
73
84,4 %

2009
Flamengo
67
70
55,6 %

2008
São Paulo
75
69
43,0 %

2007
São Paulo
77
67
19,5 %

2006
São Paulo
78

Nº pontos
Chances de Libertadores

Equipe em 5º lugar nas edições anteriores

Ano
Equipe
Nº pontos
64
92,7 %

2010
Atlético-PR
60
63
83,8 %

2009
Palmeiras
62
62
69,6 %

2008
Flamengo
64
61
51,0 %

2007
Cruzeiro
60
59
16,2 %

2006
Paraná
60

Nº pontos
Risco de Rebaixamento

Último rebaixado nas edições anteriores

Ano
Equipe
Nº pontos
39
95,0 %

2010
Vitória-BA
42
42
54,3 %

2009
Coritiba
45
44
17,6 %

2008
Figueirense
44
45
7,2 %

2007
Corinthians
44
46
2,3 %

2006
Ponte Preta
39


Os percentuais estão coerentes, de forma geral, com os observados no histórico do Campeonato Brasileiro. Por exemplo, nas cinco edições passadas se conquistaria a vaga na Libertadores com 64 pontos e haveria rebaixamento com 39 pontos, cujos percentuais de ocorrência obtidos neste estudo foram de 92,7% e 95,0%, respectivamente. Em relação às chances de título, o total de 76 pontos, que garantiria 96,4% de chances de levantar a taça, parece a princípio não ter sido suficiente nos anos de 2007 e 2006. Entretanto, Santos e Internacional, que ficaram em segundo lugar nestes anos, obtiveram 62 e 69 pontos, respectivamente. Portanto, o São Paulo também teria sido campeão em ambas as edições caso tivesse chegado apenas a 76 pontos.


1) Considera-se que todos os números da Mega-Sena, assim como todas as faces de um dado, têm a mesma probabilidade de ocorrência, já que é razoável supor que o mecanismo de sorteio é não tendencioso. Discuto essas questões no post “Passado e Presente”, publicado neste mês de setembro.

2) A probabilidade de cada combinação considerada, indicada na última coluna, é o produto das probabilidades para cada equipe nas colunas anteriores, já que seus jogos são independentes. Por sua vez, as probabilidades de cada equipe são obtidas multiplicando-se as probabilidades dos resultados correspondentes em cada um de seus jogos, que também são considerados independentes.

3) Por exemplo, o Vasco venceu 70% dos jogos em casa até a 23ª rodada, e o São Paulo venceu 70% dos jogos disputados fora de casa. No confronto entre as duas equipes que ocorrerá em São Januário na 32ª rodada, não é possível considerar ambas essas probabilidades, pois a soma ultrapassará 100%, mesmo sem considerar a chance de empate.

4) Os valores são um pouco diferentes dos mostrados no programa Redação Sportv, pois, além do Vasco, eliminou-se também o Santos da estatística da Libertadores, que equivocadamente havia sido incluído nos resultados anteriores

5) Probabilidades nulas ou muito pequenas foram desconsideradas em cada gráfico


7) Apenas a partir de 2006 o campeonato brasileiro da primeira divisão passou a ser disputado por 20 clubes.

13 comentários:

  1. Achei muito interessante sua montagem. Fica mais fácil entender as probabilidades com seu método. Poderia indicar um programa para que eu mesmo possa utilizar esses métodos no meu computador?

    ResponderExcluir
  2. Pois é, mas como futebol não é lógica...

    ResponderExcluir
  3. Nao acredito em nada aii!! Vamos saber so no final do Campeonato! Corinthians Nao ganha esse Campeonato nao!

    ResponderExcluir
  4. Obrigado pelos comentários.

    Dênis, fiz a simulação em programação estruturada mesmo, utilizando linguagem Fortran.

    Jhoninho, conforme mencionei no programa do SporTV, apesar do Corinthians ser, pelo meu estudo, o time que tem mais chances de ganhar o título, é mais provavel que ele NÃO ganhe o título (64,6%, que são a soma das chances de todos os outros times) do que ele ganhe (36,4%).

    Abraços!

    ResponderExcluir
  5. Valeu André. Muito legais as probabilidades apresentadas no programa. O tal Renato M. Prado é que encheu o saco. Realmente é difícil para um leigo dar crédito a uma ciência cujos resultados nem sempre são 100% exatos. Verifiquei apenas um erro nos seus cálculos: como bom Vascaíno considero que a chance do Flamengo cair é bem maior que 0,1%, talvez em torno de 90%.
    grande abraço

    ResponderExcluir
  6. Boa, mestre! Mais uma vez, mandou bem! Mas pq não no R? Muito pesado?

    ResponderExcluir
  7. Obrigado, Paulo e Sandro.
    Sandro, eu resolvi fazer meu próprio programinha em Fortran porque estou mais acostumado com o ambiente e também, como o número de simulações seria muito grande, realmente é mais rápido no Fortran ou C.
    Abraços!

    ResponderExcluir
  8. Olá André Luiz,

    Você é um homem corajoso ao mexer nesse vespeiro que é o futebol. Futebol é paixão, e a paixão tira a razão dos homens. Nunca o torcedor vai admitir que o número frio pode estar correto.

    Como programador das antigas, tenho que comentar que achei interessante você dizer que fez a simulação "em linguagem estruturada mesmo, em Fortran". Na minha época, Fortran era tudo menos linguagem estruturada. Bons tempos.

    Como torcedor apaixonado, deixo a sugestão pra você atualizar as estatísticas uma vez por semana, pra refletir a(s) últimas rodadas. Até pq, como Vascaíno, não posso deixar de discordar da chance do Corínthians, São Paulo ou do Botafogo ser maior, uma vez que o Vasco enfrenta os dois paulistas aqui no RJ.

    ResponderExcluir
  9. Caro ZekkeRJ,

    Muito obrigado pelos seus comentários.

    Amanhã postarei a situação atualizada, após a 25ª rodada que termina hoje, quinta.

    Entretanto, gostaria de alertá-lo que já há uma atualização no post "Para Entender as Estatísticas" com os resultados da rodada do último final de semana (24ª), onde o Vasco já está na frente do Botafogo. Os resultados deste post aqui foram os obtidos após a 23ª rodada (quando o programa do SporTV foi ao ar) e não contabilizava ainda os últimos resultados adversos de Corinthians e Botafogo.

    O time da colina ainda perdia para São Paulo e Corinthians (por pouco) após a 24ª rodada, pelo fato de ter mais jogos difíceis pela frente (apesar de pegar ambos os paulistas em casa). Entretanto, vencendo hoje o Atlético-GO provavelmente estará amanhã na ponta da "tabela de chances".

    Quanto ao Fortran, na verdade utilizo uma versão mais moderna, com uma programação mais voltada a objetos, com uso de tipos de variáveis com vários atributos.

    Abraços,

    André

    ResponderExcluir
  10. O FLAMENGO TEM CHANCES E TIME

    ResponderExcluir
  11. Depois que termina ninguém volta para dizer, a estatística estava certa.

    ResponderExcluir
  12. Vc fez o mesmo estudo para 2012?? Gostaria de acompanhar....

    Valeu

    ResponderExcluir
    Respostas
    1. Olá, Gebrael.
      Desculpe pela longa demora na resposta.
      Postei hoje o prognóstico da 24ª rodada e começarei a acompanhar desde então... Veja lá no meu blog das Chances do Brasileirão.
      Obrigado e um abraço,
      André

      Excluir