Qual é a probabilidade?: abril 2011

sábado, 30 de abril de 2011

Clássico dos Milhões

Com ou sem atraso por falta de luz no Engenhão, neste domingo Vasco e Flamengo voltarão a decidir, depois de 7 anos, um turno do Campeonato Carioca. As chances de cada time vencer especificamente esse confronto da Taça Rio ou a decisão do campeonato (se houver) são subjetivas, já que dependem da percepção de cada pessoa sobre esses confrontos. Porém, uma vez expressa essa subjetividade em números, é possível calcular as chances de cada time conquistar o título final do Campeonato Carioca, que é o que de fato interessa.

Como já conquistou a Taça Guanabara, o Flamengo já será o campeão carioca se vencer o confronto desse domingo. Caso o vencedor seja o Vasco, haverá um novo confronto em dois jogos para a decisão final do título. Portanto, o Flamengo será campeão se ocorrer uma das duas situações abaixo:

(A) O Flamengo vencer a final da Taça Rio OU

(B) O Flamengo perder a final da Taça Rio E o Flamengo vencer a decisão final do título.

Já para o Vasco, a situação é mais complicada, pois apenas uma situação o favorece:

Nenhum dos dois times tem vantagem do empate nesses confrontos. Portanto, na hipótese de os dois times serem também equivalentes do ponto de vista técnico, uma primeira análise mais simples poderia indicar uma chance de 2 para 1 a favor do Flamengo, com base no número de situações favoráveis a cada time. Mas esses números mudam quando a teoria da probabilidade entra em jogo.

Para levar em consideração o caráter subjetivo da chance de sucesso atribuída a cada time em cada confronto, é necessário lançar mão de alguns parâmetros. Na análise que segue, o valor p representará a chance que você acha que o Flamengo tem de ser campeão da Taça Rio, independente do que possa ocorrer na decisão final. Um segundo valor q representará a chance que você acha que o Flamengo tem de ser campeão na decisão final, independentemente da forma como o Vasco hipoteticamente venha a conquistar a Taça Rio (no tempo normal, nos pênaltis, por goleada, etc.). Ambos os valores p e q são expressos na escala de 0 a 1, ou seja, uma chance de 60% corresponde a um valor de 0,6.

Na análise que apresento, o mais importante é que você decide quais são os valores adequados de p e q a serem utilizados, segundo a sua percepção e o seu entendimento de futebol. Definidos esses parâmetros, as probabilidades de cada time ser campeão carioca – medidas também na escala entre 0 e 1 – são dadas pelas expressões abaixo, cuja explicação técnica é apresentada no final desse texto.

P (Flamengo ser campeão carioca) = p + (1-p) ´ q

P (Vasco ser campeão carioca) = (1-p) ´ (1-q)

Por exemplo: se você considera que os dois times têm a mesma chance na decisão da Taça Rio e também em uma possível decisão final de título, os valores de p e q são ambos iguais a 0,5. Neste caso, a probabilidade (Pr) de cada time ser campeão carioca é:

Pr (Flamengo ser campeão) = 0,5 + (1-0,5) ´ 0,5 = 0,75, ou 75%;

Pr (Vasco ser campeão) = (1-0,5) ´ (1-0,5) = 0,25, ou 25%.

Ou seja, mesmo que você ache que os dois times se equivalem tecnicamente, a chance de o Flamengo ser campeão é de 3 para 1 em relação ao Vasco. Isso mostra a situação confortável em que o Flamengo se encontra no campeonato, nesse momento.

Você também poderia achar que as chances dos dois times são as mesmas na final da Taça Rio, porém seriam um pouco maiores para o Vasco em uma eventual decisão de título, pelo fato de ele estar “embalado” por ter vencido a Taça Rio. Se você utilizar, neste caso, valores de p = 0,5 e q = 0,4, por exemplo, chegaria a uma chance de título carioca de 70% para o Flamengo e 30% para o Vasco, ainda bem superior para o clube da Gávea.

A tabela a seguir lista as chances de cada time ser campeão carioca para diversas combinações de p e q. Pelo fato de não haver uma disparidade técnica tão grande entre os dois times, desprezei valores inferiores a 0,3 para esses parâmetros.

p (chance de o Flamengo ganhar a Taça Rio)	q (chance de o Flamengo ganhar a decisão final)	Pr (Flamengo ser campeão carioca) (%)	Pr (Vasco ser campeão carioca) (%)
0,7	0,7	91%	9%
0,7	0,6	88%	12%
0,7	0,5	85%	15%
0,7	0,4	82%	18%
0,7	0,3	79%	21%
0,6	0,7	88%	12%
0,6	0,6	84%	16%
0,6	0,5	80%	20%
0,6	0,4	76%	24%
0,6	0,3	72%	28%
0,5	0,7	85%	15%
0,5	0,6	80%	20%
0,5	0,5	75%	25%
0,5	0,4	70%	30%
0,5	0,3	65%	35%
0,4	0,7	82%	18%
0,4	0,6	76%	24%
0,4	0,5	70%	30%
0,4	0,4	64%	36%
0,4	0,3	58%	42%
0,3	0,7	79%	21%
0,3	0,6	72%	28%
0,3	0,5	65%	35%
0,3	0,4	58%	42%
0,3	0,3	51%	49%

Percebe-se a disparidade nas chances: na situação mais favorável ao Vasco listada na tabela (chances de apenas 0,3 para o Flamengo tanto na Taça Rio como na decisão final), sua probabilidade de ser campeão ainda é levemente menor que a do Flamengo. Para se ter uma idéia, mesmo que se considere que a chance do Vasco ganhar tanto a Taça Rio como a decisão final seja de 4 para 1 (p = q = 0,2), a substituição desses valores na fórmula anterior ainda assim indicará uma chance de 36% para o Flamengo ser campeão.

Na minha avaliação em particular, escolho um valor de p = 0,4 para o jogo da Taça Rio, pois acho que o Vasco tem um pouco mais de chance que o Flamengo neste primeiro confronto, pelo fato de estar com um bom time e ter que jogar todas as suas fichas nessa partida. Já para a decisão final de título, considero um valor de q = 0,6, pois acho que pode pesar o fator psicológico de o Vasco ter perdido as cinco últimas decisões de título contra o Flamengo. Portanto, a minha estimativa do Vasco ser campeão é de apenas 24%.

Cada leitor pode chegar a um valor diferente para a chance de cada time ser campeão carioca, de acordo com a combinação escolhida de p e q na tabela. Qual é a sua estimativa?

É importante ressaltar que essa análise é válida somente para os cálculos realizados ANTES da final da Taça Rio. Portanto, se você estiver lendo este texto após o jogo de domingo e o Vasco tiver levantado a Taça Rio, a chance de o Flamengo ser campeão carioca será expressa simplesmente pelo valor q. Entretanto, este valor pode até sofrer uma revisão caso, por exemplo, um ou outro time perca jogadores importantes para a final devido a contusões.

Detalhe do cálculo das probabilidades de cada time ser campeão carioca:

Para o cálculo das probabilidades, as conjunções “E” e “OU” destacadas na descrição de cada situação exercem um papel fundamental. Sempre que queremos avaliar a probabilidade de um “OU” outro evento acontecer, devemos somar as probabilidades de cada evento, tendo o cuidado apenas de nos certificarmos de que os eventos não possuem interseção (ou seja, sejam eventos mutuamente excludentes). Já quando se calcula a probabilidade de ocorrer um “E” outro evento, deve-se multiplicar as probabilidades de cada evento, tendo o cuidado de verificar se a ocorrência de um evento não afeta a probabilidade de ocorrência do outro (eventos independentes, hipótese satisfeita neste estudo, pela forma como foi apresentado).

Trocando as conjunções pelos sinais, a probabilidade do Flamengo ser campeão será:

[ Pr(O Flamengo vencer a final da Taça Rio) ] +

[Pr(O Flamengo perder a final da Taça Rio) ´ Pr (Flamengo vencer a decisão final do título) ] =

= p + (1-p) ´ q

e a do Vasco será:

[ Pr (Vasco vencer a final da Taça Rio) ´ Pr (Vasco vencer a decisão final do título) ] = (1-p) ´ (1-q).

segunda-feira, 25 de abril de 2011

Escala do Samba

Marquês de Sapucaí, carnaval 2012, verão no Rio de Janeiro. De papel e caneta na mão, você é jurado do quesito bateria. A tradicional verde e rosa entra em cena e você percebe um deslize mínimo na harmonia dos instrumentos. Mas segundo as regras de votação, cada jurado só pode atribuir uma nota inteira, de 0 a 10, não sendo permitido utilizar algarismos decimais. O que você faz? Ignora esse deslize e dá uma nota 10 para a escola ou tira um ponto da agremiação, atribuindo uma nota 9?

Esta situação parece fictícia e a imposição de apenas dar notas inteiras, descabida. Porém, observe o processo de avaliação que a Liga das Escolas de Samba do Rio de Janeiro (Liesa) pensa em implantar para o carnaval 2012, como noticiou o jornal O Globo, na última sexta-feira. De acordo com o jornal, a Liga quer que a nota mínima passe a ser 9,0 porque “a qualidade do desfile do Grupo Especial não comporta notas abaixo de 9”. No último carnaval, a nota mínima imposta foi 8,0 e esta mudança teria sido motivada pela insatisfação de duas escolas que tiraram notas 8,7 e 8,9 em determinado quesito.

Como a nota de um jurado pode ter até uma casa decimal, essa possível nova escala de votação da Liesa é análoga, do ponto de vista matemático, à escala fictícia mencionada no primeiro parágrafo. Isto pode ser entendido na correspondência entre as duas escalas mostrada na tabela abaixo, onde a nota da escala fictícia nada mais é do que o algarismo decimal utilizado pelo jurado na nota. Percebe-se que a nota 9,9, que em princípio deveria ser quase um 10, acaba se tornando um abismo em relação à nota máxima.

Escala fictícia	Nova escala em estudo pela Liesa	Escala fictícia	Nova escala em estudo pela Liesa
0	9,0	6	9,6
1	9,1	7	9,7
2	9,2	8	9,8
3	9,3	9	9,9
4	9,4	10	10,0
5	9,5

No sistema de votação atual, a grande maioria dos jurados atribui nota 10 ou 9,9 para as escolas que disputam o título, sendo raras notas abaixo deste valor. Considero inadequada esta prática porque não permite diferenciar de forma minuciosa o desempenho das escolas. Um determinado jurado pode achar a escola “A” um pouco melhor do que a escola “B”, mas acaba dando nota 10 para as duas porque sabe o prejuízo que uma nota 9,9 pode causar à escola “B”. Com a nova escala de votação proposta, ficará mais difícil ainda, neste caso, dar uma nota 9,9 à escola “B”, principalmente quando ela tiver se apresentado muito bem, só que não de forma tão espetacular como a escola “A”.

Outro aspecto prejudicial da prática de só dar notas muito altas é que uma escola que tenha sofrido alguma penalidade - como por exemplo o Salgueiro, que perdeu um ponto no último carnaval - praticamente se despede da luta pelo título, já que fica difícil recuperar essa diferença. Torna-se também difícil comparar o desempenho das escolas do ponto de vista estatístico, utilizando as métricas de Estatística Descritiva. Por exemplo, as notas médias das duas primeiras colocadas no último carnaval – Beija Flor e Unidos da Tijuca – foram de 9,993 e 9,947, respectivamente, e o valor mediano¹ da Mangueira, terceira colocada, foi igual à da Beija Flor (10,0).

Por que não refinar mais a escala? Se fosse permitido utilizar duas casas decimais na avaliação, dois problemas seriam resolvidos: o ego dos carnavalescos não seria atingido (afinal de contas, todos tirariam sempre notas maiores do que 9) e cada jurado poderia distinguir melhor, na nota, diferenças muito pequenas de performance das escolas. No exemplo hipotético deste texto, o jurado poderia dar nota 10,00 para a escola “A” e 9,97 para a escola “B”, que neste caso não sairia tão prejudicada na disputa pelo título. Fazendo uma analogia semelhante à da tabela anterior, essa nova escala é equivalente à escala tradicional de 0 a 10 com intervalo de 0,1, porém sem exigência de uma nota mínima (por exemplo, 9,52 corresponderia a 5,2, e 9,97 corresponderia a 9,7). É apenas um artifício para burlar o aspecto psicológico de não poder dar uma nota abaixo de 9,0.

Pode-se argumentar que esta medida não resolve o problema da escola que perde 1 ponto por atraso no tempo de desfile. Entretanto, como a nota 10 passaria a ser dada com menos frequência, uma série de notas 9,96; 9,92; 9,91, etc, por exemplo, poderia resultar, no conjunto das 30 notas finais (após os descartes), em uma perda maior de pontos se comparada ao ínfimo 0,2 ponto perdido pela Beija Flor, atual campeã.

Há também uma outra mudança proposta pela Liesa, esta, de fato, eficaz: criar uma nota “bônus”. Cada jurado teria a opção de dar 0,1 ponto adicional a uma (e somente uma) escola que tivesse se destacado em relação às outras. Com isso, ao invés de dar 10 para várias escolas, pode-se premiar com “10,1” aquela que efetivamente foi melhor do que as outras.

¹ A mediana é o ponto “central” de um conjunto de valores, ou seja, o valor para o qual 50% dos outros valores são maiores e 50% são menores do que ele. Neste estudo, estes valores correspondem ao conjunto de notas recebidas por uma Escola.

segunda-feira, 18 de abril de 2011

A frieza e o estilo dos europeus

O estudo do gol qualificado cruzou o Atlântico. No post anterior, vimos que, aqui no Brasil e na América do Sul, é indiferente jogar a segunda partida em casa ou fora quando existe essa regra. Agora, por sugestão de um leitor, verifico se isso também ocorre na Europa, onde o estilo de jogo é bastante diferente do sulamericano. Considerei o principal campeonato europeu, a chamada “Liga dos Campeões”, que atualmente está na fase semifinal, onde um dos confrontos será o sensacional duelo entre Real Madrid e Barcelona.

Ao contrário da Copa Libertadores, onde o gol qualificado só foi adotado em 2006, na Europa essa regra sempre existiu, sendo chamada de away goals rule. Apesar de contar com um conjunto bastante extenso de dados, considerei inadequado coletar dados muito antigos, onde o futebol era bem diferente do praticado hoje em dia. Com o objetivo de equilibrar o volume de dados e a atualidade dos mesmos, escolhi como amostra os resultados de 1980 até hoje.

Coletei os dados do site http://www.the-sports.org/. Não incluí o jogo final de cada ano, que sempre é disputado como partida única em campo neutro. A fórmula de disputa variou ao longo dos anos, não tendo havido confrontos do tipo “mata-mata” nas quartas de final de 1991 a 1993 e nas oitavas de final de 1994 até 2002, quando estes confrontos foram substituídos pela fórmula de grupos de quatro equipes cada, com todos jogando entre si. Ao final, restaram 341 confrontos do tipo mata-mata a serem analisados, cujo resumo dos resultados é mostrado abaixo:

Total de confrontos: 340

Classificações do mandante do segundo jogo: 186 (54,71%)

Classificações do visitante do segundo jogo: 154 (45,29%)

Neste caso, observa-se que houve uma diferença razoável entre o número de classificações do mandante e do visitante do segundo jogo. Mas será que essa diferença é significativa, do ponto de vista estatístico, para afirmarmos que na Europa, ao contrário da América do Sul, o gol qualificado não elimina a vantagem de jogar a segunda partida em casa? *

Para responder a pergunta acima, vamos recorrer a um teste estatístico unilateral, utilizando a distribuição binomial, com n = 340 e p = 0,50. Sob a hipótese nula de que não há vantagem para um ou outro time, a probabilidade de ter acontecido a diferença acima (ou alguma mais extrema a favor do mandante) é de aproximadamente 4%. Portanto, adotando-se o nível de significância clássico de 95% em estatística, rejeita-se a hipótese de igualdade de chances entre o mandante e o visitante.

Como conclusão do estudo, pode-se dizer, com 95% de certeza, que o mandante do segundo jogo tem realmente vantagem sobre o visitante na liga dos campeões da Europa, mesmo valendo a regra do gol qualificado. Lembro novamente que, no estudo realizado anteriormente para a Copa Libertadores e a Copa do Brasil, ambos na América do Sul, isto não se verificou, havendo uma igualdade quase absoluta entre os percentuais de classificação para o mandante e o visitante do segundo jogo.

Mas qual seria a explicação para que, na Europa, o gol qualificado não tenha o mesmo efeito sobre as chances de classificação dos dois times em relação à sua aplicação na América do Sul? Será a frieza dos europeus? Será o estilo de jogo menos catimbado, que faz com que o mandante do segundo jogo seja mais objetivo no primeiro jogo do confronto, evitando um resultado adverso nessa partida e fazendo com que ele de fato aproveite a vantagem de decidir o segundo jogo em casa? Será o fato de que essa regra sempre existiu na Europa, tendo os jogadores já se acostumados com ela? Talvez a resposta esteja no campo da Psicologia e não da Estatística.

--------------------------------------------------------------------------------------------------------

* Explicação prévia para quem não é da área de Estatística: imagine uma moeda supostamente não viciada, ou seja, com 50% de chances de dar cara e 50% de chances de dar coroa. Ao lançarmos essa moeda 341 vezes, espera-se que haja um equilíbrio entre a quantidade de caras e de coroas ocorridas. Se houve 189 caras e 152 coroas, quero investigar se esse desequilíbrio é grande o suficiente para que eu possa desconfiar da idoneidade da moeda. Essa avaliação é feita calculando-se a probabilidade de tal desequilíbrio ocorrer em uma moeda de fato não viciada.