Qual é a probabilidade?: setembro 2011

sexta-feira, 30 de setembro de 2011

Fila Pra Tudo

Um dos maiores transtornos experimentados pelo público que foi aos três primeiros dias do Rock In Rio foi o excesso de filas. Havia filas enormes para pegar o ônibus, entrar na Cidade do Rock, comprar comida e, principalmente, se divertir na montanha russa, tirolesa ou na roda gigante. Em um dos stands no Bob´s, a espera para comprar um lanche chegava a quase duas horas e havia filas separadas para os cinco caixas existentes. Fiquei imaginando o porquê de não adotarem o sistema de fila única, dispondo os caixas lado a lado. Este procedimento, difundido no país por volta da década de 1990, é hoje comum em muitos estabelecimentos, como agências bancárias, bilheterias de casas de espetáculos, guichês do metrô e até em alguns supermercados.

Este post mostra que o sistema de fila única seria a maneira mais justa e conveniente de atender às pessoas que quisessem comprar seu lanche no Bob´s do Rock In Rio. Superadas eventuais dificuldades práticas para a sua implementação, principalmente em relação à disposição da fila e dos atendentes, são inegáveis os ganhos da fila única em relação à utilização de uma fila separada para cada caixa. Evita que atendentes fiquem ociosos¹, preserva a justiça na ordem de atendimento (que segue rigorosamente a ordem de chegada de clientes, observando-se o sistema como um todo) e diminui a incerteza no tempo em que uma pessoa ficará na fila até ser atendida.

A questão mais importante no estudo de um sistema de filas é a representação adequada tanto do tempo até a entrada de um novo cliente na fila (que fará com que ela aumente) como do tempo até a saída de um cliente que esteja sendo atendido (que fará com que a fila diminua). No primeiro caso, a dificuldade está em identificar o padrão segundo o qual as pessoas chegam para serem atendidas e no segundo caso a dificuldade é em prever a duração de cada atendimento.

A Estatística tem papel fundamental na modelagem desses dois tempos, que, por serem incertos, são denominados variáveis aleatórias. Apesar de ser impossível prever o tempo de chegada de um cliente ou a duração de um atendimento, pode-se construir uma espécie de histograma para cada uma dessas variáveis, mostrando a gama de valores que elas podem assumir e suas respectivas frequências de ocorrência. Com base nestas informações, pode-se simular numericamente a evolução da fila ao longo do tempo (utilizando o Excel ou algum software de estatística) e traçar histogramas de frequências para o número de pessoas na fila e para o tempo de espera até o atendimento, os quais permitem avaliar o desempenho do sistema².

Para exemplificar esse tipo de análise, simulei o que poderia ocorrer a uma pessoa que entrasse na fila para comprar um lanche no Bob’s do Rock In Rio em determinado momento quando havia 5 caixas, cada um com uma fila de aproximadamente 40 pessoas. O tempo médio de atendimento por cliente era de cerca de 3 minutos, valor estimado com base nas 2 horas de espera na fila, em média³.

Considerei dois tipos de configuração para este sistema: o atendimento em filas separadas, como estava ocorrendo na prática, e um atendimento hipotético em fila única, que seria outra alternativa de prestar o serviço ao público. Neste segundo caso, ao invés da última pessoa que chegou estar na 40ª posição da fila de um dos caixas, ela seria a 200ª pessoa em uma fila única para os 5 caixas. Como se percebe, o número de pessoas por caixa é o mesmo em ambas as configurações.

Ressalto que, como o processo é aleatório, não é possível calcular quanto tempo a pessoa ficará na fila, mas apenas obter uma relação dos possíveis valores de tempo de espera e suas respectivas probabilidades. Veja a diferença entre os resultados dos sistemas de filas separadas e de fila única, obtidos a partir de 1000 simulações para cada uma dessas configurações.

Histograma de freqüências do tempo de espera na fila, nas duas configurações analisadas.

Apesar de o tempo médio em ambos os casos ser de 2 horas (120 minutos), há uma variação muito maior entre os possíveis tempos de espera no sistema de filas separadas. Observe a faixa de 15 minutos para mais ou para menos em relação ao tempo médio (ou seja, um tempo de espera entre 105 e 135 minutos): enquanto no sistema de filas separadas em aproximadamente 25,8% das vezes o tempo de espera ficou fora dessa faixa, no sistema de fila única isso só ocorreu em 1,4% das simulações.

Portanto, observa-se que, no sistema de filas separadas, há uma chance maior de esperar menos tempo do que a média – caso a pessoa tenha a sorte de pegar uma fila que anda mais rápido – porém há também um risco maior de esperar bastante, caso se tenha o azar de pegar uma fila mais demorada. Já no sistema de fila única a incerteza em relação à duração do tempo de espera é bem menor, pois muito provavelmente ele não se distanciará muito desse valor médio de 120 minutos. Isso ameniza em parte o aspecto negativo associado ao elevado tempo de espera, pois pelo menos a pessoa tem uma noção mais exata de sua duração.

Um segundo ponto que ilustro a seguir é a injustiça do sistema de filas separadas. Realizei simulações adicionais para esta configuração, observando o que poderia ocorrer com duas pessoas que estivessem em filas diferentes, na seguinte situação: a primeira na 40ª posição de uma das filas e a segunda em uma posição mais a frente (entre a 30ª até a 39ª) na fila ao lado. A idéia foi verificar o percentual de vezes em que a pessoa da primeira fila, mesmo estando mais atrás, ainda conseguiria ser atendida antes do que a pessoa da outra fila. Os resultados são mostrados na tabela abaixo:

Posição da pessoa na segunda fila	39ª	37ª	35ª	32ª	30ª
Percentual das vezes em que uma pessoa na 40ª posição da primeira fila ainda conseguiria ser atendida antes da pessoa na segunda fila	46,8%	31,8%	23,5%	11,1%	3,9%

Nota-se que em quase metade das vezes a pessoa da primeira fila seria atendida antes de uma pessoa 1 posição à frente na segunda fila, e em quase um quarto das vezes ela seria atendida antes da pessoa que estivesse 5 posições à frente na outra fila. Mesmo alguém na 30ª posição da outra fila ainda teria um risco próximo a 4% de ser atendido depois da pessoa da primeira fila, situada 10 posições atrás.

De qualquer forma, é importante ressaltar que o sistema de fila única não elimina o problema da pequena quantidade de caixas colocada para atender ao público do Rock In Rio, que nitidamente foi inferior ao que seria esperado para um evento destinado a receber 100 mil pessoas por dia.

_____________________________________________________________________________________

1) Nos exemplos citados de atendimento do Bob´s ou agências bancarias, é evidente que isto não ocorreria, pois se algum atendente ficasse ocioso as pessoas se deslocariam de uma fila para outra. Entretanto, em situações como um SAC por telefone onde houvesse vários números para se ligar diretamente, poderia haver fila em algum destes números, enquanto um outro número estivesse ocioso. Por este motivo, implantaram-se os atuais sistemas de atendimento onde há apenas um número, formando-se uma fila única imaginária (a famosa música que se ouve ao telefone) para distribuição dos clientes entre os vários ramais existentes.

2) Em alguns modelos, como por exemplo quando se utiliza uma distribuição exponencial para representar tanto a chegada como a saída de clientes, é possível deduzir expressões teóricas exatas para as medidas de desempenho do sistema.

3) É evidente que não coletei minuciosamente dados reais para modelar este sistema. Apenas para ilustrar a análise, considerei que o tempo de atendimento seguia uma distribuição gama, com parâmetro r = 2 e valor médio de 3 minutos. Esta distribuição tem a função densidade de probabilidade mostrada abaixo, onde r e a são parâmetros positivos. O valor médio de X é dado pela razão r/a.

domingo, 18 de setembro de 2011

Para Entender as Estatísticas

A fuga do rebaixamento do Fluminense em 2009 ficou conhecida como um caso emblemático em que os estatísticos erraram feio por apontarem, a muitas rodadas antes do fim, apenas 1% de chances de o time carioca se manter na primeira divisão em 2010. No entanto, esta situação pode ser vista como um acerto dos estatísticos, pois enquanto o público e a crítica em geral davam como certo o rebaixamento do tricolor, aquele percentual era um sinal de que nem tudo estava perdido. Os estatísticos consideraram, sim, a hipótese de o time não ser rebaixado, mas com a probabilidade que cabia na época, de acordo com os dados que tinham no momento da análise.

Afinal de contas, dos 7 jogos finais daquele campeonato, o Fluminense ganhou 6 e empatou 1, conquistando 19 pontos dos 21 possíveis e, mesmo com um desempenho tão impressionante, escapou do rebaixamento por apenas 1 ponto. Qual seria a probabilidade de um time na última colocação dar tal guinada, que originou até a publicação de um livro?¹. Provavelmente dessa ordem de 1%, ou menor.

Esse fato ilustra bem como os resultados do meu estudo sobre as chances de cada time no Brasileirão, publicados no post anterior², devem ser encarados. Por exemplo, se as chances de título do Flamengo, segundo as hipóteses que adotei, foram de apenas 1,7%, isso não significa que o time rubro-negro não tenha chances. Apenas indica que elas são reduzidas, considerando que o seu desempenho, daqui para frente, não irá ser muito diferente do desempenho dos outras equipes que classifiquei como sendo do tipo A (os 12 clubes chamados grandes). E esta hipótese básica foi adotada porque não tenho elementos para “prever” que determinada equipe deste tipo terá um desempenho bem superior ao dos outros no futuro. Como enfatizei no programa “Redação Sportv”, onde os resultados foram apresentados, estatístico não é vidente.

E se o torcedor do Flamengo estiver confiante de que o time irá engatar 4 vitórias consecutivas nas próximas rodadas, como já fez duas vezes nesse campeonato? Se isto acontecer, após a 28ª rodada, suas chances de conquistar o título ou ir para a Libertadores certamente subirão, e deverão ser bem maiores do que as apontadas ao final desta 24ª rodada (vide resultados mais adiante). Raciocínio análogo pode ser aplicado a qualquer outro time, seja na disputa pelo título como na luta contra o rebaixamento.

É importante que se entenda, portanto, que as chances de cada time são recalculadas a cada rodada, e eventuais mudanças no seu desempenho (para melhor ou para pior) irão se refletir nas suas possibilidades futuras de título, de vaga na Libertadores ou de não cair. No exemplo citado do Fluminense em 2009, a chance de fuga do rebaixamento foi crescendo ao longo das últimas rodadas do campeonato. A sete rodadas do fim, consistia daquele histórico 1%, e na última rodada atingiu um valor que indicava algo bem mais provável de acontecer: bastava não perder para o Coritiba no último jogo, no estádio Couto Pereira.

Essa mudança nos prognósticos ao longo do campeonato é inevitável, e não significa que o estatístico “errou” nos cálculos anteriores, a partir das hipóteses adotadas. Ela se dá simplesmente pela impossibilidade de o estatístico prever o futuro. Por exemplo, ontem, pela 24ª rodada do campeonato, o Vasco venceu bem o Grêmio em São Januário, por 4 a 0. Segundo a tabela de probabilidades para um jogo entre equipes do tipo A, mostrada no post anterior, considerei que a probabilidade de vitória do time mandante era de 0,40. Isto significa que, em média, apenas 40% das 100.000 simulações que realizei anteriormente apontaram o Vasco vitorioso neste jogo.

Já no estudo atualizado que realizei ao final desta 24ª rodada, 100% das simulações consideraram vitória do Vasco nesse mesmo jogo (uma vez que ele já ocorreu), e assim os novos prognósticos foram mais favoráveis ao clube da colina, em relação aos da rodada anterior. Como não é possível um time ganhar 40% de um jogo após a sua realização, os cálculos só seriam os mesmos, nesse caso, se eu tivesse considerado, na simulação para a rodada anterior, 100% de chance de vitória do Vasco neste confronto. Evidentemente, isso seria um absurdo do ponto de vista tanto estatístico como futebolístico.

Com base nos resultados revelados para esta 24ª rodada que terminou hoje, fiz novas simulações, com a mesma metodologia e hipóteses adotadas no estudo do post anterior, que havia sido realizado após a 23ª rodada. A única modificação, portanto, foi a inclusão dos resultados ocorridos nesta rodada, que se constituíram, para o programa, em jogos já realizados e não mais passíveis de simulação. As novas chances de título, vaga na Libertadores e risco de rebaixamento são mostradas na tabela abaixo. A figura na seqüência mostra a variação ocorrida nas chances de título em relação à simulação anterior.

#	Equipe	Classificação do Campeonato, após a 24ª rodada								Chances de Título (%)	Chances de Libertadores (%)	Risco de Rebaixamento (%)
#	Equipe	PG	J	V	E	D	GP	GC	SG	Chances de Título (%)	Chances de Libertadores (%)	Risco de Rebaixamento (%)
1	Vasco	45	24	13	6	5	37	27	10	23,72	0,00	0,00
2	São Paulo	44	24	13	5	6	39	28	11	25,54	88,77	0,00
3	Corinthians	43	24	13	4	7	36	26	10	25,94	88,87	0,00
4	Botafogo	41	23	12	5	6	37	26	11	17,72	81,17	0,00
5	Fluminense	37	24	12	1	11	30	29	1	2,40	42,07	0,02
6	Flamengo	37	24	9	10	5	39	32	7	1,34	32,03	0,04
7	Internacional	36	24	9	9	6	40	31	9	1,11	27,07	0,10
8	Palmeiras	35	24	8	11	5	30	24	6	0,76	23,54	0,14
9	Atlético-GO	33	24	9	6	9	30	27	3	0,01	0,80	8,95
10	Coritiba	33	24	9	6	9	40	30	10	0,02	2,82	2,74
11	Santos	32	22	9	5	8	32	33	-1	1,30	0,00	0,21
12	Figueirense	32	24	8	8	8	28	30	-2	0,00	0,49	13,90
13	Grêmio	30	23	8	6	9	27	31	-4	0,13	8,99	1,24
14	Cruzeiro	29	24	8	5	11	30	28	2	0,03	3,12	3,83
15	Ceará	27	24	7	6	11	30	41	-11	0,00	0,03	46,39
16	Bahia	27	24	6	9	9	28	32	-4	0,00	0,02	49,62
17	Atlético-MG	24	24	7	3	14	30	41	-11	0,00	0,21	24,13
18	Atlético-PR	23	24	5	8	11	24	36	-12	0,00	0,00	66,27
19	Avaí	22	24	5	7	12	28	49	-21	0,00	0,00	86,50
20	América-MG	19	24	3	10	11	30	44	-14	0,00	0,00	95,93

Verifica-se uma significativa redução na chance do Corinthians, de 36,4% para os atuais 25,94%, e um grande aumento das chances de Vasco e São Paulo. Esse comportamento era esperado, devido à derrota do Corinthians para o Santos e às vitórias expressivas dos outros dois adversários. Entretanto, um fator que contribuiu para a magnitude desta variação foi o fato de as três equipes estarem muito próximas entre si, e os 3 pontos ganhos a mais por Vasco e São Paulo nesta rodada podem fazer muita diferença no final. Por exemplo, os campeões das três últimas edições do campeonato – Fluminense, Flamengo e São Paulo – terminaram o campeonato com diferença menor ou igual a 3 pontos para o segundo colocado. Verificou-se também uma leve redução nas chances do Botafogo, que empatou com o Flamengo na rodada.

O time do parque São Jorge continua com mais chances que os demais, porém esta diferença é estatisticamente desprezível em relação ao São Paulo e muito pequena em relação ao Vasco. Apesar de estar na liderança, o clube de São Januário ainda tem contra si o fato de já ter descartado, neste 2º turno, uma quantidade maior de jogos com times de menor expressão.

Na luta contra o rebaixamento, destaca-se a aproximação entre as chances de Ceará (46,39%) e Bahia (49,32%), devido à derrota sofrida pelo primeiro e a vitória do segundo, diante do Fluminense, que é uma equipe classificada como do tipo A. Finalmente, na zona de classificação para a Libertadores, houve uma aproximação entre o candidato mais provável para a última vaga, o Fluminense (42,07%), e os seus adversários mais diretos, Flamengo (32,03%) e Internacional (27,07%). Apesar de estes dois últimos terem empatado suas partidas, o Flamengo obteve uma vantagem maior em relação ao Internacional por ter descartado um clássico, enquanto o time do Sul deixou de ganhar um jogo em casa, contra uma equipe que havia sido classificada como do tipo B.

1) "Do Inferno ao Céu - A História de um Time de Guerreiros", Paulo Roberto Andel, Ed. 7 letras, 2011.

2) Post “chances do Brasileirão”, publicado em 16/09/2011.

Pesquisar este blog

sexta-feira, 30 de setembro de 2011

Fila Pra Tudo

domingo, 18 de setembro de 2011

Para Entender as Estatísticas