Bem, para isso, podemos ouvir a opinião dos fãs. Eu fui na base da amazon.com, lá cada um pode classificar com estrelas de 1 a 5 o quanto gosta de um álbum (dados no final do post). Escolhi a amazon por ser um site grande e com um grande registro de dados, e os "Beatles" por ser a banda mais conhecida do planeta e a favorita de 9 entre 10 pessoas, sobre a qual se possui grande conhecimento dos álbuns e de toda produção. O disco com menos votos é o "
na data de hoje (05/02/2012) em que atualizei os dados, e o disco com mais votos é "
(SGT) com 1338 votos. Por meio do site podemos construir alguns histogramas com o números de estrelas dos albuns. Vejamos alguns exemplos:
" (LIB) tem uma proporção de 3 e 4 estrelas bem maior do que os outros dois. Uma coisa intuitiva que podemos fazer é tirar a média do número de estrelas de cada álbum. Dessa forma, o disco preferido é...
Fonte: cálculos a partir de dados do amazon.com. Data de 05/02/2012
Eu não estaria escrevendo isso tudo só para mostrar que você pode tirar a média de estrelas para descobrir qual o melhor álbum. O propósito maior é mostrar como entender as posições e situações por trás das médias, ver como os histogramas falam além do que as médias nos permitem obter, assim como entender outras classificações possíveis e generalizar o método aqui aplicado. Pois bem, se fizermos um histograma com as estrelas para todos os álbuns teríamos algo assim:
Se ligarmos os topos de cada uma das barras do histograma perceberemos que a tendência de estrelas para os álbuns dos
Beatles é crescente. A partir de agora, usaremos essas representações por meio de linhas ligando o topo das barras para as estrelas. Descobrir que essa tendência é crescente é de certa forma óbvio, mas as implicações a partir disso nem tanto. Podemos usar essa tendência para extrairmos informação. Para qualquer disco dos Beatles, e com esses dados, não seria de se esperar que as estrelas estejam distribuídas com uniformidade (20% de votos para cada). Da maneira como vejo, classificar pela média de estrelas é como se estivéssemos esperando que a uniformidade ocorresse e assim, poderíamos tirar a média pela proporção de votos. Outra maneira de encarar os dados é considerar a linha de tendência acima como ocorrência natural e ver como cada álbum se desvia mais ou menos dela.¹
Para fazer isso podemos utilizar as técnicas enunciadas no primeiro parágrafo. Essas técnicas consistem em comparar o histograma de
referência, que no caso será o histograma com a proporção de estrelas de todos os álbuns, com um histograma de um álbum qualquer
observado. O gráfico abaixo apresenta essas linhas de densidade.
Fonte: cálculos a partir de dados do amazon.com. Data de 05/02/2012
A
densidade relativa é feita pelo cálculo da probabilidade observada (
pobs) sobre a probabilidade de referência (
pref) para cada estrela. Quando as duas densidades são idênticas, a função de densidade relativa será sempre igual a um. Essa função de densidade relativa é também chamada de
g(
r), em que
r é a posição na quantidade de estrelas,
g(
r)= (
pobs)/(
pref).
______________________________________________________________
Nº de Estrelas
função g(r)---1-------2-------3-------4-------5---
==================================================
identidade---1,000---1,000---1,000---1,000---1,000
___________________________________________________________________________________
exemplo------0,707---0,905---2,192---1,876---0,731
___________________________________________________________________________________
Fonte: cálculos a partir de dados do amazon.com. Data de 05/02/2012
Dessa maneira vamos representar as funções de densidade relativas de alguns dos álbuns e ver o que descobrimos.
Fonte: cálculos a partir de dados do amazon.com. Data de 05/02/2012
Para interpretar o gráfico acima, podemos entender a função relativa como uma indicadora de quantas estrelas a mais (ou a menos) o álbum possui em relação à referência. “
Abbey Road” e “
Revolver”, se saem bem, pois possuem estrelas 1, 2, 3 e 4 de menos, e um número relativamente maior de 5 estrelas. São discos de alta aprovação e baixa rejeição.
Fonte: cálculos a partir de dados do amazon.com. Data de 05/02/2012
Os três discos acima são intermediários. “
Help” (HLP) se sai melhor, possui poucas estrelas 1,2 e 3, um elevado número de 4 estrelas e número de 5 estrelas bem próximo da referência. “
Sgt. Pepper’s Lonely Heart Club Band” possui alta rejeição indicada pelo número maior 1 e 2 estrelas. Tanto o “
Sgt. Pepper’s” quanto o “
Magical Mystery Tour” (MMT) oscilam em torno da referência.
Por fim, os álbuns classificados ao final da listagem. Começando por “
Let it Be”, o penúltimo album dos Beatles (e lançado depois do
Abbey Road) já foi meu álbum preferido por longo período, me surpreendeu um pouco estar entre os últimos. Ao que parece, pelos dados disponíveis, muitos fãs consideram “
Let it Be” um álbum 3 estrelas, isso traz sua média para baixo e o distancia da referência. “
Please, Please Me” (PPM) surpreende da mesma maneira, só que possui uma divisão entre 3 e 4 estrelas mais equânime, aliado a um número menor de 2 estrelas. Mais fácil de explicar é o “
Let it Be Naked”, esse álbum é o “
Let it Be” sem a masterização, mixagem e arranjos de Phil Spector, é só puro som, sem tratamento nenhum, e por isso o “naked”. Segundo a amazon LIBN foi lançado em 2003, eu só tive conhecimento dele a pouco tempo, creio que em 2009. Se por um lado pode ser bem interessante ver o som sem as intervenções de engenharia sonora, rústico como o Rock ‘n’ Roll, pode se interpretar também que LIBN é uma jogada de marketing e desvirtua a proposta original do grupo. Bom, a julgar pelo excesso de 1 e 2 estrelas é um disco com alta rejeição e por isso é o único que tem média abaixo de 4.
Fonte: cálculos a partir de dados do amazon.com. Data de 05/02/2012
Para finalizar, o método acima serve também para classificar de uma maneira diferente os álbuns, não somente pela média. Podemos pegar uma estatística que calcula a distância da função de densidade relativa à sua função de referência. Essa estatística é chamada de KL devido ao seu desenvolvimento por Kullback & Leibler (1951):
KL(fobs;fref ) = ∑ g(r)ln(g(r))
Em que f(r) é uma função discreta que relaciona as probabilidades para cada estrela na distribuição observada e na de referência (g(r) pode ser escrita como g(r) = fobs(r)/fref(r)). O r assume valores de 1 até 5. Com a estatística KL é possível fazer uma classificação da "distância" (ou divergência) entre um álbum e sua referência. Para isso é necessário uma transformação para limitar os valores entre 0 e 1, vamos chamar de Índice de Densidade Relativa (IDR).
Se mobs > mref:
IDR= +∑ g(r)ln(g(r))/KLmax
Se mobs < mref:
IDR= -∑ g(r)ln(g(r))/KLmax
Onde mobs é a média da distribuição observada e mref é média da distribuição de referência, KLmax = 0,129. A classificação segundo o IDR é a seguinte:
Álbum |--IDR- | Class. média*
============================
-REV----0,461--------2º
-RBS----0,292--------3º
-ABR----0,291--------1º
-HLP----0,271--------4º
-HDN----0,151--------5º
-BWA----0,035--------6º
-MMT----0,042--------7º
-SGT----0,045--------8º
-YSB----0,050--------9º
-TB1----0,056-------10º
-WTB----0,139-------11º
-PPM----0,301-------12º
-LIB----0,852-------13º
-BFS----0,940-------14º
-LIBN---1,000-------15º
____________________________
* Classificação pela média
Fonte: cálculos a partir de dados do amazon.com. Data de 05/02/2012
Vemos então que apenas os 3 primeiros álbuns trocam de posições, sendo que por essa técnica "Revolver" é o melhor álbum, "Rubber Soul" é o segundo, e "Abbey Road" figurando apenas como terceiro. O mais importante que essa técnica ensina não são as classificações per si, ou a mudança de classificação, mas sim porque os discos nos primeiros lugares estão lá, ou porque os piores estão classificados assim. Ao aliar as notas de "Let it Be Naked" com os comentários escritos no site é possível ter uma idéia mais qualitativa de porque esse disco é o último. Assim como uma ideia melhor para todos os outros álbuns.
A utilidade da teoria de densidades relativas é mostrar coisas além da média e o desvio padrão, usar uma referência que não seja plana, ou seja, uma referência que inclui um conceito por trás. No caso da referência usada, encaramos como fato dado que a distribuição de estrelas votadas pelos fãs estarão mais concentradas entre 4 e 5 estrelas. Outras referências poderiam ser usadas. Caso usássemos uma referência uniforme de 1 a 5, a função de densidade relativa reproduziria igualmente as proporções já reveladas no histograma comum, ou poderíamos usar uma referência de 'beatlemaníaco', em que só conta o número relativo de 5 estrelas.
Usada em outros fins, a estatística KL (e o IDR) pode ser decomposta em efeito "locação" e "forma", no qual se separa a diferença pela média da diferença de composição da densidade de uma e outra distribuição, para maiores detalhes sobre isso sugiro consultar Handcock & Morris (1999). Diversos detalhes da construção acima podem ser melhor elucidados, para isso, consultem as referências utilizadas, os textos e links complementares, ou entrem em contato com o autor deste blog, ficarei feliz em compartilhar as dúvidas e prestar maiores esclarecimentos.
NOTAS:
[1] A simetria da distribuição é também importante, em distribuições assimétricas é bastante importante recorrer à medidas além da primeira ordem, métodos gráficos e demais ferramentos para se tratar com melhor compreensão os dados.
LISTA DE ABREVIATURAS:
DADOS:
Fonte: amazon.com 05/02/2012
REFERÊNCIAS:
CWIK, J.; MIELNICZUK. “Estimating Density Ratio with Application to Discriminant Analysis.” Communications in Statistics 18:3057-69, 1989.
HANDCOCK, M.S.; MORRIS, M. “Relative distribution methods”. Sociological Methodology, Vol. 28, (1998). pp. 53-97.
HANDCOCK, M.S.; MORRIS, M. Relative distribution methods in the social sciences. New York: Springer-Verlag, 1999.
KULLBACK, S.; LEIBLER, R. A. “On Information and Sufficiency” The Annals of Mathematical Statistics, Vol. 22, No.1, Mar. (1951). pp. 79-86.
PARZEN, E. "Nonparametrical Statistical Data Modeling" Journal of the American Statistical Association, Vol. 74, No. 365 (Mar., 1979), pp. 105-121.
LEITURA COMPLEMENTAR:
GUIMARÃES, R.R.M. “Análise da distribuição salarial entre setor público e privado no Brasil (1987-2005) com aplicações para a reforma administrativa do governo federal”. Monografia (Graduação) – Departamento de Ciências Econômicas, Universidade Federal de Minas Gerais, Belo Horizonte, 2007.
RODRIGUES, C.G. “A Relação entre a expansão do acesso ao ensino e o desempenho escolar no Brasil: evidências com base no SAEB para o período de 1997 a 2005.” Tese de Doutorado do Cedeplar, defendida em 2009.
http://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence (Verbete da estatística KL no wikipedia)
http://videolectures.net/nips09_verdu_re/ (video aula de uma hora sobre entropia relativa)