Observatório de dados/Diversidade
O conceito de diversidade ganhou força na Estatística com o seu uso e formalização em Ecologia de comunidades, e sua definição recebeu alguns índices estatísticos padronizados, conhecidos como "componentes da diversidade". Eles se complementam:
Componente | Definição formal | Descrição [referência] |
---|---|---|
Riqueza (n ou r) |
Número de pessoas com o prenome. | Frequência de indivíduos daquela "espécie" na comunidade, ou seja, frequência do prenome. [ ref ] |
Domínância (s ou d) |
Probabilidade de duas amostras aleatórias do conjunto de pessoas apresentarem mesmo prenome. | Frequência de indivíduos daquela "espécie". [ ref ] |
Equitatividade | ìndice de Shanon normalizado, com e |
Destaca o grau de uniformidade (ou homogeneidade) da distribuição de abundância de "espécies" em uma comunidade. [ ref ] |
Exemplo qualitativo: imaginemos o conjunto das pessoas presentes numa festa, e subconjuntos dados pelos prenomes dessas pessoas. Numa primeira festa F1 foram distribuídos convites apenas para prenomes Pedro e Alice, e apareceram 40 Alices e 1000 Pedros:
- Riqueza: n(F1Predro)=1000; n(F1Alice)=40.
- Dominância: mais de 90% de changes de duas amostras aleatórias consecutivas sobre F1 resultarem em Pedro.
- Equitatividade: fraca, não é uma destribuição equitativa.
Numa outra festa F2 com convites para prenomes Mario e Marina apareceram 40 Marios and 42 Marinas:
- Riqueza: n(F2Mario)=40; n(F2Marina)=42.
- Dominância: menos de 30% de changes de duas amostras aleatórias consecutivas sobre F2 num mesmo prenome.
- Equitatividade: alta, é uma destribuição equitativa, está bem balanceada.
Além dos índices existem também convenções para se tabular e graficar a distribuição de frequências para fins de análise da diversidade (ver abundância relativa de espécies). A seguir com um exemplo numérico a organização dos dados de diversidade ficará mais evidente.
Exemplo numérico[1]: abstraindo um pouco e ao mesmo tempo tornando a análise numérica mais realista. Considere o seguinte multiconjunto C de de 27 indivíduos com respectivos prenome dados por letras:
C = [a, a, a, a, a, a, a, a, a, a, b, b, b, b, c, c, c, c, d, d, d, d, e, f, g, h, i]
Há, portanto, 27 indivíduos de 9 prenomes (de "a" até "i") na amostra. Tabulando isso em frequência (multiplicidade de cada prenome do multiconjunto C) temos:
prenome a
b
c
d
e
f
g
h
i
multiplicidade 10 4 4 4 1 1 1 1 1
indicando que o prenome "a" é a mais abundante, com 10 indivíduos, e os prenomes "e" até "i" são unárias (singletons). Dos diversos prenome ("a", "b", ..., até "i") a maior parte (5 num total de 9) é unária.
Podemos ainda aproveitar o resultado acima e tabular pela frequência da abundância:
multiplicidade de um prenome 1 2 3 4 5 6 7 8 9 10 quantidade de prenomes 5 0 0 3 0 0 0 0 0 1
Podemos chamar a "multiplicidade de um prenome" de abundância. O "quantidade de prenomes" é o número de letras com aquela mesma multiplicidade na tabela anterior. Por exemplo 3 prenomes aparecem com multiplicidade 4 e 5 prenomes com multiplicidade 1. Mais precisamente, na segunda linha, o 5 da primeira coluna significa que cinco prenomes, de "e" até "i" têm abundância 1. Os dois zeros seguintes nas colunas 2 e 3 significam que zero prenomes têm abundância 2 ou 3. O 3 na segunda linha da coluna 4 significam que três prenome, "b", "c" e "d", têm abundância quatro. O final 1 na coluna 10 significa que um prenome, "a", tem abundância 10.
Esse tipo de representação dos dados é típico nos estudos de diversidade.
- ↑ Extraído dos exemplos deste artigo