Observatório de dados/Diversidade

O conceito de diversidade ganhou força na Estatística com o seu uso e formalização em Ecologia de comunidades, e sua definição recebeu alguns índices estatísticos padronizados, conhecidos como "componentes da diversidade". Eles se complementam:

Componente	Definição formal	Descrição [referência]
Riqueza (n ou r)	Número de pessoas com o prenome.	Frequência de indivíduos daquela "espécie" na comunidade, ou seja, frequência do prenome. [ ref ]
Domínância (s ou d)	Probabilidade de duas amostras aleatórias do conjunto de pessoas apresentarem mesmo prenome.	Frequência de indivíduos daquela "espécie". [ ref ]
Equitatividade	ìndice de Shanon normalizado, $J'={H^{\prime } \over H_{\max }^{\prime }}$ com $H'=-\sum _{i=1}^{R}p_{i}\ln p_{i}$ e $H_{\max }^{\prime }=\ln S.$	Destaca o grau de uniformidade (ou homogeneidade) da distribuição de abundância de "espécies" em uma comunidade. [ ref ]

Exemplo qualitativo: imaginemos o conjunto das pessoas presentes numa festa, e subconjuntos dados pelos prenomes dessas pessoas. Numa primeira festa F1 foram distribuídos convites apenas para prenomes Pedro e Alice, e apareceram 40 Alices e 1000 Pedros:

Riqueza: n(F1_Predro)=1000; n(F1_Alice)=40.
Dominância: mais de 90% de changes de duas amostras aleatórias consecutivas sobre F1 resultarem em Pedro.
Equitatividade: fraca, não é uma destribuição equitativa.

Numa outra festa F2 com convites para prenomes Mario e Marina apareceram 40 Marios and 42 Marinas:

Riqueza: n(F2_Mario)=40; n(F2_Marina)=42.
Dominância: menos de 30% de changes de duas amostras aleatórias consecutivas sobre F2 num mesmo prenome.
Equitatividade: alta, é uma destribuição equitativa, está bem balanceada.

Além dos índices existem também convenções para se tabular e graficar a distribuição de frequências para fins de análise da diversidade (ver abundância relativa de espécies). A seguir com um exemplo numérico a organização dos dados de diversidade ficará mais evidente.

Exemplo numérico^[1]: abstraindo um pouco e ao mesmo tempo tornando a análise numérica mais realista. Considere o seguinte multiconjunto C de de 27 indivíduos com respectivos prenome dados por letras:

C = [a, a, a, a, a, a, a, a, a, a, b, b, b, b, c, c, c, c, d, d, d, d, e, f, g, h, i]

Há, portanto, 27 indivíduos de 9 prenomes (de "a" até "i") na amostra. Tabulando isso em frequência (multiplicidade de cada prenome do multiconjunto C) temos:

prenome	`a`	`b`	`c`	`d`	`e`	`f`	`g`	`h`	`i`
multiplicidade	10	4	4	4	1	1	1	1	1

indicando que o prenome "a" é a mais abundante, com 10 indivíduos, e os prenomes "e" até "i" são unárias (singletons). Dos diversos prenome ("a", "b", ..., até "i") a maior parte (5 num total de 9) é unária.

Podemos ainda aproveitar o resultado acima e tabular pela frequência da abundância:

multiplicidade de um prenome	1	2	3	4	5	6	7	8	9	10
quantidade de prenomes	5	0	0	3	0	0	0	0	0	1

Podemos chamar a "multiplicidade de um prenome" de abundância. O "quantidade de prenomes" é o número de letras com aquela mesma multiplicidade na tabela anterior. Por exemplo 3 prenomes aparecem com multiplicidade 4 e 5 prenomes com multiplicidade 1. Mais precisamente, na segunda linha, o 5 da primeira coluna significa que cinco prenomes, de "e" até "i" têm abundância 1. Os dois zeros seguintes nas colunas 2 e 3 significam que zero prenomes têm abundância 2 ou 3. O 3 na segunda linha da coluna 4 significam que três prenome, "b", "c" e "d", têm abundância quatro. O final 1 na coluna 10 significa que um prenome, "a", tem abundância 10.

Esse tipo de representação dos dados é típico nos estudos de diversidade.

↑ Extraído dos exemplos deste artigo

[1] Extraído dos exemplos deste artigo

[1]