Observatório de dados/BI/Capacidade/Filtragem

Fonte: Wikiversidade
Capacidades
ObsDados-BI-capacFiltragem.png

Utilizamos o termo "filtar dados" de maneira vaga, para designar "redução na informação". Para que seja de bem definido é necessário especificar melhor o "tipo de filtragem de dados" que desejamos realizar. A redução pode ser necessária por diversos motivos: ruído, redundância, foco, representatividade, etc.

Objetivo[editar | editar código-fonte]

Fig7 tipaper.png

Do ponto de vista da Teoria da Informação, que conceitua mais rigorosamente o que são dados e o que é informação (redução da ignorância): uma grande quantidade de dados pode ser pobre de informação, por não trazer proporcionalmente maior redução da ignorância para quem recebe os dados. Reduzindo o volume de dados seletivamente (ou seja "filtrando"), sem perder os dados importantes, pode-se chegar a um volume bem menor, garantindo uma proporção maior de informação.

Filtragem por sumarização[editar | editar código-fonte]

Sumarizar dados é reduzir a informação através de um "resumo", que tem como principal referência a Estatística:

  • sumarização de listas de números: média, moda, mediana, etc.
  • sumarização de texto livre: tabela de frequência de palavras, contagem de títulos, contagem de parágrafos, etc.
  • sumarização de matrizes numéricas: determinante, correlação, etc.

Filtragem por seleção[editar | editar código-fonte]

Selecionamos, dentro de um mesmo dataset, os dados que desejamos. Nesse tipo de filtragem os dados são "recortados", não há uma transformação sobre eles, apenas descartamos o que não precisamos.

A seleção, quando efetuada sobre dados tabulares, pode ser nitidamente classificada em dois tipos, o "corte horizontal" e o "corte vertical", o que, no modelo de dados relacional clássico corresponderá a operações distintas, que servem de referência para outros tipos de estrutura de dados. Aqui, para preservar a consistência terminológica denominaremos seleção condicional ao corte horizontal, e seleção de campos ao corte vertical.

Seleção condicional[editar | editar código-fonte]

Numa tabela do modelo relacional corresponde a um corte na horizontal, operação que os matemáticos denominam seleção, assim como a condição denominada fórmula proposicional.

Seleção de campos[editar | editar código-fonte]

Numa tabela do modelo relacional corresponde a um corte na vertical, operação que os matemáticos denominam projeção.

Se os dados não são numéricos, tal como num texto estruturado (por exemplo o Código Civil ou um romance dividido em capítulos), operações tais como extração de títulos podem ser entendidas como seleção de campos.

Filtragem composta[editar | editar código-fonte]

Na linguagem SQL, por exemplo, numa mesma operação de "SELECT" podem ser realizadas simultaneamente a filtragem por seleção condicional, seleção de campos, e sumarização. Filtros compostos são em geral mais complexos e nem sempre podem ser decompostos em operações simples, de modo que fica difícil dar uma designação mais precisa.

Composição com junção[editar | editar código-fonte]

Interseçãoof de dois datasets

Uma forma bastante simples e usual de filtragem é a seleção condicional (acima) com uma condição baseada em relacionamento. Pode-se relacionar dois datasets com mesma estrutura de dados através da união e então submeter o resultado a uma seleção condicional. O resultado, quando a condição é referente itens comuns (igualdade), pode ser designada interseção.

Existem diversas outras formas além da interseção, mas não requerem denominação específicas, podemos designá-las coletivamente "filtragem composta com junção".