Observatório de dados/BI/Capacidade/Transformação

Fonte: Wikiversidade
Capacidades

Existe uma distinção sutil entre transformação e filtragem, e em geral realizamos uma mistura complexa de ambas.

  • Transformação: para transformações que não afetam o teor dos dados, ou seja, preservam a maior parte da informação. Definida a seguir.
  • Filtragem: quando a transformação afeta o teor dos dados, reduzindo o volume de informação.
    • Filtragem dependente de segunda fonte: apesar de não injetar diretamente uma nova informação, a segunda fonte ajuda a decidir como filtrar... Ver "fusão com filtragem"...
  • Fusão: fusões, junções ou joins ocorrem quando aumenta o volume de informação. Isso só é possível fazer ao juntarmos duas ou mais fontes. A união ou interseção de dois conjuntos de dados são casos típicos.

A noção de VIEW foi introduzida no padrão SQL ... Não deve ser confundida com a View do MVC (software pattern Model-View-Controller) onde a SQL-View participaria como model e não como View. Nas ferramentas de BI o uso de diferentes software patterns é uma decisão específica da ferramenta, não cabe impor arquiteturas específicas no modelo de referência.

... View/Sumarização View/Projeção View/Filtragem booleana ... View/Join ...

Algumas viws requerem dados estruturados em árvore (por exemplo view de filtragem de nível hierárquico), outras requerem dados tabulares (ex. Join) .. Outras como sumarização possuem aproximadamente a o mesmo resultado independente da estrutura de dados de entrada...

Facetas[editar | editar código-fonte]

A classificação dos tipos de transformação se faz através de facetas, ou seja, verifica-se se a ferramenta (ou o tipo de transformação analisada) contempla uma ou mais facetas.

Direta[editar | editar código-fonte]

f(x) em geral usada para pequenas correções de formato e transformações padronizadas...

no caso de normalização temos o cálculo dependente de filtragem por sumarização (valor total de uma coluna é uma sumarização). Isso a rigor requer a junção entre ambas (produto cartesiano entre o dataset X e o dataset S contendo apenas o valor da soma)

Composta[editar | editar código-fonte]

f(x,y)

Com perda[editar | editar código-fonte]

Com perda de informação .. Por exemplo arredondando um valor real para inteiro, perdem-se dídgitos decimais, portanto perde-se informação..

Sem perda[editar | editar código-fonte]

Por exemplo convertendo gramas em quilogramas, sem arredondamentos, não há perda de informação.