Observatório de dados/BI/Capacidade/Carga

Fonte: Wikiversidade
Capacidades

A carga, importação ou ingestão dos dados na ferramenta de BI corresponde a uma das "capacidades". Quando a ferramenta é concebida como sistema, refere-se ao conceito de aquisição dos dados.

Quando não for especificado por faceta, a "carga" é simplesmente o dispor dos dados no interior da ferramenta, independente de ter restrições nas facetas.

Vínculo com outras capacidades[editar | editar código-fonte]

A capacidade de carga está vinculada às capacidades de registro da proveniência e de produção por junção. A capacidade de é uma extensão natural da carga. Em alguns casos a proveniência é um algoritmo descritivo da produção de uma fonte que depende de outras. Para fontes que são dependentes por operações padronizadas, faz-se uso da capacidade de modificação, em particular a de junção, que permite fundir duas ou mais fontes em uma só.

Facetas[editar | editar código-fonte]

A classificação das maneiras de carga se faz através de facetas, ou seja, verifica-se se a ferramenta contempla uma ou mais facetas, de forma obrigatória ou opcional.

Arquivo[editar | editar código-fonte]

carga de arquivo contendo um ou mais datasets Arquivos tais como .xls do Excel pode conter várias planilhas, arquivos tipo CSV representam apenas uma tabela. Arquivos do tipo JSON ou XML em geral representam um só objeto, exceto quando o formato (ex. formato .xlsx do Excel corresponde a uma DTD do padrão XML) determinar sub-partições.

Carga Web seria mais uma variante, mas hoje http:// e file// são nativos da carga, portanto o sistema é indiferente se o dado é local ou remoto (na rede). Exemplo: em PHP a função file_get_contents() é indiferente. No caso do MS-Power-BI, por exemplo, a opção "Web" é destacada como modo distinto da opção "file".

Arquivo aberto tabular[editar | editar código-fonte]

Seguindo a taxonomia das especificações Frictionlessdata/tabular-data-resource:

  • CSV (comma separated variables) e seus dialetos:
  • JSON Row Arrays
  • Row Objects

Conexão[editar | editar código-fonte]

Carga de tabela ou dataset de banco de dados, especificada através de uma conexão (por exemplo conection-string).

Vinculação[editar | editar código-fonte]

Vinculação de arquivo ou conexão com banco de dados ... atualizando o BI quanto o dado é atualizado...

Vinculação Web seria mais uma variante, valem os mesmos comentários que apresentados na faceta arquivo (acima).

Configurabilidade[editar | editar código-fonte]

Pode-se configurar previamente a carga de arquivo ou conexão, por exemplo se quero que um arquivo CSV seja lido em "modo padrão" ao invés de "modo localizado" (no Brasil como a virgula é usada para decimais adota-se como separador de campos o ";" ou tab). Sem isso o arquivo vai sempre ser erroneamente interpretado.

Assistência[editar | editar código-fonte]

Carga assistida. Qualquer uma das atividades de carga pode ser assistida pelo usuário, quando a informação de carga é incompleta. Por exemplo um arquivo cuja acentuação das letras pode estar em UTF-8 ou ISO, e só o usuário batendo o olho vai poder decidir qual realmente é.

A assistência pode ser sentido de:

  • o usuário responder passo-a-passo qual decisão quer tomar;
  • o usuário permitir que o computador tome decisões por suposto "mecanismo inteligente" (que em geral não é tão inteligente assim).

Preparo[editar | editar código-fonte]

São procedimentos de extração que antecedem ou complementam a carga:

  • raspagem de dados: técnica computacional que se assemelha uma transcrição, em geral consiste em extrair texto de imagem ou dados de documentos não-estruturados tais como documentos PDF.
  • limpeza de dados: ato de descobrimento e correção ou eliminação de registros de dados errôneos
  • transformação preparatória: por exemplo transformar estrutura não-tabular em tabela. Em geral designada "preparo dos dados".
    Em geral ferramentas de BI com baixa flexibilidade de carga (ou por exemplo repertório de aceitação de formatos limitado) requerem maior preparação.