Skip to content

A document reader to extract Google Analytics planned events to use on the Raft Suite Data Quality

Notifications You must be signed in to change notification settings

DP6/penguin-document-formatter

Folders and files

NameName
Last commit message
Last commit date
Jun 30, 2022
Sep 10, 2021
Jun 30, 2022
Jun 30, 2022
Sep 10, 2021
Aug 27, 2021
Nov 10, 2020
Dec 1, 2020
Sep 10, 2021
Apr 3, 2021
Sep 10, 2021
Jun 30, 2022
Sep 10, 2021
Sep 10, 2021
Jun 30, 2022
Jun 30, 2022
Sep 10, 2021
Nov 10, 2020

Repository files navigation

Document Formatter Penguin

Build Status

O penguin-document-formatter é um módulo do ecossistema raft-suite criado pela DP6 para garantir a qualidade dos dados (Data Quality) nos projetos de engenharia de dados implementados nos clientes da DP6, através de monitoramento automatizados de dados.

Ecossistema raft-suite

O penguin-datalayer-collect consegue auxiliar as áreas de digital analytics das empresas nos seguintes pilares da qualidade de dados:

  • Disponibilidade
  • Completude
  • Consistência

O ecossistema raft-suite é uma solução da DP6 que visa suprir as necessidades de monitoria do ciclo de vida dos dados para antecipar possíveis inconsistências.

Dependências

Este módulo utiliza a biblioteca pdf2json, além dos serviços Google Cloud Functions, Google Cloud Storage, Google Pub/Sub e Google BigQuery.

Executando localmente

Para adaptar, faça alterações nos arquivos nas pastas src e test.

Para executar localmente, basta copiar o mapa de coleta e executar o comando na raiz:

node index.js [nome-do-arquivo]

No nosso exemplo:

node index.js sitedp6.pdf;

O arquivo index.js serve para executar todas as funções presentes nos outros arquivos. Para utilização de teestes as funções foram consolidadas no arquivo local.js.

Build

Após o desenvolvimento, executar gulp build para estruturar o que será inserido nas cloud functions. Até o momento temos as seguintes:

Nome Função Status
convert-pdf-to-json Extrair o json estruturado dos pdfs e salvar Em desenvolvimento
extract-events Extrair eventos do mapa de coleta Em desenvolvimento

Testes

Testes ainda em desenvolvimento; para qualquer nova funcionalidade, adicione um novo arquivo de teste. Os testes são configurados pra funcionar com o modelo de mapa que está na raiz do projeto, e com as configurações test_config.json. Caso precise adaptar as funções para extrair mais ou menos informações, adicione condições para que a versão padrão continue funcionando, pois assim os testes podem garantir que o projeto continua sendo construído conforme esperado.

Suporte:

DP6 Koopa-troopa Team

e-mail: koopas@dp6.com.br