📄️ Data models
Antes de começar
📄️ Otimizações
É crucial garantir o desempenho eficiente das consultas de pipelines em SQL, para auxiliar nesta tarefa que pode ser extensa, estaremos utilizando o plano de execução do BigQuery.
📄️ Pipelines e Manifesto
Dúvidas sobre o que é uma pipeline e um manifesto?
📄️ Regras de Rejeição
A rejeição de dados ocorre após o processamento de um pipeline em SQL, e está relacionada à estratégia de qualificação dos dados, evitando que sigam nas próximas etapas do fluxo de dados (data models e subscriptions) aqueles registros que não correspondam aos critérios de qualidade definidos.
📄️ SQL Processing +Eficiente
A estratégia de processamento de dados da plataforma Carol permite ativar um recurso chamado de Eficiência do SQL Processing, o qual torna o recurso mais eficiente reduzindo custos quanto ao uso de slots, storage e outros recursos com menor impacto.
📄️ Pipelines SQL em ambiente unificado
De forma geral precisamos considerar o campo mdmTenantId em todas as pipelines SQL que processem dados em ambiente unificado. Abaixo segue os prncipais ponto na pipeline SQL.
📄️ VSCode Plugin
O plugin TOTVS Carol para o Visual Studio Code permite a construção e teste de Pipelines com recursos como code completion, testes dry-run da pipeline e execução da pipeline SQL na Carol.
📄️ Plano de Execução
A plataforma Carol permite consultar o plano de execução de consultas e pipelines na plataforma Carol. O plano de execução tem como principal objetivo apresentar detalhes da execução para permitir a identificação de oportunidades de otimização de consultas SQL e pipelines.
📄️ Explore
No módulo Explore é possível ter uma visão geral dos ‘Golden records’ (filtro padrão), Rejected records, Golden and Contributors, Golden Flagged e Golden Merged, e aplicar filtros específicos para encontrar dados e escolher quais dados serão exibidos na tabela.
📄️ Orchestrator
O Orchestrator é um componente da plataforma Carol que efetua a orquestração da execução das pipelines SQL na plataforma Carol.
📄️ Boas práticas
Prática 01 - Em algumas estratégias de processamento parcial de pipelines é utilizada a informação do último registro de uma staging table processado que está armazenado no Data Model correspondente. Com isso é possível processar apenas registros de uma staging table que ainda não foram processados. Essa informação é representada pelo ultimo valor do campo mdmStagingCounter no Data Model em questão, por exemplo o Data Model fictício DATAMODELNAME. A forma mais otimizada de buscar essa informação no Data Model DATAMODELNAME, é buscando pela última partição conforme comando SQL abaixo.