Projeto de Engenharia de dados utilizando a ferramenta de ETL (Extract, Transform, Load) Pentaho Data Integration, conhecida como PDI.

O PDI é uma ferramenta utilizada para integração de dados, com ela é possível realizar todo processo e ETL de um projeto de BI, desde a coleta até a carga dos dados em um repositório. 

Nesse case desenvolvemos um projeto de Engenharia e Arquitetura de Dados utilizando o PDI, onde realizamos a coleta de dados via API, limpeza e transformação dos dados coletados, agendamento de Job (Rotinas de atualização dos dados) e por fim gravamos esses dados em um banco de dados Mysql on premise, nesse processo foi realizado as seguintes atividades:

  • Coleta de Dados da Tabela Fipe através de API (Application Programming Interface);
  • Tratamento e limpeza dos dados coletados;
  • Organização e estruturação dos dados;
  • Arquitetura do banco de dados para receber a carga;
  • Carregamento dos dados para o banco de dados Msql On Premise;
  • Desenvolvimento e agendamento dos Jobs para atualização automática da base de dados.