Projeto de Engenharia de dados utilizando a ferramenta de ETL (Extract, Transform, Load) Pentaho Data Integration, conhecida como PDI.
O PDI é uma ferramenta utilizada para integração de dados, com ela é possível realizar todo processo e ETL de um projeto de BI, desde a coleta até a carga dos dados em um repositório.
Nesse case desenvolvemos um projeto de Engenharia e Arquitetura de Dados utilizando o PDI, onde realizamos a coleta de dados via API, limpeza e transformação dos dados coletados, agendamento de Job (Rotinas de atualização dos dados) e por fim gravamos esses dados em um banco de dados Mysql on premise, nesse processo foi realizado as seguintes atividades:
Coleta de Dados da Tabela Fipe através de API (Application Programming Interface);
Tratamento e limpeza dos dados coletados;
Organização e estruturação dos dados;
Arquitetura do banco de dados para receber a carga;
Carregamento dos dados para o banco de dados Msql On Premise;
Desenvolvimento e agendamento dos Jobs para atualização automática da base de dados.