Módulo 3: Desenvolvimento de soluções em publicação de dados

Olá,

Neste tópico, é possível compartilhar discussões públicas e dúvidas sobre os conteúdos e temas abordados no terceiro módulo do curso.

Basta responder a esta mensagem. Se tiver dúvidas que não queiram postar publicamente, podem usar também o nosso chat. As instruções para entrar na sala estão na plataforma do curso. :slight_smile:

Bom dia.
Tenho uma dúvida pontual sobre uso do ETL
A SMS compartilha uma pasta com banco de dados mensais comigo
O horizonte temporal é a partir de 2016
O comportamento da base é meio errático: a cada mês existem alterações das informações
Como eu consigo montar um ETL de maneira a realizar comparação das informações?

1 Like

Oi Thais!

Se forem planilhas razoavelmente bem estruturadas (por exemplo, as colunas não ficam mudando de nome cada atualização) será mais fácil montar um ETL.

Se o formato dos dados mudar muito de um mês para o outro você terá que fazer algum processo (mais ou menos manual provavelmente) para colocar elas todas no mesmo formato antes de fazer o ETL.

Conta mais um pouco sobre como é essa base?

2 Likes

Oi, pessoal!

Compilamos os resultados da dinâmica desenvolvida hoje pela manhã com relação à análise do portal sobre Covid-19 do governo federal:

https://escoladedados.org/2020/09/participantes-do-curso-publicadores-avaliam-painel-sobre-covid-19/

Espero que tenham gostado da atividade! :slight_smile:

2 Likes

Oi, Pessoal. Tudo bem?

Fiquei com uma dúvida relacionada a definição de dois termos.

No Módulo 1, a Fernanda falou sobre “Inventário de Dados”, o banco de dados dos banco de dados de uma organização. Agora no terceiro módulo, o Leandro trouxe o conceito de “Data warehouse”, uma forma de gerenciar os dados de uma organização.

Qual a diferença entre os dois termos? Existe? Posso chamar de Data Warehouse para falar de um Inventário de Dados?

Obrigado.
's

Oi Leo, tudo bem?

São termos diferentes sim. O termo trazido pela Fernanda, Inventário de dados, faz referência a uma lista da prefeitura de SP (link abaixo) onde é possível obter uma série de informações (quem é o dono da base, período que é atualizado, informações sobre histórico, responsável tecnico, entre outros) sobre as bases de dados existentes na prefeitura.

Já quando falamos de Data Warehouse (ou armazém de dados), estamos falando dos dados propriamente ditos, organizados e preparados conforme a necessidade do negócio. Então, ambos podem existir em uma organização de forma complementar ao outro.

dados.prefeitura.sp.gov.br/dataset/e9b8a70e-aeec-48ee-8da3-641697fd4bde/resource/1c271eed-5d93-4a3a-b290-8bdf861a63ce/download/cmbd—geral-2019.2.xlsx

Bom dia.
Peço desculpas pela demora no retorno.
A planilhas sofreram alteração no tempo. Alguns dados foram alterados.
Em média a cada 3 meses o banco de dados sofre alteração

É uma extração de algumas informações da base SIGA de SMS
Ele é gerado automaticamente pelo setor de TI e colocado em uma pasta compartilhada

Bom dia, pessoal!

Em relação às ferramentas apresentadas (Apache NIFI, Apache Airflow, Metabase) para extração, transformação, carga e publicação dos dados (construção de dashboards). Não conhecia e achei bem interessante.

Na nossa organização utilizamos a pilha ELK (Elasticsearch, Logstash e Kibana). Gostaria de saber a opinião de vocês sobre o ELK e se vocês tem algum artigo comparativo sobre as ferramentas (vantagens x desvantagens). Obrigada!