Azure Synapse Analytics — Data Warehouse Moderno

Francke Peixoto
5 min readJul 14, 2022

--

A Microsoft cunhou o termo “Modern Data Warehouse” para descrever uma arquitetura de data warehouse direcionada para o ambiente cloud; Sua base tem como pilar os serviços escaláveis e sem servidor. A ideia por trás de um Data Warehouse Moderno (DWM) é lidar com todos as variedades de dados existentes bem como seu tamanho, não importa o quê;.

Um DWM deve ser capaz de processar dados não apenas de arquivos e bancos de dados, mas também de streams de dados (IoT, médias sociais e etc) e diversos DataStores (NFS,VMFS,vVol,vSAN e etc) que possuem diferentes estruturas.

Um DataStore é um repositório para armazenamento e gerenciamento persistente de coleções de dados que incluem não apenas repositórios como bancos de DataStore dados, mas também tipos de armazenamento mais simples, como arquivos simples, e-mails, etc. VMWARE — Tipos de DataStores

Quando pensamos em Big Data e Data Warehouse, podemos entender que esses dois esquemas são combinados no Data Warehouse Moderno; O foco principal de um DWM é dar respostas a consultas complexas.

Big Data e Data Warehouse

Big Data e Data Warehouse são utilizados como principais fontes de entrada para o BI, como criação de resultados Analíticos e geração de Relatórios; Big Data permite dados não refinados de qualquer fonte, mas Data Warehouse permite apenas dados processados, pois tem que manter a confiabilidade e consistência dos dados.
1. Os dados não processados ​​em sistemas Big Data podem ser de qualquer tamanho dependendo do tipo de seus formatos.
2. Quase todos os dados no Data Warehouse são de tamanho comum devido à sua refinada organização do sistema estruturado.
by Big Data e Data Warehouse — JOBU

Data Lake

Um data lake no Azure é um tipo de armazenamento muito barato; A ideia por trás é armazenar todos os dados brutos que podem ser obtidos na maior granularidade possível para não perder nada e manter os dados para uma análise posterior.

Data Lake — Arquitetura

O que é um data lake?
Este guia introdutório explora os muitos benefícios e casos de uso de um data lake. Saiba o que é data lake, por quê ele é importante e como ele difere de um data warehouse ou de um data lakehouse. Mas, primeiro, vamos definir o data lake como um termo.
By Microsoft — O que é Data Lake

Nesse contexto, o Azure Synapse Analytics é um serviço de análise que em sua essência, é um sistema para processamento de T-SQL em um ambiente distribuído com diversas fontes de dados; Ele fornece cenários de armazenamento de dados e virtualização sobre fontes relacionais e não relacionais .

As fontes de dados relacionais são cobertas pelo SQL, enquanto as não relacionais são cobertas pelo Spark. O Azure Synapse Analytics pode ser usado de duas formas: Sem servidor e Dedicado.

Data warehouse e análise

Logical Data Warehouse
Tudo que falamos acima, foi um plano de fundo para a formação e implantação dos Data Warehouse lógicos (DWL); Um modelo DWL é definido como uma camada de arquitetura que fica sobre uma camada de dados persistida em um storage, que em nosso cenário é o Azure Data Lake.

Como exemplo, criei um DWL para analisar a ocupação hospitalar no SUS por conta do CIVID-19.

Após assistir o Workshop Azure Data LakeHouse ministrador pelo Greg Beaumont, tive a idéia de redigir esse artigo e expor as camadas com os respectivos valores de Bronze,Prata e Ouro, note que não é apenas um Símbolo;
Estamos em um momento onde os dados em qualquer empresa é um dos ativos mais preciosos; Com isso, nada mais justos de segtregar os estagios por símbolos tão expressivos. (sei que esse conceito de atribuição de nível de qualidade de dados é bem usado).

Referências:

--

--

Francke Peixoto
Francke Peixoto

Written by Francke Peixoto

Software Engineer | Data Engineer | Data & Analytics Enthusiastic | Machine Learning | Azure | Fullstack Developer | Systems Analist | .Net — Acta, non verba

No responses yet