Azure Synapse Analytics — Data Warehouse Moderno
A Microsoft cunhou o termo “Modern Data Warehouse” para descrever uma arquitetura de data warehouse direcionada para o ambiente cloud; Sua base tem como pilar os serviços escaláveis e sem servidor. A ideia por trás de um Data Warehouse Moderno (DWM) é lidar com todos as variedades de dados existentes bem como seu tamanho, não importa o quê;.
Um DWM deve ser capaz de processar dados não apenas de arquivos e bancos de dados, mas também de streams de dados (IoT, médias sociais e etc) e diversos DataStores (NFS,VMFS,vVol,vSAN e etc) que possuem diferentes estruturas.
Um DataStore é um repositório para armazenamento e gerenciamento persistente de coleções de dados que incluem não apenas repositórios como bancos de DataStore dados, mas também tipos de armazenamento mais simples, como arquivos simples, e-mails, etc. VMWARE — Tipos de DataStores
Quando pensamos em Big Data e Data Warehouse, podemos entender que esses dois esquemas são combinados no Data Warehouse Moderno; O foco principal de um DWM é dar respostas a consultas complexas.
Big Data e Data Warehouse
Big Data e Data Warehouse são utilizados como principais fontes de entrada para o BI, como criação de resultados Analíticos e geração de Relatórios; Big Data permite dados não refinados de qualquer fonte, mas Data Warehouse permite apenas dados processados, pois tem que manter a confiabilidade e consistência dos dados.
1. Os dados não processados em sistemas Big Data podem ser de qualquer tamanho dependendo do tipo de seus formatos.
2. Quase todos os dados no Data Warehouse são de tamanho comum devido à sua refinada organização do sistema estruturado.
by Big Data e Data Warehouse — JOBU
Data Lake
Um data lake no Azure é um tipo de armazenamento muito barato; A ideia por trás é armazenar todos os dados brutos que podem ser obtidos na maior granularidade possível para não perder nada e manter os dados para uma análise posterior.
O que é um data lake?
Este guia introdutório explora os muitos benefícios e casos de uso de um data lake. Saiba o que é data lake, por quê ele é importante e como ele difere de um data warehouse ou de um data lakehouse. Mas, primeiro, vamos definir o data lake como um termo.
By Microsoft — O que é Data Lake
Nesse contexto, o Azure Synapse Analytics é um serviço de análise que em sua essência, é um sistema para processamento de T-SQL em um ambiente distribuído com diversas fontes de dados; Ele fornece cenários de armazenamento de dados e virtualização sobre fontes relacionais e não relacionais .
As fontes de dados relacionais são cobertas pelo SQL, enquanto as não relacionais são cobertas pelo Spark. O Azure Synapse Analytics pode ser usado de duas formas: Sem servidor e Dedicado.
Logical Data Warehouse
Tudo que falamos acima, foi um plano de fundo para a formação e implantação dos Data Warehouse lógicos (DWL); Um modelo DWL é definido como uma camada de arquitetura que fica sobre uma camada de dados persistida em um storage, que em nosso cenário é o Azure Data Lake.
Como exemplo, criei um DWL para analisar a ocupação hospitalar no SUS por conta do CIVID-19.
Após assistir o Workshop Azure Data LakeHouse ministrador pelo Greg Beaumont, tive a idéia de redigir esse artigo e expor as camadas com os respectivos valores de Bronze,Prata e Ouro, note que não é apenas um Símbolo;
Estamos em um momento onde os dados em qualquer empresa é um dos ativos mais preciosos; Com isso, nada mais justos de segtregar os estagios por símbolos tão expressivos. (sei que esse conceito de atribuição de nível de qualidade de dados é bem usado).
Referências: