Azure Synapse — Spark (recortes)

2 min readMay 11, 2024

O Apache Spark é um engine de análise unificado focado em Big Data e Machine Learning; O Synapse Spark Pool é uma das implementações da Microsoft do Apache Spark no ambiente Azure.
Antes de seguir com esse artigo, peguei alguns recortes.

Apache Spark no Azure Synapse Analytics: “O Apache Spark é uma estrutura de processamento paralelo que dá suporte ao processamento na memória para aumentar o desempenho de aplicativos de análise de Big Data. O Apache Spark no Azure Synapse Analytics é uma das implementações da Microsoft do Apache Spark na nuvem. O Azure Synapse facilita a criação e a configuração de um Pool do Apache Spark sem servidor no Azure. Os Pools do Spark no Azure Synapse são compatíveis com o Armazenamento do Azure e o Azure Data Lake Generation 2 Storage. Portanto, você pode usar Pools do Spark para processar os dados armazenados no Azure.”

Apache Spark: O Apache Spark oferece primitivos para computação de cluster na memória. Um trabalho do Spark pode carregar e armazenar dados em cache na memória e consultá-los várias vezes. A computação na memória é muito mais rápida do que os aplicativos baseados em disco. O Spark também se integra a diversas linguagens de programação para permitir a manipulação de conjuntos de dados distribuídos como coleções locais. Não é necessário para estruturar tudo como operações de mapeamento e redução.

Voltando…

O workspace do Synapse possui uma integração bem consolidada com o Spark; Ao criar um notebook em seu workspace, o Synapse Spark dá suporte a CSharp, Python,Scala e SQL.

📌 Um Pool do Spark pode ser acessado por vários usuários, mas para cada usuário uma nova instância do Spark será criado.

Arquitetura e Componentes

O Spark funciona em uma arquitetura master-slave, com um master e vários nodes de trabalho. Durante o runtime, a aplicação Spark faz um map de seus processos em curso, para unificalo em cluster.

O Driver Program é um processo que executa a função main() do aplicativo e cria o objeto SparkContext . O objetivo do SparkContext é coordenar os aplicativos spark, executando como conjuntos independentes de processos em um cluster.

Referências:

Engenharia de dados com pools do MS Azure Synapse Apache Spark
Spark — Arquitetura de Sistemas Distribuídos

Azure Synapse — Spark (recortes)

Written by Francke Peixoto

No responses yet