Azure Synapse — Spark (recortes)
O Apache Spark é um engine de análise unificado focado em Big Data e Machine Learning; O Synapse Spark Pool é uma das implementações da Microsoft do Apache Spark no ambiente Azure.
Antes de seguir com esse artigo, peguei alguns recortes.
Apache Spark no Azure Synapse Analytics: “O Apache Spark é uma estrutura de processamento paralelo que dá suporte ao processamento na memória para aumentar o desempenho de aplicativos de análise de Big Data. O Apache Spark no Azure Synapse Analytics é uma das implementações da Microsoft do Apache Spark na nuvem. O Azure Synapse facilita a criação e a configuração de um Pool do Apache Spark sem servidor no Azure. Os Pools do Spark no Azure Synapse são compatíveis com o Armazenamento do Azure e o Azure Data Lake Generation 2 Storage. Portanto, você pode usar Pools do Spark para processar os dados armazenados no Azure.”
Apache Spark: O Apache Spark oferece primitivos para computação de cluster na memória. Um trabalho do Spark pode carregar e armazenar dados em cache na memória e consultá-los várias vezes. A computação na memória é muito mais rápida do que os aplicativos baseados em disco. O Spark também se integra a diversas linguagens de programação para permitir a manipulação de conjuntos de dados distribuídos como coleções locais. Não é necessário para estruturar tudo como operações de mapeamento e redução.
Voltando…
O workspace do Synapse possui uma integração bem consolidada com o Spark; Ao criar um notebook em seu workspace, o Synapse Spark dá suporte a CSharp, Python,Scala e SQL.
📌 Um Pool do Spark pode ser acessado por vários usuários, mas para cada usuário uma nova instância do Spark será criado.
Arquitetura e Componentes
O Spark funciona em uma arquitetura master-slave, com um master e vários nodes de trabalho. Durante o runtime, a aplicação Spark faz um map de seus processos em curso, para unificalo em cluster.
Referências:
Engenharia de dados com pools do MS Azure Synapse Apache Spark