Assine a nossa newsletter | Receba insights sobre Transformação Digital

Como o Data Lake pode apoiar na tomada de decisão

Data Lake

O Data Lake é uma excelente solução para armazenamento de dados quando se pensa na geração de insights sobre os dados. Neste artigo, você entenderá os conceitos por trás dessa tecnologia e como aplicá-la no seu negócio. Boa leitura!

O que é um Data Lake?

Um Data Lake é um repositório que armazena uma grande quantidade de dados brutos em seu formato nativo. Enquanto um Data Warehouse armazena dados em arquivos e pastas, este usa uma arquitetura plana para armazenar dados.

Cada elemento de dados é atribuído a um identificador exclusivo e marcado como um conjunto de tags de metadados estendidos.

Como usá-lo nos negócios

Um Data Lake mantém dados em seus formatos nativos e lida com os três Vs de Big Data – volume, velocidade e variedade – enquanto fornece ferramentas para análise, consulta e processamento.

Eles eliminam todas as restrições de um sistema de armazenamento de dados típicos, fornecendo espaço ilimitado, tamanho de arquivo irrestrito, esquema de leitura e várias maneiras de acessar dados (incluindo programação, consultas semelhantes a SQL e chamadas REST).

Os principais recursos

Com o Azure Data Lake, você tem acesso a uma série de recursos:

  • Capacidade de armazenar e analisar dados de qualquer tipo e tamanho
  • Múltiplos métodos de acesso, incluindo U-SQL, Spark, Hive, Hbase e Storm
  • Escala dinâmica para corresponder às prioridades da sua empresa
  • Segurança de nível empresarial com o Active Directory do Azure
  • Pode ser gerenciado e suportado por um SLA de nível corporativo

Em termos gerais, é classificado em três partes:

Partes do Data Lake

Por dentro do Data Lake Store

O Data Lake Store fornece um único repositório no qual as organizações carregam dados de praticamente qualquer volume.

Ele foi projetado para processamento e análise de alto desempenho a partir de aplicativos e ferramentas HDFS, incluindo suporte para cargas de trabalho de baixa latência.

Aqui, os dados podem ser compartilhados para colaboração com segurança de nível corporativo.

O poder do Azure Data Lake Analytics

Este é um serviço de análise distribuído baseado no Apache YARN que complementa o seu armazenamento.

O serviço de análise pode lidar com trabalhos de qualquer escala instantaneamente com o poder de processamento sob demanda e um modelo de pagamento conforme o uso.

Ele inclui um tempo de execução distribuído escalável chamado U-SQL, uma linguagem que unifica os benefícios do SQL.