Data lake

Atualizado 5 de fevereiro de 2024 •

Data lake é um repositório de dados centralizado usado para armazenar grandes volumes de dados brutos em seu formato nativo. Com os data lakes, você tem uma visão não refinada dos dados. Está solução está se tornando uma estratégia de gerenciamento de dados mais comum para empresas que desejam um repositório grande e holístico para seus dados.

Quando dizemos que os dados são brutos, é porque eles ainda não foram processados para uma finalidade específica. Os dados em um data lake são definidos só após serem consultados. Os cientistas de dados podem acessar as informações brutas quando necessário por meio de modelagem preditiva ou ferramentas analíticas mais avançadas.

Todos os dados são mantidos quando você usa um data lake: nada é removido ou filtrado antes do armazenamento. Os dados podem ser analisados em breve, no futuro ou nunca. Eles também podem ser usados várias vezes para diferentes finalidades, ao contrário de quando os dados são refinados para um fim específico e o reaproveitamento é mais difícil.

Origem do termo "data lake"

O termo "data lake" ("lago de dados", em português) foi criado por James Dixon, CTO da Pentaho. É apropriado descrever esse tipo de repositório como um lago porque ele armazena um conjunto de dados em seu estado natural, como um corpo d'água que não foi filtrado ou contido. Os dados fluem de diversas fontes para o data lake, sendo armazenados no formato original.

Em um data lake, os dados são transformados apenas quando são necessários para análises, por meio da aplicação de esquemas. Esse processo é chamado de "esquema para leitura" porque os dados são mantidos em estado bruto até que estejam prontos para uso.

Qual é a vantagem de armazenar dados em um data lake?

Com os data lakes, os usuários acessam e exploram dados da forma que quiserem, sem precisar movê-los para outro sistema. Geralmente, a coleta de insights e a geração de relatórios a partir de um data lake é ad-hoc: os usuários não precisam extrair com frequência relatórios analíticos de outra plataforma ou tipo de repositório. No entanto, os usuários podem aplicar um esquema e automatizar a cópia de um relatório, se necessário.

Os data lakes exigem governança e manutenção contínuas para os dados poderem ser usados e acessados. Sem esse controle, há o risco deles se tornarem lixo eletrônico – inacessíveis, pesados, caros e inúteis. Os data lakes que se tornam inacessíveis para os usuários são chamados de "data swamps" ("pântanos de dados", em português).

Armazenamento de dados: o que você precisa saberDados e digitalização transformam o setor público na América Latina

Muitas vezes, as pessoas confundem data lakes com data warehouses. Na verdade, eles não são a mesma coisa e têm finalidades diferentes. A única similaridade entre eles é: ambos são repositórios de big data. Muitas empresas usam as duas soluções para atender a necessidades específicas e alcançar determinadas metas.

Data warehouse

O data warehouse oferece um modelo de dados estruturados projetado para a geração de relatórios. Essa é a principal diferença entre ele e o data lake. Já o data lake armazena dados brutos não estruturados que não têm uma finalidade definida.

Antes de colocar os dados em um data warehouse, é necessário processá-los. Você precisa decidir quais dados serão incluídos no data warehouse. Isso é chamado de "esquema para gravação".

Refinar os dados antes de armazená-los em um data warehouse pode ser complicado e demorado: isso pode levar meses ou até mesmo anos no processo, impedindo a coleta imediata. Com um data lake, você coleta os dados instantaneamente e depois descobre uma finalidade para eles.

Por conta de sua estrutura, os data warehouses costumam ser mais utilizados por usuários de negócios que sabem com antecedência quais dados são necessários para a geração de relatórios periódicos. Já os data lakes são mais usados por analistas e cientistas porque eles realizam pesquisas por meio dos dados, que precisam receber análises e filtros mais avançados para se tornarem úteis.

Geralmente, os data lakes e data warehouses também têm hardwares de armazenamento diferentes. Os data warehouses são caros. Já os data lakes custam menos porque têm hardware comum (apesar do grande tamanho).

DaaS | Data services: definição, funcionalidades e vantagensConheça o Red Hat Ceph StorageDatasheet do Red Hat Ceph Storage | Red Hat

A arquitetura do data lake (em inglês "data lake architecture") é simples porque os dados podem ser estruturados, semiestruturados ou não estruturados. Além disso, eles são coletados de várias fontes dentro da organização, enquanto o data warehouse os armazena em arquivos ou pastas. É possível hospedar o data lake on-premise ou na nuvem.

A arquitetura dos data lakes permite uma escalabilidade massiva que pode chegar aos exabytes. Isso é importante porque, ao criar um data lake, é comum que você não saiba com antecedência que volume de dados será armazenado. Esse tipo de escala não é oferecido por sistemas de armazenamento tradicionais.

Benefícios da arquitetura de data lake

Essa arquitetura é perfeita para cientistas capazes de extrair e explorar dados na empresa, além de fazer o compartilhamento e a referência cruzada deles (incluindo dados heterogêneos de diferentes campos) para fazer perguntas e descobrir novos insights. Os cientistas também podem utilizar a análise de big data e o machine learning para analisar dados em um data lake.

Embora os dados não tenham um esquema fixo antes do armazenamento em um data lake, a governança deles ainda é importante para evitar o data swamp. É preciso marcá-los com metadados antes de colocá-los nesse tipo de repositório para assegurar que sejam acessíveis depois.

Gerencie aplicações de inteligência artificial e machine learning com mais eficiência

Conheça o ponto de vista de especialistas sobre como simplificar a implantação e o gerenciamento do ciclo de vida de aplicações de inteligência artificial/machine learning (IA/ML). Aprenda com essa série de webinars como criar, colaborar e compartilhar modelos de ML e aplicações de IA aceleradamente.

Principais considerações sobre inteligência artificial/machine learning

Com as soluções open source de armazenamento definido por software da Red Hat, você trabalha mais, cresce mais rapidamente e tem a certeza de que todos os dados, incluindo documentos financeiros importantes e arquivos de rich media, estarão armazenados com segurança.

Com o armazenamento escalável, econômico e definido por software, é possível analisar enormes conjuntos de dados em data lakes para ter insights de negócios mais assertivos. As soluções de armazenamento definido por software da Red Hat são todas construídas em open source e aproveitam as inovações de uma comunidade de desenvolvedores, parceiros e clientes. Assim, você tem controle total sobre a formatação e utilização do seu armazenamento, de acordo com as cargas de trabalho, ambientes e necessidades exclusivas da sua empresa.

Conheça as soluções de armazenamento da Red HatConheça o Red Hat OpenShift Data FoundationVisão geral: Red Hat OpenShift Data Science

Leitura recomendada

Saiba o que é o armazenamento definido por software e como implantar uma solução Red Hat que ofereça flexibilidade para gerenciar, armazenar e compartilhar dados como você preferir.

Armazenamento em nuvem é a organização de dados mantidos em um local que pode ser acessado por qualquer um na Internet que tenha as permissões necessárias. Saiba como ele funciona

Os serviços de dados são conjuntos de pequenas funções independentes e levemente acopladas que aprimoram, organizam, compartilham ou processam as informações coletadas e salvas em volumes de armazenamento.

Plataforma

Teste e compre

Em destaque

Por categoria

Por tipos de organização

Clientes

Serviços

Treinamento e certificação

Em destaque

Tópicos

Artigos

Consulte também

Para clientes

Para parceiros

Informações sobre a empresa

Open source

Sobre a Red Hat

Comunidades

Leitura recomendada

Selecione um idioma

Selecione um idioma

Origem do termo "data lake"

Qual é a vantagem de armazenar dados em um data lake?

Data warehouse

Benefícios da arquitetura de data lake

Gerencie aplicações de inteligência artificial e machine learning com mais eficiência

Soluções Red Hat

Artigos relacionados

Conteúdo adicional

EBOOK

WHITEPAPER

RESUMO

Produtos

Ferramentas

Experimente, compre, venda

Comunicação

Sobre a Red Hat

Selecione um idioma

Red Hat legal and privacy links

Red Hat legal and privacy links