Red Hat OpenShift Data Science: serviços de nuvem para IA/ML

Adote aplicações inteligentes com mais rapidez

A inteligência artificial (IA), o machine learning (ML) e o deep learning (DL) vêm influenciando muito os esforços de modernização de aplicações em diversos negócios e setores. Muitas organizações precisam extrair valor estratégico e novos insights de seus dados, estimulando a expansão do uso de aplicações inteligentes nativas em nuvem e metodologias de DevOps. Este admirável mundo novo pode ser complexo, com implicações para todos: desenvolvedores, cientistas de dados e equipes operacionais. As abordagens tradicionais podem apresentar desafios:

  • Começar pode ser assustador, seja na hora de manter ferramentas e serviços de aplicações em rápida evolução atualizadas e consistentes, ao provisionar recursos de hardware, como unidades de processamento gráfico (GPUs), ou ao escalar aplicações inteligentes.
  • As plataformas de nuvem mais conhecidas proporcionam escalabilidade, além de ambientes e conjuntos de ferramentas atraentes e integrados. No entanto, elas podem levar à dependência de ferramentas restritivas e opções limitadas de implantação. 
  • Adotar diferentes plataformas para desenvolvedores de aplicações e cientistas de dados pode complicar a colaboração e prejudicar a velocidade do desenvolvimento.
  • Implantar aplicações inteligentes em escala nem sempre é um processo simples, principalmente se houver plataformas de produção e desenvolvimento distintas.

Como um serviço de nuvem gerenciado, o Red Hat® OpenShift® Data Science oferece a cientistas de dados e desenvolvedores uma plataforma de IA/ML robusta para criar e implantar aplicações inteligentes. Com ele, as empresas podem experimentar uma variedade de ferramentas, colaborar em uma plataforma unificada e acelerar o time to market, tudo no mesmo lugar. O OpenShift Data Science combina o ambiente self-service que os cientistas de dados e desenvolvedores desejam com a confiança de que a TI empresarial precisa.

Ter uma base confiável reduz o atrito em todo o ciclo de vida. O OpenShift Data Science oferece uma plataforma robusta, um vasto ecossistema de ferramentas certificadas amplamente utilizadas e fluxos de trabalho compartilhados para implantar modelos em produção. Com essas vantagens, as equipes podem colaborar de maneira fluida e lançar aplicações inteligentes com mais eficiência, agregando maior valor aos negócios.

Desenvolva, treine, teste e implante rapidamente

O OpenShift Data Science é baseado nos projetos Open Data Hub da comunidade e Operate First. O Open Data Hub exibe uma plataforma de IA/ML no Red Hat OpenShift com esforços de upstream, como Apache Kafka e Kubeflow. O Operate First traz conceitos open source para as operações, permitindo que desenvolvedores e operadores colaborem para incorporar a excelência operacional, sem dependência de fornecedores. OpenShift Data Science fornece um subconjunto de ferramentas do Open Data Hub em um serviço de nuvem com suporte integral, gerenciado na Amazon Web Services (AWS). Ele também traz ofertas opcionais de fornecedores de software independentes (ISV).

Experimente com a ferramenta que quiser

Com o OpenShift Data Science, os cientistas de dados podem experimentar e descobrir novas maneiras de levar insights aos negócios. Como um serviço de nuvem totalmente gerenciado, eles têm a chance de desenvolver, treinar e testar modelos de machine learning antes que sejam implantados. As equipes recebem acesso a ferramentas avançadas, disponibilizadas em uma experiência integrada. Cientistas de dados podem usar suas ferramentas habituais ou acessar um crescente ecossistema de parceiros de tecnologia para obter um conhecimento mais profundo em IA/ML - tudo isso sem serem sobrecarregados com um conjunto de ferramentas predefinido. Em vez de esperar que a TI provisione os recursos necessários, eles acessam uma infraestrutura sob demanda com um único clique, sem precisar abrir um ticket. 

Colabore em uma plataforma unificada

O OpenShift Data Science cria uma arquitetura open source projetada para cargas de trabalho de machine learning e fluxos de trabalho de desenvolvimento. Ele reduz as lacunas entre ciência de dados e DevOps, minimizando os problemas de delegação durante a produção. Os cientistas de dados colaboram em tempo real no Jupyter notebooks. Os desenvolvedores integram modelos prontos para containers em aplicações inteligentes com menos atrito. A TI preocupa-se menos com governança, sem precisar ficar caçando contas de plataformas de nuvem não autorizadas. 

Acelere o time to market de aplicações inteligentes

Com uma plataforma unificada e consistente, o OpenShift Data Science acelera a disponibilização de modelos de machine learning utilizados em projetos piloto anteriores para as aplicações inteligentes. Os cientistas de dados podem começar rapidamente, utilizando as ferramentas de sua preferência e a infraestrutura self-service. O serviço conecta cada etapa do ciclo de vida de machine learning a recursos de IA mais avançados por meio do ecossistema do parceiro de software, oferecendo uma grande variedade de ferramentas certificadas específicas para IA/ML. Implante modelos em ambientes de nuvem híbrida e ganhe a flexibilidade de executar cargas de trabalho onde precisar, sem dependência de nuvem comercial.

OpenShift Data Science

A Figura 1 retrata a integração do ciclo de vida de operação dos modelos com a oferta inicial do OpenShift Data Science, como uma plataforma unificada. Esse serviço de nuvem está disponível no Red Hat OpenShift Dedicated (on AWS) e no Red Hat OpenShift Service on AWS. Ele oferece um fluxo de trabalho de ciência de dados central, como um serviço gerenciado da Red Hat, com a oportunidade de aumentar os recursos e a colaboração por meio de software de fornecedores independentes (ISV) certificados. Os modelos são hospedados no OpenShift cloud services ou exportados para integração em uma aplicação inteligente.

Destaques

  • Desenvolva com as ferramentas que preferir, sem se preocupar com a infraestrutura.
  • Reduza o atrito e colabore em uma plataforma unificada que reúne cientistas de dados, desenvolvedores e operações de TI.
  • Acelere a entrega de aplicações inteligentes e reduza o time to market.
  • Capacite seus cientistas de dados com opções de aplicações e serviços oferecidas por um vasto ecossistema de parceiros.

Figura 1. Componentes de lançamento do OpenShift Data Science

O OpenShift Data Science oferece uma base sólida, com seus principais recursos e ferramentas:

  • Jupyter notebooks Os cientistas de dados podem conduzir uma fase exploratória no JupyterLab com acesso às principais bibliotecas e frameworks de IA/ML, como o TensorFlow e Pytorch.
  • Source-to-image (S2I) Os modelos podem ser publicados como endpoints via S2I para integração em aplicações inteligentes. Eles também podem ser recriados e reimplantados conforme as alterações no notebook de origem.
  • Inferência otimizada Modelos de deep learning podem ser convertidos em mecanismos de inferência otimizados para acelerar experimentos.

A Red Hat oferece imagens do Jupyter notebook para o Tensorflow e o PyTorch como parte do serviço. Isso facilita a adoção dessas tecnologias pelas equipes, uma vez que elas não precisam começar do zero. Para consistência e flexibilidade, o Jupyter spawner pode implantar imagens personalizadas da empresa para as equipes de ciência de dados, incorporando as bibliotecas, ferramentas e linguagens de preferência. O serviço também inclui o plug-in do Git, fazendo com que a integração seja mais rápida e executada diretamente da interface do JupyterLab. Outros pacotes de analytics oferecidos como parte do serviço simplificam a operação e disponibilizam as ferramentas certas para iniciar o seu projeto sem complicações. O Pandas, o scikit-learn e o NumPy, são algumas delas. 

Como um serviço de nuvem gerenciado, a Red Hat oferece suporte à engenharia de confiabilidade de sites (SRE) para a plataforma de aplicações do OpenShift subjacente e o serviço OpenShift Data Science. Com ele, você pode se concentrar na análise dos dados de negócios sem se preocupar com a plataforma subjacente. A Red Hat mantém a alta disponibilidade do serviço Red Hat OpenShift Data Science, incluindo ambiente subjacente de serviços de nuvem gerenciados do Red Hat OpenShift. Atualizações, upgrades e compatibilidade são gerenciadas como parte do serviço, eliminando a necessidade de rastrear matrizes de compatibilidade potencialmente complexas entre as ferramentas de analytics.

Ferramentas para todo o ciclo de vida do modelo

O OpenShift Data Science oferece os serviços e software necessários para que as organizações possam implantar seus modelos e movê-los para produção (Figura 2) com sucesso. Além do OpenShift Data Science, esse processo é integrado ao Red Hat OpenShift API Management.

Figura 2. Um típico modelo do ciclo de vida de operacionalização

O dashboard do Red Hat OpenShift Data Sciences oferece um local central para descobrir e acessar todas as aplicações e documentação, o que facilita a adoção. Tutoriais inteligentes para iniciantes estão disponíveis no dashboard e oferecem orientação de práticas recomendadas para componentes comuns e software integrados de parceiros. Eles ajudam os cientistas de dados a aprender e começar com mais rapidez. As seções a seguir descrevem as principais ferramentas de analytics incluídas no Red Hat OpenShift Data Science. 

Starburst

O Starburst acelera a análise das informações ao tornar rápido e fácil para suas equipes capitalizarem seus dados para melhorar o funcionamento do negócio. Oferecido como uma solução autogerenciada ou um serviço totalmente gerenciado, o Starburst democratiza o acesso aos dados, trazendo insights mais abrangentes. O Starburst foi criado no Trino open source (antigamente chamado de PrestoSQL), o principal mecanismo SQL de processamento paralelo massivo (MPP). Criado e operado por especialistas em Trino e pelos criadores do Presto, o Starburst dá a liberdade de interrogar diversos conjuntos de dados onde quer que estejam localizados, sem precisar mover seus dados.

O Starburst se integra ao armazenamento em nuvem escalável e aos serviços de computação oferecidos pelo Red Hat OpenShift, sendo uma forma mais estável, segura, eficiente e econômica de consultar todos os seus dados empresariais. As vantagens incluem:

  • Automação Os operadores do Starburst e Red Hat OpenShift contam com configuração, ajuste e gerenciamento automáticos de clusters.
  • Alta disponibilidade e redução de escala ordenada O balanceador de carga do Red Hat OpenShift pode manter serviços como o Trino em um estado de atividade contínua.
  • Escalabilidade elástica O Red Hat OpenShift pode expandir automaticamente o nó de trabalho do Trino de acordo com a carga de consulta.

Anaconda Commercial Edition

O Anaconda Commercial Edition oferece acesso a um vasto conjunto selecionado de pacotes de ciência de dados para uso em projetos do Jupyter, com imagens pré-desenvolvidas disponíveis diretamente no dashboard do Red Hat OpenShift Data Sciences. Ele também dá às organizações acesso à experiência open source de distribuição e gerenciamento de pacotes mais conhecida do mundo, otimizada para uso comercial, que traz:

  • Inovação open source, com mais de 7.500 pacotes de ciência de dados e ML selecionados pelo Anaconda no seu repositório premium.
  • Funcionalidades de confiança de conteúdo, como verificação de assinatura Conda, que ajudam a manter vulnerabilidades e software não confiável fora dos pipelines de ciência de dados e ML.
  • Confiança, com contratos de nível de serviço (SLAs) de uptime e suporte para fluxos de trabalho de produção.
  • Conformidade total para uso comercial segundo os termos de serviço da Anaconda.

IBM Watson Studio

O IBM Watson Studio1 permite que você crie, execute e gerencie modelos de IA em escala com o Watson Machine Learning e Watson OpenScale. A plataforma combina frameworks open source, como PyTorch, TensorFlow e scikit-learn, com as ferramentas da IBM e de seu ecossistema para ciência de dados visual e baseada em código. Ela funciona com os Jupyter notebooks, JupyterLab, interfaces de linha de comando (CLIs) e linguagens Python.

O IBM Watson ajuda a operacionalizar a IA impulsionando a confiança do conceito à prática. Processos transparentes oferecem insights para decisões orientadas por IA. O IBM Watson também viabiliza a privacidade de dados, conformidade e segurança em vários setores altamente regulamentados, ao mesmo tempo que oferece suporte a um ecossistema aberto e diverso, promovendo o uso responsável da IA. O IBM Watson Studio oferece:

  • AutoAI e AutoML para criar pipelines de modelos automaticamente, preparar dados e selecionar tipos de modelos, além de gerar e classificar pipelines de modelos.
  • Refinamento avançado dos dados para limpeza e modelagem com um editor de fluxo gráfico.
  • Ferramentas visuais integradas por meio do IBM SPSS Modeler para preparar dados rapidamente e desenvolver modelos visualmente.
  • Treinamento e desenvolvimento de modelos para acelerar a criação de experimentos com pipelines otimizados.
  • Otimização de decisão integrada para combinar modelos preditivos e prescritivos.
  • Gerenciamento e monitoramento de modelos para métricas de qualidade, imparcialidade e variações nos padrões.
  • Exportação de modelo como Python Jupyter Notebook.

Pachyderm

As empresas precisam de soluções de gerenciamento de dados que facilitem desde experimentos em laptops até implantações importantes. O Pachyderm permite que equipes de ciência de dados construam e escalem pipelines de ML conteinerizados orientados por dados, com uma linhagem de dados garantida fornecida pelo controle de versão automático. Projetado para resolver problemas reais de ciência de dados, o Pachyderm oferece uma base que permite automatizar e escalar o ciclo de vida de ML, com reprodutibilidade garantida. Com casos de uso que incluem dados não estruturados a data warehouses, processamento de linguagem natural, ETL de vídeo e imagem, serviços financeiros e ciências biológicas, o Pachyderm oferece:

  • Controle de versão de dados automatizado, o que garante às equipes alto desempenho no acompanhamento de todas as variações nas informações.
  • Pipelines em containers impulsionados por dados que aceleram o processamento ao mesmo tempo em que reduzem os custos.
  • Linhagem de dados imutável, que oferece um registro fixo de todas as atividades e recursos no ciclo de vida de ML.
  • O Pachyderm Console, que proporciona uma visualização intuitiva do seu gráfico acíclico direcionado (DAG) e ajuda com depuração e reprodutibilidade.
  • Suporte ao Jupyter notebook por meio da extensão JupyterLab Mount do Pachyderm para criar uma interface point-and-click para os dados versionados pelo Pachyderm
  • Administração empresarial com ferramentas robustas para implantar e administrar o Pachyderm em escala e para diferentes equipes na organização.

Ciência de dados acelerada pela NVIDIA

Processamento escalável, inteligência de dados e treinamento e inferência de machine learning representam tarefas computacionais com uso intensivo de recursos. O software da NVIDIA possibilita acelerar todos os aspectos da ciência de dados de ponta a ponta utilizando os recursos de processamento paralelo de GPUs. Escalar recursos de GPU on-premise ou configurar o provisionamento de Kubernetes para usá-los não deve distrair os cientistas de dados que precisam extrair valor das informações.

Muitas organizações já usam soluções da NVIDIA para machine learning, alme de vários outros serviços. O OpenShift Data Science reduz a complexidade do suporte a hardwares habilitados para GPU e acelera experimentos de ciência de dados com uso intensivo de recursos. Com o OpenShift Data Science, as organizações podem implantar instâncias de Amazon Elastic Computing (EC2) com tecnologia de GPUs da NVIDIA sob demanda, aumentando ou reduzindo os recursos computacionais conforme necessário.

Ferramentas Intel OpenVINO

A distribuição da Intel das ferramentas OpenVINO acelera o desenvolvimento e a implantação de aplicações de inferência de DL de alto desempenho em plataformas Intel. Ela viabiliza a criação, otimização, ajuste e execução de inferências de IA, usando o otimizador de modelos incluído, juntamente com ferramentas de runtime e desenvolvimento.

  • Crie Os desenvolvedores podem usar o Open Model Zoo para encontrar modelos open source, pré-treinados e pré-otimizados, prontos para inferência. Também é possível utilizar seus próprios modelos de DL.
  • Otimize O Model Optimizer pode converter o modelo para uma representação intermediária (IR), o que resulta em alguns arquivos com a topologia de rede e os pesos e tendências do modelo.
  • Implante O mecanismo de inferência pode produzir resultados em vários processadores, aceleradores e ambientes com eficiência de nível "escreva uma vez, implante em qualquer lugar".

Conjunto de ferramentas Intel® AI Analytics

O Conjunto de ferramentas Intel AI Analytics dá a cientistas de dados, desenvolvedores de IA e pesquisadores ferramentas Python e frameworks para acelerar os pipelines de analytics e a ciência de dados, de ponta a ponta, em arquiteturas Intel. Os componentes usam bibliotecas oneAPI para otimizações de computação de baixo nível. Esse conjunto de ferramentas maximiza o desempenho do pré-processamento pela ML  e oferece interoperabilidade para o desenvolvimento eficaz do modelo.

Com o uso das ferramentas Intel AI Analytics, você pode:

  • Oferecer alto desempenho no treinamento de deep learning em XPUs da Intel e integrar inferências rápidas ao seu fluxo de trabalho de desenvolvimento de IA com frameworks otimizados pela Intel para o TensorFlow e PyTorch, modelos pré-treinados e ferramentas de baixa precisão.
  • Atingir aceleração imediata para pré-processamento de dados e fluxos de trabalho de ML com pacotes Python de computação intensiva, Modin, scikit-learn e XGBoost, otimizados para Intel.
  • Obter acesso direto a otimizações de análise e de IA da Intel para garantir que seu software trabalhe em sincronia e sem interrupções.

Conclusão

Com o OpenShift Data Science, as organizações podem experimentar, colaborar e acelerar a jornada de aplicações inteligentes. O serviço complementar baseado em nuvem gerenciado pela Red Hat simplifica e acelera a experimentação de cientistas de dados, oferecendo uma plataforma moderna de IA/ML em containers e a conveniência e escalabilidade da AWS. Os serviços self-service para desenvolvedores e cientistas de dados aceleram a inovação em plataformas de aplicações que já estão em atividade e conquistaram a total confiança da TI empresarial. Diferentemente de abordagens concorrentes, os cientistas de dados podem escolher recursos sem restrições de ferramentas, trazendo novos insights de dados sem forçar limitações arbitrárias.

 

  1. O IBM Watson Studio e o Watson Machine Learning fazem parte da oferta do Cloud Pak for Data da IBM.