Luigi

Luigi

O objetivo do Luigi é tratar de todo o encanamento normalmente associado a processos em lote de longa duração.Você deseja encadear muitas tarefas, automatizá-las e ocorrerão falhas.Essas tarefas podem ser qualquer coisa, mas normalmente são tarefas de longa duração, como tarefas do Hadoop, descarregar dados de / para bancos de dados, executar algoritmos de aprendizado de máquina ou qualquer outra coisa.Existem outros pacotes de software que se concentram em aspectos de nível inferior do processamento de dados, como Hive, Pig ou Cascading.Luigi não é uma estrutura para substituí-los.Em vez disso, ajuda a unir muitas tarefas, onde cada tarefa pode ser uma consulta do Hive, um trabalho do Hadoop em Java, um trabalho do Spark no Scala ou um snippet do Python, Python, despejar uma tabela de um banco de dados ou qualquer outra coisa.É fácil criar pipelines de longa duração, que compreendem milhares de tarefas e levam dias ou semanas para serem concluídos.O Luigi cuida de grande parte do gerenciamento do fluxo de trabalho para que você possa se concentrar nas próprias tarefas e em suas dependências ... Você pode criar praticamente qualquer tarefa que desejar, mas o Luigi também vem com uma caixa de ferramentas com vários modelos de tarefas comuns que você precisa.usar.Ele inclui suporte para executar tarefas de mapreduce do Python no Hadoop, bem como tarefas do Hive e Pig.Ele também vem com abstrações do sistema de arquivos para HDFS e arquivos locais que garantem que todas as operações do sistema de arquivos sejam atômicas.Isso é importante porque significa que seu pipeline de dados não trava em um estado que contém dados parciais.
luigi

Local na rede Internet:

Categorias

Alternativas ao Luigi para Self-Hosted com licença de código aberto