123
StormCrawler

StormCrawler

O StormCrawler é um SDK de código aberto para criar rastreadores da Web distribuídos com o Apache Storm.O projeto está sob a licença Apache v2 e consiste em uma coleção de recursos e componentes reutilizáveis, escritos principalmente em Java.O objetivo do StormCrawler é ajudar a criar rastreadores da Web que são: baixa latência resiliente e escalável fácil de estender educada e eficiente StormCrawler é uma biblioteca e uma coleção de recursos que os desenvolvedores podem aproveitar para criar seus próprios rastreadores.A boa notícia é que isso pode ser bem direto.Freqüentemente, tudo o que você precisa fazer é declarar storm-crawler como uma dependência do Maven, escrever sua própria classe de Topologia (dica: você pode estender o ConfigurableTopology), reutilizar os componentes fornecidos pelo projeto e talvez escrever alguns personalizadospara o seu próprio molho secreto.Um pouco de ajustes na configuração e pronto! Além dos componentes principais, fornecemos alguns recursos externos que você pode reutilizar em seu projeto, como por exemplo nossos bicos e parafusos para o ElasticSearch ou um ParserBolt que usa o Apache Tikapara analisar vários formatos de documento.O StormCrawler é perfeitamente adequado para casos de uso em que a URL para buscar e analisar vem como fluxos, mas também é uma solução apropriada para rastreamentos recursivos em larga escala, principalmente onde é necessária baixa latência.O projeto é utilizado na produção por várias empresas e é desenvolvido e mantido ativamente.

Local na rede Internet:

Categorias

Alternativas ao StormCrawler para BSD