Connecter MySQL à Apache Nutch

Obtenir la source de https://mirror.nyi.net /apache//nutch/apache-nutch-1.2-src.zip

Ouvrez org.apache.nutch.crawl.Crawl classe dans votre éditeur.

Variable de recherche Path crawlDb = new Path(dir + "/crawldb");

La variable indiquera où remplacer le code afin d'obtenir votre propre CustomMySQLCrawl classe.

La persistance se produit pendant cet appel :crawlDbTool.update(crawlDb, segs, true, true); // update crawldb C'est donc là que vous devez l'enregistrer dans la base de données. Vous voudrez peut-être envisager d'intégrer l'hibernation à ce stade.