Configurer un crawler php (Google) multi IP en passant par un proxy SQUID

Publié : Le 22 Avril 2014 à 12:41
Écrit par Admin
Publié par : Admin
Article vu : 2 976 fois
Cours en ligne : mise en place de A à Z d'un serveur proxy permettant de télécharger rapidement des pages web en passant outre les limites par IP.

Introduction :

Vous pouvez être amené à télécharger de gros volumes de pages web en utilisant un crawler (voir définition d'un crawler web). Mais sur certain serveur une limite du nombre de requêtes par IP est configurée pour éviter les abus.

Par exemple Google limite le nombre de requêtes de recherche à 3 / minute en passant par un crawler http.

Nous allons vous expliquer, à travers ce cours en ligne, comment passer outre ces limites en utilisant un serveur proxy multi ip (IP françaises, configuré sur un serveur dédié OVH) en évitant la balckliste de vos IPs.

Par exemple :

  • Analyser le site d'un concurrent,
  • Récupérer des données web en grande quantité,
  • Analyser les résultats d'un moteur de recherche (analyse de visibilité, concurrence, ...),
  • Ou encore passer un intermédiaire (le serveur proxy) permettant de cacher votre identité.

Services en ligne permettant de louer des proxys :

Ces services sont plus chers que la solution où vous les hébergez sur votre propre serveur mais ils offrent l'avantage d'être plus rapides à mettre en place. Attention, vous n'aurez pas des IPs géolocalisées en france (ce qui peut être gênant sur des services tenant compte de cette information, ex. Google).

En voici quelqu'un :

  1. https://squidproxies.com/
  2. http://buyproxies.org/
  3. http://www.sslprivateproxy.com/
  4. http://www.anonymous-proxies.net/
  5. http://instantproxies.com/
Multiplier les ips pour accélérer votre vitesse de votre crawler
Multiplier les ips pour accélérer votre vitesse de votre crawler

Plan du cours + exemple complet d'un crawler php

1) Configurer un serveur proxy SQUID :

  • Choisir son serveur chez OVH (de 16 à 256 IPs)
  • Installer les IPs sur votre serveur
  • Installation du serveur SQUID
  • Configurer SQUID en multi utilisateurs / IPs

2) Utiliser votre serveur proxy :

  • Exemple d'un crawler php via la libraire CURL
  • Comment régler correctement votre crawler pour une vitesse maximale

3) Exemple d'utilisation :

  • Exemple complet avec 16 IPs permettant de télécharger 1 700 pages / heures sur Google (jusqu'à 256 IPs posssibles, soit 16X plus rapide)

Télécharger le cours Crawler multi IP + exemple complet php

A propos de ce contenu :

Nous avons passez plus 3 jours de tests et de développement par nos experts pour arriver à vous présenter cette solution, qui vous fera gagner un temps précieux.

Configurer un serveur proxy demande l'intervention d'un administrateur réseau et de nombreux tests en développement. Avec ce tutoriel expliqué pas à pas vous arriverez à configurer vous même votre propre serveur proxy (avec des IPs françaises) à moindre coût. Vous en aurez la maîtrise technique qui vous permettra de l'adapter à vos besoins.

Nous l'utilisons depuis peu pour les besoins de nos clients, la vitesse des analyses marketing a été multipliée par 25 par rapport à ce que nous faisions avant sans serveur proxy.

Publicité de nos partenaires e-commerce :

229,94 €
1 149,95 €
1 449,95 €

LDLC : Thomson THBK2-12.32CTW

Loading...

Articles en rapport