Bonjour à tous. Je m'appelle Michael, aussi banal que cela puisse paraître. Je suis un indépendant de 30 ans originaire de l'Illinois, aux États-Unis.

J'ai entendu parler pour la première fois de l'analyse syntaxique des données à l'université d'État de l'Illinois en 2012-2013, alors que j'étudiais pour devenir programmeur. Cela semblait intéressant et amusant, mais je n'avais aucune idée de la façon dont cela changerait ma vie à l'avenir.

Tout a commencé par un petit projet lors de mon stage dans une entreprise informatique. J'étais chargé de rassembler et d'analyser des données pour notre produit. La plupart des données étaient dispersées sur différents sites web, et c'est là que je me suis souvenu de l'analyse. J'ai appris Python et des bibliothèques de web scraping comme BeautifulSoup et Scrapy. Le projet a été un succès, j'ai reçu un bonus (et je l'ai dépensé 🙂 ), et j'ai réalisé que j'aimais le processus.

Quelques années après avoir obtenu mon diplôme, je travaillais comme programmeur, mais je pensais souvent à créer ma propre entreprise. C'est alors que m'est venue l'idée d'utiliser le web scraping pour gagner de l'argent. J'ai commencé à chercher des clients qui avaient besoin de données structurées. Étonnamment, il y en avait beaucoup.

Dans mon travail, j'utilise plusieurs outils et programmes :

1. Python: Le principal langage de programmation que j'utilise pour écrire des scripts de web scraping. Python possède de puissantes bibliothèques pour le web scraping telles que BeautifulSoup, Scrapy, et Selenium.

2. BeautifulSoup: Une bibliothèque Python utilisée pour analyser les documents HTML et XML. Elle est parfaite pour extraire des données de pages web.

3. Ferraille: Une autre bibliothèque Python puissante pour le scraping web. Scrapy possède des fonctionnalités étendues et est conçu pour le scraping à grande échelle.

4. Sélénium: Selenium est généralement utilisé pour les tests automatisés d'applications web, mais il peut également être utilisé pour le web scraping, en particulier dans les cas où les données sont chargées dynamiquement à l'aide de JavaScript.

5. Bloc-notes Jupyter: Un environnement interactif pour écrire et tester du code Python. Il est idéal pour l'analyse exploratoire des données et pour le prototypage de scripts d'exploration du web.

6. Bases de données SQL/NoSQL: J'utilise des bases de données SQL et NoSQL pour stocker et traiter de grands volumes de données collectées. PostgreSQL, MongoDB et MySQL sont quelques-unes de mes bases de données préférées.

7. Proxy: Pour contourner les restrictions d'IP et augmenter la vitesse de scraping, j'utilise des services proxy payants.

8. Cron ou autres planificateurs de tâches: Je les utilise pour lancer automatiquement mes scripts de scraping web à un moment précis.

Maintenant que je dispose d'un ensemble d'outils et que je sais quand et comment les utiliser correctement, mon travail prend très peu de temps. Alors qu'auparavant je pouvais rester sur un projet pendant plusieurs jours, la mise en place prend maintenant de 1 à 4 heures, et tout fonctionne automatiquement.

Je dispose de plusieurs canaux pour trouver des clients :

1. Les plateformes de freelance : Des sites web comme Upwork, Freelancer et Fiverr offrent de nombreuses possibilités de trouver des clients ayant besoin de services de web scraping. J'utilise activement ces plateformes pour trouver des projets correspondant à mes compétences.

2. Les réseaux sociaux : LinkedIn est devenu l'une des meilleures plateformes pour trouver des clients B2B. Je suis actif sur LinkedIn, je publie des articles sur le web scraping et je contacte les entreprises qui, selon moi, pourraient être intéressées par mes services.

3. Forums et communautés : Je suis également actif sur les forums et communautés de programmation et de web scraping comme StackOverflow et Reddit. Cela me permet non seulement de me tenir au courant des dernières tendances en matière de web scraping, mais aussi de trouver des clients.

4. Événements et conférences de mise en réseau : J'essaie d'assister à des événements et des conférences liés aux données et aux technologies de l'information, car ils constituent une excellente occasion de rencontrer des clients et des partenaires potentiels.

5. J'ai essayé de tenir un blog, et des clients sont venus de là, mais cela prend beaucoup de temps, et j'ai dû le fermer.

Pourquoi est-ce que j'écris tout cela ? Parce que de nombreuses personnes, en particulier les jeunes, ne savent pas quoi faire et où gagner de l'argent pour vivre.

Avec mon exemple, je veux montrer qu'un peu de connaissances (les bases de Python peuvent être maîtrisées en quelques semaines), de volonté et de travail acharné peuvent vous aider à atteindre vos objectifs et à devenir indépendant dans la vie.

Choisir et acheter une procuration

Proxies pour centres de données

Procurations tournantes

Proxies UDP

Approuvé par plus de 10 000 clients dans le monde

Client mandataire
Client mandataire
Client proxy flowch.ai
Client mandataire
Client mandataire
Client mandataire