Ahoj všichni. Jmenuji se Michael, jakkoli banálně to může znít. Jsem 30letý nezávislý pracovník z Illinois, USA.
Poprvé jsem o analýze dat slyšel na Illinois State University v letech 2012-2013, když jsem studoval na programátor. Připadalo mi to zajímavé a zábavné, ale netušil jsem, jak moc mi to v budoucnu změní život.
Vše začalo malým projektem během mé praxe v IT firmě. Dostal jsem za úkol shromáždit a analyzovat data pro náš produkt. Většina dat byla roztroušena po různých webech a tehdy jsem si vzpomněl na analýzu. Naučil jsem se Python a knihovny web scraping jako BeautifulSoup a Scrapy. Projekt byl úspěšný, dostal jsem bonus (a utratil ho 🙂) a uvědomil jsem si, že mě ten proces baví.
Pár let po promoci jsem pracoval jako programátor, ale často jsem přemýšlel o vlastním podnikání. Tehdy mě napadla myšlenka použít web scraping k vydělávání peněz. Začal jsem vyhledávat klienty, kteří potřebovali strukturovaná data. Kupodivu jich bylo hodně.
Při své práci používám několik nástrojů a programů:
1. Krajta: Hlavní programovací jazyk, který používám pro psaní skriptů pro škrábání webu. Python má výkonné knihovny pro škrábání webu, jako jsou BeautifulSoup, Scrapy a Selenium.
2. Krásná polévka: Knihovna Pythonu používaná pro analýzu dokumentů HTML a XML. Je ideální pro extrakci dat z webových stránek.
3. špinavý: Další výkonná Python knihovna pro web scraping. Scrapy má rozsáhlou funkčnost a je určen pro škrábání ve velkém měřítku.
4. Selen: Selen se obvykle používá pro automatizované testování webových aplikací, ale lze jej použít také pro web scraping, zejména v případech, kdy jsou data dynamicky načítána pomocí JavaScriptu.
5. Notebook Jupyter: Interaktivní prostředí pro psaní a testování kódu Python. Je to skvělé pro průzkumnou analýzu dat a pro prototypování skriptů pro stírání webu.
6. SQL/NoSQL databáze: Pro ukládání a zpracování velkých objemů nasbíraných dat používám databáze SQL a NoSQL. PostgreSQL, MongoDB a MySQL jsou některé z mých preferovaných databází.
7. Proxy: Abych obešel omezení IP a zvýšil rychlost scrapingu, používám placené proxy služby.
8. Cron nebo jiné plánovače úloh: Používám je k automatickému spouštění skriptů pro stírání webu v určitou dobu.
Nyní, když mám sadu nástrojů a vím, kdy a jak je správně používat, mi práce zabere velmi málo času. Pokud jsem předtím mohl sedět na projektu několik dní, nyní nastavení trvá 1 až 4 hodiny, pak vše funguje automaticky.
Mám několik kanálů, jak najít klienty:
1. Platformy na volné noze: Webové stránky jako Upwork, Freelancer a Fiverr poskytují spoustu příležitostí k nalezení klientů, kteří potřebují služby škrabání webu. Tyto platformy aktivně využívám k hledání projektů, které odpovídají mým dovednostem.
2. Sociální sítě: LinkedIn se stal jednou z nejlepších platforem pro vyhledávání B2B klientů. Jsem aktivní na LinkedIn, zveřejňuji články o web scraping a oslovuji společnosti, o kterých si myslím, že by mohly mít zájem o mé služby.
3. Fóra a komunity: Jsem také aktivní v programování a web scraping fórech a komunitách jako StackOverflow a Reddit. To mi pomáhá nejen zůstat v obraze s nejnovějšími trendy v oblasti web scrapingu, ale také mi pomáhá najít klienty.
4. Networkingové akce a konference: Snažím se účastnit datových a IT akcí a konferencí, protože poskytují vynikající příležitost setkat se s potenciálními klienty a partnery.
5. Zkoušel jsem provozovat blog a klienti odtamtud pocházeli, ale zabere to spoustu času a musel jsem ho zavřít.
Proč to všechno píšu? Protože mnoho lidí, zejména mladých, neví, co dělat a kde vydělat peníze na živobytí.
Na svém příkladu chci ukázat, že trocha znalostí (základy Pythonu se dají zvládnout za pár týdnů), touha a dřina vám může pomoci dosáhnout cílů a osamostatnit se v životě.
Komentáře (0)
Zatím zde nejsou žádné komentáře, můžete být první!