Screen scraping, také známý jako web scraping nebo web harvesting, je metoda používaná k extrahování dat z webových stránek. Obvykle to zahrnuje použití automatizovaného softwaru nebo robotů k analýze obsahu HTML/XML na webových stránkách, vyhledání požadovaných datových bodů a extrahování těchto částí dat do výstupního formátu, jako je textový soubor, tabulka nebo dokonce databáze. Obecně je cílem screen scrapingu získat velké množství dat v krátkém čase, aniž byste museli data ručně shromažďovat a kopírovat.
Screen scraping se nejčastěji používá ke shromažďování nebo sledování velkého množství dat z webových stránek, které neposkytují snadný přístup k takovým datům. Pomocí systému stírání obrazovky lze často shromažďovat data, která je jinak obtížné nebo nemožné získat. To je užitečné zejména pro webové vývojáře a podnikatele, kteří potřebují znát uživatelské chování a trendy. Například pomocí webového scrapingu lze sledovat interakci uživatelů s jejich webem.
Screen scraping je forma procházení webu, kterou často používají vyhledávače k indexování a organizaci webového obsahu. Screen scraping se však od procházení webu liší tím, že se nezaměřuje na rychlé objevování a indexování nového obsahu, ale spíše na konkrétní, předem definované datové body.
Škrabky obrazovky lze použít pro různé účely, jako je průzkum trhu, konkurenční zpravodajství, srovnání cen, sledování prodeje a další. Existují však důležité právní aspekty, pokud jde o škrábání obrazovky. Zatímco některé webové stránky výslovně povolují scraping, jiné mohou vyžadovat výslovné povolení od vlastníka webové stránky, než bude možné sklízet data. Před extrahováním dat je vždy důležité zajistit, abyste měli oprávnění ke smazání zdrojů.
Závěrem lze říci, že screen scraping je výkonná technika extrakce dat. Lze jej použít k rychlému a snadnému extrahování dat z webových stránek, která pak lze použít pro výzkum, analýzu a další. Je však důležité poznamenat, že seškrabování obrazovky je třeba provádět v souladu s právními a etickými pokyny, aby se zajistilo, že nedojde k duplikaci nebo krádeži dat.