Een eenvoudige openbare proxy-parser in Python met behulp van Google Zoeken. We zullen gebruik maken van de googlesearch-python
bibliotheek om Google-zoekopdrachten uit te voeren en BeautifulSoup
voor HTML-parsering.
Zorg er eerst voor dat de benodigde bibliotheken zijn geïnstalleerd:
pip install beautifulsoup4 google
Laten we nu de proxy-parser maken:
from googlesearch import search
from bs4 import BeautifulSoup
import requests
def fetch_proxies():
proxies = []
# Perform a Google search for public proxy lists
query = "public proxy list"
for url in search(query, num=5, stop=5, pause=2):
# Fetch the HTML content of the search result
try:
response = requests.get(url, timeout=10)
if response.status_code == 200:
html_content = response.text
# Parse the HTML using BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')
# Find proxy IP addresses and ports
for row in soup.find_all('tr'):
cols = row.find_all('td')
if len(cols) >= 2:
proxy = cols[0].text.strip() + ':' + cols[1].text.strip()
proxies.append(proxy)
except Exception as e:
print(f"Error fetching proxies from {url}: {e}")
return proxies
if __name__ == "__main__":
proxies = fetch_proxies()
for proxy in proxies:
print(proxy)
Dit script voert een Google-zoekopdracht uit naar openbare proxylijsten, parseert de HTML van de zoekresultaten en extraheert de IP-adressen en poorten van de proxy's. Houd er rekening mee dat de kwaliteit en betrouwbaarheid van de proxy's die met deze methode worden verkregen, kunnen variëren. Zorg er bovendien altijd voor dat u op verantwoorde wijze gebruik maakt van proxy's en dat u zich houdt aan de servicevoorwaarden van de websites die u via deze bezoekt.
Opmerkingen (0)
Er zijn hier nog geen reacties, jij kunt de eerste zijn!