Parser proxy publik sederhana dengan Python menggunakan pencarian Google. Kami akan menggunakan googlesearch-python
perpustakaan untuk melakukan pencarian Google dan BeautifulSoup
untuk penguraian HTML.
Pertama, pastikan Anda telah menginstal perpustakaan yang diperlukan:
pip install beautifulsoup4 google
Sekarang, mari buat parser proxy:
from googlesearch import search
from bs4 import BeautifulSoup
import requests
def fetch_proxies():
proxies = []
# Perform a Google search for public proxy lists
query = "public proxy list"
for url in search(query, num=5, stop=5, pause=2):
# Fetch the HTML content of the search result
try:
response = requests.get(url, timeout=10)
if response.status_code == 200:
html_content = response.text
# Parse the HTML using BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')
# Find proxy IP addresses and ports
for row in soup.find_all('tr'):
cols = row.find_all('td')
if len(cols) >= 2:
proxy = cols[0].text.strip() + ':' + cols[1].text.strip()
proxies.append(proxy)
except Exception as e:
print(f"Error fetching proxies from {url}: {e}")
return proxies
if __name__ == "__main__":
proxies = fetch_proxies()
for proxy in proxies:
print(proxy)
Skrip ini akan melakukan pencarian Google untuk daftar proxy publik, mengurai HTML hasil pencarian, dan mengekstrak alamat IP dan port proxy. Harap dicatat bahwa kualitas dan keandalan proxy yang diperoleh dengan menggunakan metode ini mungkin berbeda. Selain itu, selalu pastikan untuk menggunakan proxy secara bertanggung jawab dan patuhi persyaratan layanan situs web yang Anda akses melalui proxy tersebut.
Komentar (0)
Belum ada komentar di sini, Anda bisa menjadi yang pertama!