Trình phân tích cú pháp proxy công khai đơn giản bằng Python sử dụng tìm kiếm của Google. Chúng tôi sẽ sử dụng googlesearch-python
thư viện để thực hiện tìm kiếm trên Google và BeautifulSoup
để phân tích cú pháp HTML.
Trước tiên, hãy đảm bảo bạn đã cài đặt các thư viện cần thiết:
pip install beautifulsoup4 google
Bây giờ, hãy tạo trình phân tích cú pháp proxy:
from googlesearch import search
from bs4 import BeautifulSoup
import requests
def fetch_proxies():
proxies = []
# Perform a Google search for public proxy lists
query = "public proxy list"
for url in search(query, num=5, stop=5, pause=2):
# Fetch the HTML content of the search result
try:
response = requests.get(url, timeout=10)
if response.status_code == 200:
html_content = response.text
# Parse the HTML using BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')
# Find proxy IP addresses and ports
for row in soup.find_all('tr'):
cols = row.find_all('td')
if len(cols) >= 2:
proxy = cols[0].text.strip() + ':' + cols[1].text.strip()
proxies.append(proxy)
except Exception as e:
print(f"Error fetching proxies from {url}: {e}")
return proxies
if __name__ == "__main__":
proxies = fetch_proxies()
for proxy in proxies:
print(proxy)
Tập lệnh này sẽ thực hiện tìm kiếm trên Google cho danh sách proxy công cộng, phân tích HTML của kết quả tìm kiếm và trích xuất địa chỉ IP và cổng của proxy. Xin lưu ý rằng chất lượng và độ tin cậy của proxy thu được bằng phương pháp này có thể khác nhau. Ngoài ra, hãy luôn đảm bảo sử dụng proxy một cách có trách nhiệm và tuân thủ các điều khoản dịch vụ của trang web bạn đang truy cập thông qua chúng.
Bình luận (0)
Chưa có bình luận nào ở đây, bạn có thể là người đầu tiên!