Простой парсер общедоступных прокси на Python с использованием поиска Google. Мы будем использовать googlesearch-python
библиотека для выполнения поиска в Google и BeautifulSoup
для парсинга HTML.
Сначала убедитесь, что у вас установлены необходимые библиотеки:
pip install beautifulsoup4 google
Теперь давайте создадим прокси-парсер:
from googlesearch import search
from bs4 import BeautifulSoup
import requests
def fetch_proxies():
proxies = []
# Perform a Google search for public proxy lists
query = "public proxy list"
for url in search(query, num=5, stop=5, pause=2):
# Fetch the HTML content of the search result
try:
response = requests.get(url, timeout=10)
if response.status_code == 200:
html_content = response.text
# Parse the HTML using BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')
# Find proxy IP addresses and ports
for row in soup.find_all('tr'):
cols = row.find_all('td')
if len(cols) >= 2:
proxy = cols[0].text.strip() + ':' + cols[1].text.strip()
proxies.append(proxy)
except Exception as e:
print(f"Error fetching proxies from {url}: {e}")
return proxies
if __name__ == "__main__":
proxies = fetch_proxies()
for proxy in proxies:
print(proxy)
Этот скрипт выполнит поиск в Google списков общедоступных прокси-серверов, проанализирует HTML-код результатов поиска и извлечет IP-адреса и порты прокси-серверов. Обратите внимание, что качество и надежность прокси, полученных этим методом, могут различаться. Кроме того, всегда используйте прокси ответственно и соблюдайте условия обслуживания веб-сайтов, к которым вы через них получаете доступ.
Комментарии (0)
Здесь пока нет комментариев, вы можете быть первым!