Uno script per raccogliere un database di forum. Python - FineProxy

Per analizzare un'eccellente base di forum per Xrumer o software simili, è sufficiente trovare un argomento in cui qualcuno pubblica i propri argomenti (annunci) e collega i propri argomenti su altri forum per rafforzarli.

Usando questo script, puoi raccogliere il loro database.

Requisiti:

Installa le librerie necessarie utilizzando:

pip install requests beautifulsoup4

Copione:

import requests
from bs4 import BeautifulSoup
from urllib.parse import urlparse, urljoin
import time

def is_external(url, base_url):
    return urlparse(url).netloc != urlparse(base_url).netloc

def get_links(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')
        links = [a.get('href') for a in soup.find_all('a', href=True)]
        return links
    except requests.RequestException as e:
        print(f"Failed to fetch {url}: {e}")
        return []

def scrape_forums(starting_urls, max_depth=2):
    visited = set()
    external_links = set()
    
    def scrape(url, depth):
        if url in visited or depth > max_depth:
            return
        print(f"Scraping {url} at depth {depth}")
        visited.add(url)
        
        links = get_links(url)
        for link in links:
            full_url = urljoin(url, link)
            if is_external(full_url, url):
                external_links.add(full_url)
            else:
                scrape(full_url, depth + 1)
    
    for url in starting_urls:
        scrape(url, 1)
    
    return external_links

def save_links_to_file(links, filename):
    with open(filename, 'w') as f:
        for link in links:
            f.write(link + '\n')

if __name__ == '__main__':
    starting_urls = [
        # Add your starting forum URLs here
        'http://example-forum.com/topic1',
        'http://example-forum.com/topic2'
    ]
    filename = 'external_links.txt'
    
    external_links = scrape_forums(starting_urls)
    save_links_to_file(external_links, filename)
    
    print(f"Collected {len(external_links)} external links. Saved to {filename}.")

Come funziona la sceneggiatura:

Funzione get_links:
- Invia una richiesta all'URL specificato.
- Analizza l'HTML e raccoglie tutti i collegamenti.
Funzione is_external:
- Controlla se un collegamento è esterno.
Funzione scrape_forums:
- Raschia ricorsivamente i forum a partire dagli URL specificati.
- Raccoglie tutti i collegamenti esterni.
Funzione save_links_to_file:
- Salva tutti i collegamenti esterni raccolti in un file di testo.
Parte principale della sceneggiatura:
- Imposta gli URL iniziali del forum.
- Avvia il processo di raschiatura.
- Salva i collegamenti raccolti in un file.

Istruzioni per l'uso:

Inserisci gli URL iniziali del forum nel file starting_urls elenco.
Esegui lo script:

python script_name.py

I collegamenti raccolti verranno salvati nel file external_links.txt file.

Questo script può essere migliorato e adattato a esigenze specifiche, come regole di analisi più complesse o gestione degli errori.

Commenti (0)

Non ci sono ancora commenti qui, puoi essere il primo!

Uno script per raccogliere un database di forum. Pitone

Requisiti:

Copione:

Come funziona la sceneggiatura:

Istruzioni per l'uso:

messaggi recenti

Commenti (0)

Lascia un commento Annulla risposta

Scegliere e acquistare il Proxy

Proxy per data center

Proxy a rotazione

Proxy UDP

Scelto da oltre 10.000 clienti in tutto il mondo

Tutti i paesi

Paesi misti

Requisiti:

Copione:

Come funziona la sceneggiatura:

Istruzioni per l'uso:

Post correlati:

messaggi recenti

Commenti (0)

Lascia un commento Annulla risposta

Scegliere e acquistare il Proxy

Proxy per data center

Proxy a rotazione

Proxy UDP

Scelto da oltre 10.000 clienti in tutto il mondo