K analýze vynikající základny fór pro Xrumer nebo podobný soft stačí najít jedno téma, kde někdo zveřejňuje svá vlastní témata (reklamy) a propojuje svá témata na jiných fórech, aby je posílil.

Pomocí tohoto skriptu můžete shromáždit jejich databázi.

Požadavky:

Nainstalujte potřebné knihovny pomocí:

pip install requests beautifulsoup4

Skript:

import requests
from bs4 import BeautifulSoup
from urllib.parse import urlparse, urljoin
import time

def is_external(url, base_url):
    return urlparse(url).netloc != urlparse(base_url).netloc

def get_links(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')
        links = [a.get('href') for a in soup.find_all('a', href=True)]
        return links
    except requests.RequestException as e:
        print(f"Failed to fetch {url}: {e}")
        return []

def scrape_forums(starting_urls, max_depth=2):
    visited = set()
    external_links = set()
    
    def scrape(url, depth):
        if url in visited or depth > max_depth:
            return
        print(f"Scraping {url} at depth {depth}")
        visited.add(url)
        
        links = get_links(url)
        for link in links:
            full_url = urljoin(url, link)
            if is_external(full_url, url):
                external_links.add(full_url)
            else:
                scrape(full_url, depth + 1)
    
    for url in starting_urls:
        scrape(url, 1)
    
    return external_links

def save_links_to_file(links, filename):
    with open(filename, 'w') as f:
        for link in links:
            f.write(link + '\n')

if __name__ == '__main__':
    starting_urls = [
        # Add your starting forum URLs here
        'http://example-forum.com/topic1',
        'http://example-forum.com/topic2'
    ]
    filename = 'external_links.txt'
    
    external_links = scrape_forums(starting_urls)
    save_links_to_file(external_links, filename)
    
    print(f"Collected {len(external_links)} external links. Saved to {filename}.")

Jak skript funguje:

  1. Funkce get_links:
    • Odešle požadavek na zadanou URL.
    • Analyzuje HTML a shromažďuje všechny odkazy.
  2. Funkce is_external:
    • Zkontroluje, zda je odkaz externí.
  3. Funkce scrape_forums:
    • Rekurzivně škrábe fóra počínaje zadanými URL.
    • Shromažďuje všechny externí odkazy.
  4. Funkce save_links_to_file:
    • Uloží všechny shromážděné externí odkazy do textového souboru.
  5. Hlavní část scénáře:
    • Nastaví počáteční adresy URL fóra.
    • Spustí proces škrábání.
    • Uloží shromážděné odkazy do souboru.

Návod k použití:

Vložte počáteční adresy URL fóra do starting_urls seznam.
Spusťte skript:

python script_name.py

Shromážděné odkazy budou uloženy do external_links.txt soubor.

Tento skript lze vylepšit a přizpůsobit konkrétním potřebám, jako jsou složitější pravidla analýzy nebo zpracování chyb.

Komentáře (0)

Zatím zde nejsou žádné komentáře, můžete být první!

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *


Vyberte a kupte proxy

Proxy datových center

Rotující proxy

UDP proxy

Důvěřuje více než 10 000 zákazníkům po celém světě

Proxy zákazník
Proxy zákazník
Proxy zákazníka flowch.ai
Proxy zákazník
Proxy zákazník
Proxy zákazník