Untuk menghuraikan pangkalan forum yang sangat baik untuk Xrumer atau lembut yang serupa, adalah memadai untuk mencari satu topik di mana seseorang menerbitkan topik mereka sendiri (iklan) dan memautkan topik mereka pada forum lain untuk mengukuhkannya.

Menggunakan skrip ini, anda boleh mengumpul pangkalan data mereka.

Keperluan:

Pasang perpustakaan yang diperlukan menggunakan:

pip install requests beautifulsoup4

Skrip:

import requests
from bs4 import BeautifulSoup
from urllib.parse import urlparse, urljoin
import time

def is_external(url, base_url):
    return urlparse(url).netloc != urlparse(base_url).netloc

def get_links(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')
        links = [a.get('href') for a in soup.find_all('a', href=True)]
        return links
    except requests.RequestException as e:
        print(f"Failed to fetch {url}: {e}")
        return []

def scrape_forums(starting_urls, max_depth=2):
    visited = set()
    external_links = set()
    
    def scrape(url, depth):
        if url in visited or depth > max_depth:
            return
        print(f"Scraping {url} at depth {depth}")
        visited.add(url)
        
        links = get_links(url)
        for link in links:
            full_url = urljoin(url, link)
            if is_external(full_url, url):
                external_links.add(full_url)
            else:
                scrape(full_url, depth + 1)
    
    for url in starting_urls:
        scrape(url, 1)
    
    return external_links

def save_links_to_file(links, filename):
    with open(filename, 'w') as f:
        for link in links:
            f.write(link + '\n')

if __name__ == '__main__':
    starting_urls = [
        # Add your starting forum URLs here
        'http://example-forum.com/topic1',
        'http://example-forum.com/topic2'
    ]
    filename = 'external_links.txt'
    
    external_links = scrape_forums(starting_urls)
    save_links_to_file(external_links, filename)
    
    print(f"Collected {len(external_links)} external links. Saved to {filename}.")

Cara skrip berfungsi:

  1. Fungsi get_links:
    • Menghantar permintaan ke URL yang diberikan.
    • Menghuraikan HTML dan mengumpulkan semua pautan.
  2. Fungsi is_external:
    • Menyemak sama ada pautan adalah luaran.
  3. Fungsi scrape_forums:
    • Mengikis forum secara rekursif bermula dari URL yang diberikan.
    • Mengumpul semua pautan luaran.
  4. Fungsi save_links_to_file:
    • Menyimpan semua pautan luaran yang dikumpul ke fail teks.
  5. Bahagian utama skrip:
    • Menetapkan URL forum awal.
    • Memulakan proses mengikis.
    • Menyimpan pautan yang dikumpul ke fail.

Arahan penggunaan:

Masukkan URL forum awal ke dalam starting_urls senarai.
Jalankan skrip:

python script_name.py

Pautan yang dikumpul akan disimpan ke external_links.txt fail.

Skrip ini boleh diperbaiki dan disesuaikan dengan keperluan khusus, seperti peraturan penghuraian yang lebih kompleks atau pengendalian ralat.

Komen (0)

Tiada ulasan di sini lagi, anda boleh menjadi yang pertama!

Tinggalkan Balasan

Alamat e-mel anda tidak akan disiarkan. Medan diperlukan ditanda dengan *


Pilih dan Beli Proksi

Proksi Pusat Data

Proksi Berputar

Proksi UDP

Dipercayai Oleh 10000+ Pelanggan Seluruh Dunia

Pelanggan Proksi
Pelanggan Proksi
Aliran Pelanggan Proksi.ai
Pelanggan Proksi
Pelanggan Proksi
Pelanggan Proksi