用于收集论坛数据库的脚本。Python

要为 Xrumer 或类似软件解析优秀的论坛基础，只需找到一个主题，其中有人发布自己的主题（广告）并链接到其他论坛上的主题以强化它们。

使用此脚本，您可以收集他们的数据库。

要求：

使用以下方法安装必要的库：

pip install requests beautifulsoup4

脚本:

import requests
from bs4 import BeautifulSoup
from urllib.parse import urlparse, urljoin
import time

def is_external(url, base_url):
    return urlparse(url).netloc != urlparse(base_url).netloc

def get_links(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
    try:
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')
        links = [a.get('href') for a in soup.find_all('a', href=True)]
        return links
    except requests.RequestException as e:
        print(f"Failed to fetch {url}: {e}")
        return []

def scrape_forums(starting_urls, max_depth=2):
    visited = set()
    external_links = set()
    
    def scrape(url, depth):
        if url in visited or depth > max_depth:
            return
        print(f"Scraping {url} at depth {depth}")
        visited.add(url)
        
        links = get_links(url)
        for link in links:
            full_url = urljoin(url, link)
            if is_external(full_url, url):
                external_links.add(full_url)
            else:
                scrape(full_url, depth + 1)
    
    for url in starting_urls:
        scrape(url, 1)
    
    return external_links

def save_links_to_file(links, filename):
    with open(filename, 'w') as f:
        for link in links:
            f.write(link + '\n')

if __name__ == '__main__':
    starting_urls = [
        # Add your starting forum URLs here
        'http://example-forum.com/topic1',
        'http://example-forum.com/topic2'
    ]
    filename = 'external_links.txt'
    
    external_links = scrape_forums(starting_urls)
    save_links_to_file(external_links, filename)
    
    print(f"Collected {len(external_links)} external links. Saved to {filename}.")

脚本的工作原理：

职能 get_links:
- 向给定的 URL 发送请求。
- 解析 HTML 并收集所有链接。
职能 is_external:
- 检查链接是否是外部链接。
职能 scrape_forums:
- 从给定的 URL 开始递归抓取论坛。
- 收集所有外部链接。
职能 save_links_to_file:
- 将所有收集到的外部链接保存到文本文件。
脚本的主要部分:
- 设置初始论坛 URL。
- 开始抓取过程。
- 将收集的链接保存到文件。

使用说明：

将初始论坛 URL 插入到 starting_urls 列表。
运行脚本：

python script_name.py

收集到的链接将保存到 external_links.txt 文件。

该脚本可以改进并适应特定需求，例如更复杂的解析规则或错误处理。

这里还没有评论，你可以成为第一个评论者！

要求：

脚本:

脚本的工作原理：

使用说明：

最近的帖子

评论 (0)

发表回复取消回复

选择和购买代理

数据中心代理

轮流代理

UDP代理机构

受到全球 10000 多家客户的信赖

所有国家

混合国家

要求：

脚本:

脚本的工作原理：

使用说明：

相关文章：

最近的帖子

评论 (0)

发表回复 取消回复

选择和购买代理

数据中心代理

轮流代理

UDP代理机构

受到全球 10000 多家客户的信赖

发表回复取消回复