# MP Content Assistant **Repository Path**: harebert/mp-content-assistant ## Basic Information - **Project Name**: MP Content Assistant - **Description**: 抓取上外北外滩公众号中内容的chrome插件 - **Primary Language**: Unknown - **License**: GPL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-01-20 - **Last Updated**: 2026-01-20 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 上外北外滩公众号内容提取助手 ## 插件简介 上外北外滩公众号内容提取助手是一个专门用于**微信公众号文章爬取**的Chrome浏览器扩展,特别针对上外北外滩学校公众号进行了优化。它提供了多种便捷的方式来爬取和提取公众号文章内容,帮助用户高效获取和整理所需的信息。 ![alt text](image.png) ### 核心功能 - **公众号文章爬取**:支持三种不同的爬取方式,满足不同场景的需求 - **自动内容提取**:智能提取文章标题、链接和完整内容 - **批量操作**:支持批量爬取和处理多篇文章 - **一键复制**:将爬取的内容自动复制到剪贴板,方便后续处理 - **多方式身份识别**:支持通过公众号名称、微信号或fakeid进行识别 ### 三种爬取方式 1. **抓取最新10条**:通过公众号名称或微信号,快速抓取该公众号的最新10篇文章 - **适用场景**:需要快速获取公众号最近发布的内容 - **特点**:速度快,适合日常监测 2. **抓取全部历史**:通过公众号名称或微信号,抓取该公众号的全部历史文章 - **适用场景**:需要完整收集公众号的所有内容,用于归档或分析 - **特点**:内容全面,适合深度研究 3. **抓取指定链接**:通过文章链接,抓取单篇特定的公众号文章 - **适用场景**:只需要获取某一篇特定文章的内容 - **特点**:精准定位,适合针对性获取 ## 技术实现 - **基于Chrome扩展**:使用manifest v3架构,确保与最新Chrome浏览器兼容 - **脚本注入**:通过Chrome的scripting API将脚本注入到微信公众号后台页面 - **微信API调用**:利用微信公众号后台的API获取文章列表和内容 - **智能Token获取**:采用多种方式自动获取微信后台的token和csrf token - **防封机制**:内置请求间隔控制,避免被微信后台封禁 ## 适用场景 - **教育工作者**:收集上外北外滩学校公众号的教育资讯和活动信息 - **研究人员**:需要收集特定公众号的文章数据进行分析研究 - **内容创作者**:参考和分析同行的文章,获取创作灵感 - **媒体工作者**:追踪特定主题的报道,了解行业动态 - **学生**:收集相关领域的学习资料,辅助学习研究 ## 特点 - **操作简单**:直观的用户界面,一键式操作 - **高效稳定**:采用优化的爬取算法,确保高效稳定的爬取体验 - **安全可靠**:本地处理数据,保护用户隐私 - **免费使用**:完全免费,无任何功能限制 - **智能容错**:多种方式尝试获取数据,提高成功率 - **详细日志**:提供详细的操作日志,便于排查问题 ## 安装方法 ### 步骤一:从Gitee下载项目 #### 方法A:通过Git克隆(推荐) 1. **打开命令行工具**(Windows用户打开PowerShell或CMD) 2. **导航到您想要保存项目的目录**: ```bash cd 您的目录路径 ``` 3. **克隆仓库**: ```bash git clone https://gitee.com/harebert/mp-content-assistant.git ``` 4. **等待克隆完成**:项目会下载到名为`mp-content-assistant`的文件夹中 #### 方法B:直接下载ZIP文件 1. **访问Gitee仓库**:打开浏览器,访问 https://gitee.com/harebert/mp-content-assistant 2. **下载ZIP文件**:点击右上角的"克隆/下载"按钮,选择"下载ZIP" 3. **解压文件**:将下载的ZIP文件解压到您的本地目录 ### 步骤二:安装扩展到Chrome 1. **打开Chrome浏览器** 2. **进入扩展管理页面**:在地址栏输入 `chrome://extensions/` 并按回车 3. **开启开发者模式**:在页面右上角切换"开发者模式"开关 4. **加载已解压的扩展程序**:点击"加载已解压的扩展程序"按钮,选择您下载并解压的项目文件夹 5. **验证安装**:扩展应该会出现在扩展列表中,并且可以通过点击Chrome工具栏中的扩展图标来使用 ## 项目结构 ``` MP Content Assistant/ ├── logo.png # 扩展图标 ├── manifest.json # 扩展配置文件 ├── popup.html # 弹出窗口HTML ├── popup.js # 弹出窗口JavaScript └── README.md # 本说明文件 ``` ## 使用方法 ### 前提条件 - **已安装Chrome浏览器**:确保使用最新版本的Chrome浏览器 - **已登录微信公众号后台**:在使用插件前,需要先登录微信公众号后台(https://mp.weixin.qq.com/) ### 详细操作步骤 1. **打开扩展**:点击Chrome工具栏中的"上外北外滩公众号内容提取助手"图标 2. **选择爬取方式**:在弹出的窗口中,从"模式选择"下拉菜单中选择一种爬取方式: - **抓取最新10条**:快速获取公众号最近的10篇文章 - **抓取全部历史**:获取公众号的所有历史文章 - **抓取指定链接**:获取单篇特定文章 3. **输入目标信息**: - 如果选择"抓取最新10条"或"抓取全部历史",在输入框中填写公众号的**名称**或**微信号**(建议使用公众号全名,搜索成功率更高) - 如果选择"抓取指定链接",在输入框中填写文章的完整链接 4. **开始执行**:点击"开始执行任务"按钮 5. **查看进度**:在状态栏中查看任务执行进度 6. **完成操作**:任务完成后,爬取的内容会自动复制到剪贴板,同时会显示成功提示 7. **粘贴使用**:在需要使用爬取内容的地方(如文本编辑器、Excel等),使用Ctrl+V粘贴即可 ### 示例操作 **示例1:抓取上外北外滩学校公众号的最新10篇文章** 0. 前提:登录公众号,并停留在公众号后台首页 1. 选择"抓取最新10条"模式 2. 输入公众号“SNBS-HK”或者"上外北外滩学校"(公众号全名) 3. 点击"开始执行任务" 4. 等待任务完成,内容会自动复制到剪贴板 **示例2:抓取指定文章** 1. 选择"抓取指定链接"模式 2. 输入文章链接,如"https://mp.weixin.qq.com/s/HUVDdlVPAlozRSbND0T2CA" 3. 点击"开始执行任务" 4. 等待任务完成,内容会自动复制到剪贴板 ### 常见问题处理 - **无法获取Token**:刷新微信公众号后台页面后重试 - **找不到公众号**:尝试使用公众号全名,或确保当前就在微信公众号后台页面 - **请求过于频繁**:微信后台限制了请求频率,请5分钟后再试 - **内容提取失败**:文章可能已被删除或权限受限 ## 注意事项 - 首次安装时,Chrome可能会显示安全警告,提示"该扩展程序未列在 Chrome 应用商店中",这是正常现象 - 点击"详细信息"并开启"允许来自该来源的扩展"选项即可完成安装 - 本扩展为本地开发版本,尚未发布到Chrome应用商店 ## 更新扩展 1. **更新代码**: - 如果使用Git克隆,进入项目目录并运行 `git pull` - 如果使用ZIP下载,重新下载最新ZIP文件并解压覆盖 2. **重新加载**:在扩展管理页面,点击扩展卡片上的"刷新"按钮 3. **验证更改**:扩展会立即更新,反映最新的修改 ## 卸载扩展 1. **进入扩展管理页面**:在 `chrome://extensions/` 页面 2. **找到扩展**:在扩展列表中找到"MP Content Assistant" 3. **点击移除**:点击扩展卡片上的"移除"按钮 4. **确认卸载**:在弹出的确认对话框中点击"移除"