# 英国高校模板库 该目录存放针对英国大学常见站点结构的 ScraperConfig 模板片段,目标是让生成/调度脚本能够快速套用成熟的学院、项目、导师配置,并保持与 `src/university_scraper` 中的最新能力同步。 ## 使用方式 1. 复制需要的模板文件到 `configs/.yaml`,并根据该学校的实际信息替换占位符(域名、学院 URL、Research Explorer 组织 slug 等)。 2. 调整 `schools.static_list` 中的学院列表: - `keywords`:用于自动将项目聚类到学院; - `faculty_pages`:定义学院级导师目录(支持 `extract_method: table|links|research_explorer`、滚动/点击更多、独立请求参数)。 3. 根据学校的课程导航方式,补全 `programs.paths_to_try`、`link_patterns`、`selectors` 与请求设置。 4. `faculty.discovery_strategies` 推荐至少包含: - `link_in_page`:从项目页寻找“People/Faculty”链接; - `url_pattern`:补充常见 URL 模式; - `school_directory`: true:复用 `faculty_pages` 中的导师目录,将其按关键词分发到项目层。 5. 运行 `python -m src.university_scraper.cli run --config configs/.yaml --output output/.json`(或在 Web 端触发任务)验证,并将本地结果与旧版对比。 ## 模板列表 | 文件 | 适用场景 | |------|----------| | `uk_research_explorer_template.yaml` | 大多数使用 Pure Portal / Research Explorer 的英国大学(如曼大、UCL、帝国理工的人文社科学院)。 | | `uk_department_directory_template.yaml` | 传统院系官网列出 HTML Staff Directory 的学院(如各理工学院官网、独立学院站点)。 | 后续若发现新的页面类型(例如 SharePoint 列表、嵌入式 API 等),请在此目录增加新的模板文件,并在本 README 中更新说明。