Files
University-Playwright-Codeg…/configs/templates/README.md
yangxiaoyu-crypto 426cf4d2cd Add university scraper system with backend, frontend, and configs
- Add src/university_scraper module with scraper, analyzer, and CLI
- Add backend FastAPI service with API endpoints and database models
- Add frontend React app with university management pages
- Add configs for Harvard, Manchester, and UCL universities
- Add artifacts with various scraper implementations
- Add Docker compose configuration for deployment
- Update .gitignore to exclude generated files

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2025-12-22 15:25:08 +08:00

1.8 KiB
Raw Blame History

英国高校模板库

该目录存放针对英国大学常见站点结构的 ScraperConfig 模板片段,目标是让生成/调度脚本能够快速套用成熟的学院、项目、导师配置,并保持与 src/university_scraper 中的最新能力同步。

使用方式

  1. 复制需要的模板文件到 configs/<university>.yaml,并根据该学校的实际信息替换占位符(域名、学院 URL、Research Explorer 组织 slug 等)。
  2. 调整 schools.static_list 中的学院列表:
    • keywords:用于自动将项目聚类到学院;
    • faculty_pages:定义学院级导师目录(支持 extract_method: table|links|research_explorer、滚动/点击更多、独立请求参数)。
  3. 根据学校的课程导航方式,补全 programs.paths_to_trylink_patternsselectors 与请求设置。
  4. faculty.discovery_strategies 推荐至少包含:
    • link_in_page从项目页寻找“People/Faculty”链接
    • url_pattern:补充常见 URL 模式;
    • school_directory: true复用 faculty_pages 中的导师目录,将其按关键词分发到项目层。
  5. 运行 python -m src.university_scraper.cli run --config configs/<university>.yaml --output output/<name>.json(或在 Web 端触发任务)验证,并将本地结果与旧版对比。

模板列表

文件 适用场景
uk_research_explorer_template.yaml 大多数使用 Pure Portal / Research Explorer 的英国大学如曼大、UCL、帝国理工的人文社科学院
uk_department_directory_template.yaml 传统院系官网列出 HTML Staff Directory 的学院(如各理工学院官网、独立学院站点)。

后续若发现新的页面类型(例如 SharePoint 列表、嵌入式 API 等),请在此目录增加新的模板文件,并在本 README 中更新说明。