Add university scraper system with backend, frontend, and configs

- Add src/university_scraper module with scraper, analyzer, and CLI - Add backend FastAPI service with API endpoints and database models - Add frontend React app with university management pages - Add configs for Harvard, Manchester, and UCL universities - Add artifacts with various scraper implementations - Add Docker compose configuration for deployment - Update .gitignore to exclude generated files 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2025-12-22 15:25:08 +08:00
parent 2714c8ad5c
commit 426cf4d2cd
75 changed files with 13527 additions and 2 deletions
--- a/任务1.txt
+++ b/任务1.txt
@ -1,4 +1,8 @@
 构建一个自动化生成代码的agent，给定一个海外大学官网的网址，生成一套或者说一个python脚本能够爬取这个大学各级学院下的所有硕士项目的网址 和 硕士项目中各导师个人信息的网址
 agent系统使用 https://docs.agno.com/
 然后其中的浏览器自动化使用playwright
-使用的python工具库是，uv、ruff、ty，使用这三个构建项目。
+使用的python工具库是，uv、ruff、ty，使用这三个构建项目。
+另外还需要研究一个方案：
+当前生成的爬虫脚本还需要在 Python 环境中手动执行。我们希望实现的效果：生成的脚本可以存到数据库（你研究一下是存在哪里好），我们的目的是存到云端或者服务器上，后续我们可以通过接口来调用生成的脚本去爬取。
+理想情况下我们有一个页面，页面上有一个输入栏，用来输入要生成爬虫脚本的学校，然后点击“一键生成爬虫脚本”后，由我们的 agent 自动生成脚本。生成完成后会跳转到该学校的管理页面，页面上可以点击“一键运行爬虫脚本”来抓取对应项目和老师的一面数据。爬取完毕后，我们可以在页面上检查和验证爬虫抓取到的数据。
+目的是做成没有任何电脑知识的普通人也能操作的一个系统。