Add university scraper system with backend, frontend, and configs
- Add src/university_scraper module with scraper, analyzer, and CLI - Add backend FastAPI service with API endpoints and database models - Add frontend React app with university management pages - Add configs for Harvard, Manchester, and UCL universities - Add artifacts with various scraper implementations - Add Docker compose configuration for deployment - Update .gitignore to exclude generated files 🤖 Generated with [Claude Code](https://claude.com/claude-code) Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
This commit is contained in:
6
任务1.txt
6
任务1.txt
@ -1,4 +1,8 @@
|
||||
构建一个自动化生成代码的agent,给定一个海外大学官网的网址,生成一套或者说一个python脚本能够爬取这个大学各级学院下的所有硕士项目的网址 和 硕士项目中各导师个人信息的网址
|
||||
agent系统使用 https://docs.agno.com/
|
||||
然后其中的浏览器自动化使用playwright
|
||||
使用的python工具库是,uv、ruff、ty,使用这三个构建项目。
|
||||
使用的python工具库是,uv、ruff、ty,使用这三个构建项目。
|
||||
另外还需要研究一个方案:
|
||||
当前生成的爬虫脚本还需要在 Python 环境中手动执行。我们希望实现的效果:生成的脚本可以存到数据库(你研究一下是存在哪里好),我们的目的是存到云端或者服务器上,后续我们可以通过接口来调用生成的脚本去爬取。
|
||||
理想情况下我们有一个页面,页面上有一个输入栏,用来输入要生成爬虫脚本的学校,然后点击“一键生成爬虫脚本”后,由我们的 agent 自动生成脚本。生成完成后会跳转到该学校的管理页面,页面上可以点击“一键运行爬虫脚本”来抓取对应项目和老师的一面数据。爬取完毕后,我们可以在页面上检查和验证爬虫抓取到的数据。
|
||||
目的是做成没有任何电脑知识的普通人也能操作的一个系统。
|
||||
Reference in New Issue
Block a user