Files
yangxiaoyu-crypto 426cf4d2cd Add university scraper system with backend, frontend, and configs
- Add src/university_scraper module with scraper, analyzer, and CLI
- Add backend FastAPI service with API endpoints and database models
- Add frontend React app with university management pages
- Add configs for Harvard, Manchester, and UCL universities
- Add artifacts with various scraper implementations
- Add Docker compose configuration for deployment
- Update .gitignore to exclude generated files

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2025-12-22 15:25:08 +08:00

8 lines
1.2 KiB
Plaintext
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

构建一个自动化生成代码的agent给定一个海外大学官网的网址生成一套或者说一个python脚本能够爬取这个大学各级学院下的所有硕士项目的网址 和 硕士项目中各导师个人信息的网址
agent系统使用 https://docs.agno.com/
然后其中的浏览器自动化使用playwright
使用的python工具库是uv、ruff、ty使用这三个构建项目。
另外还需要研究一个方案:
当前生成的爬虫脚本还需要在 Python 环境中手动执行。我们希望实现的效果:生成的脚本可以存到数据库(你研究一下是存在哪里好),我们的目的是存到云端或者服务器上,后续我们可以通过接口来调用生成的脚本去爬取。
理想情况下我们有一个页面,页面上有一个输入栏,用来输入要生成爬虫脚本的学校,然后点击“一键生成爬虫脚本”后,由我们的 agent 自动生成脚本。生成完成后会跳转到该学校的管理页面,页面上可以点击“一键运行爬虫脚本”来抓取对应项目和老师的一面数据。爬取完毕后,我们可以在页面上检查和验证爬虫抓取到的数据。
目的是做成没有任何电脑知识的普通人也能操作的一个系统。