逝水年华 发表于 2025-4-27 18:35:46

宝塔的安全-地区规则拦截不住恶意爬虫啊

完全拦截不住,
后面我在网站的配置文件里面加了
if ($http_user_agent ~* "TelegramBot|DataForSeoBot|YandexBot|PetalBot|DotBot|facebookexternalhit|AhrefsBot|MJ12bot|SemrushBot|Slurp|twiceler|Scrubby|Robozilla|GPTBot|facebook|Amazonbot") {
      return 403;




根据您提供的User-Agent拦截规则,结合相关技术规范和实践经验,该配置可实现基础防护,但需针对性优化。具体分析如下:
一、当前规则有效性评估1. ‌已覆盖的典型爬虫‌
✅ ‌AI类‌:GPTBot(OpenAI官方爬虫)5、facebookexternalhit(Meta旗下服务)✅ ‌搜索引擎‌:YandexBot(俄语搜索)、PetalBot(华为搜索)、Slurp(雅虎搜索)✅ ‌SEO工具‌:AhrefsBot、SemrushBot(流量分析爬虫)✅ ‌通用爬虫‌:DotBot、MJ12bot、DataForSeoBot(数据抓取类)
2. ‌潜在缺陷‌
❗ ‌伪装绕过风险‌:部分爬虫(如Amazonbot)会伪装成普通浏览器UA(如Mozilla/5.0)4❗ ‌遗漏新型爬虫‌:未包含Google-Extended(谷歌AI训练专用爬虫)等新标识4❗ ‌误伤合法服务‌:TelegramBot可能包含Telegram的网页预览功能,拦截可能导致社交分享异常3
二、优化建议方案1. ‌UA名单分层处理‌nginxCopy Code


















# 高风险AI/数据爬虫(强制拦截)if ($http_user_agent ~* "GPTBot|facebookexternalhit|DataForSeoBot|DotBot|AhrefsBot|MJ12bot|SemrushBot|Scrubby") {    return 403;}# 选择性拦截(根据业务需求启用)if ($http_user_agent ~* "YandexBot|PetalBot|Slurp|twiceler|Robozilla|Amazonbot") {    # 先记录日志再拦截    access_log /www/wwwlogs/block_bots.log;    return 403;}# 需谨慎处理的UA(建议监控)if ($http_user_agent ~* "TelegramBot") {    # 允许访问但限制速率    limit_req zone=anti_spider burst=5;}

原理说明:
对高威胁爬虫直接拦截,避免资源消耗15对可能影响用户体验的UA(如TelegramBot)采用限速而非封禁6
2. ‌补充防护措施‌
‌动态UA检测‌:在Nginx中增加模糊匹配规则,拦截含Bot/1.0; +http等爬虫特征片段4nginxCopy Code




if ($http_user_agent ~* "bot/[\d\.]+; \+\https?://") {    return 403;}

‌IP黑名单联动‌:将高频请求IP自动加入防火墙黑名单(需配合宝塔「计划任务」实现)8
三、验证与监控

[*]‌日志分析工具‌
使用grep命令实时监控拦截记录:bashCopy Code


tail -f /www/wwwlogs/access.log | grep ' 403 '‌误拦截排查‌
在宝塔面板开启「访问限制」白名单功能,允许管理员IP绕过检测7
四、替代方案推荐(增强版)方案类型实施方式优势
‌UA+IP双验证‌结合geoip模块拦截境外IP段1防止国内服务器伪装请求
‌行为分析‌通过limit_req模块限制单IP每秒请求数≤36对抗UA伪装的慢速爬虫
‌动态挑战‌对可疑请求返回JS验证码(需安装Nginx-Lua模块)高效识别真人用户与脚本

独家记忆 发表于 2025-4-27 18:36:11

没在网站配置设置过都是防火墙UA黑名单设置然后记录显示返回444

IT618发布 发表于 2025-4-27 18:36:29

有钱上百度云防护 可以针对性拦截爬虫 也可以买在企业版BOT防护

婷姐 发表于 2025-4-27 18:37:12

买了会员,让客服帮你调试,栏不了,让他退钱
页: [1]
查看完整版本: 宝塔的安全-地区规则拦截不住恶意爬虫啊