来个技术贴吧【防采集】效果有98%!
网站被采集 应该是所有站长最烦的一件事了!先不说网站内容是否优质!
单说服务器被搞崩,
这个最烦!
就比如很多小站,内容也是采集的,
或者AI的,他根本不怕你复制他几篇内容!
但是你上采集,让他网站打开变的很慢,甚至他不开!
他绝对点起一根烟,打开宝塔面板,然后看着标红的服务器图标,开始骂娘!
果不然,不是不报,时候未到!轮到采集我了!4核8G的服务器都被采集到打开巨慢!
经过多轮的斗智斗勇,服务器的负载状态终于流畅了!
讲一下思路吧!大佬们可以举一反三!效果更好的也请分享给我哈!
我们要做一个【蜜罐陷阱】也就是【隐藏诱饵链接】
比如:
<a href="/rinidaye" style="display:none;">Rinidaye Link</a>监控访问此链接的IP并自动封禁。
Nginx配置:
# 蜜罐陷阱路径location = /rinidaye { # 记录访问日志(单独文件便于分析) access_log /var/log/nginx/rinidaye.log; # 返回404或伪装成正常页面(避免采集器察觉异常) return 404;}
添加隐藏诱饵链接
在网页的HTML代码中插入一个肉眼不可见但爬虫能抓取的链接。
代码:
<!-- 通过CSS隐藏链接,普通用户无法看到 --><a href="/rinidaye" style="display: none; opacity: 0; position: absolute; left: -9999px;">Rinidaye Link</a>
细节:
使用 display: none 或 opacity: 0 彻底隐藏链接。
避免在链接中写入有意义的内容(如“点击这里”),防止被逆向分析。
可随机生成多个隐藏链接路径(如 /rinidaniang123),提高迷惑性。
自动封禁访问蜜罐的IP
通过Shell脚本分析蜜罐日志,自动封禁触发陷阱的IP。
脚本示例 (block_rinidaye_ips.sh):
#!/bin/bash# 蜜罐日志路径LOG_FILE="/var/log/nginx/rinidaye.log"# 封禁IP列表BLOCKED_IPS="/tmp/rinidaye_ips.txt"# 提取过去5分钟内访问蜜罐的IPawk -vDate="$(date -d '5 minutes ago' +[%d/%b/%Y:%H:%M:%S)" '($4 > Date)' $LOG_FILE | awk '{print $1}' | sort | uniq > $BLOCKED_IPS# 遍历IP并封禁while read ip; do # 检查是否已封禁 if ! iptables -C INPUT -s $ip -j DROP 2>/dev/null; then iptables -A INPUT -s $ip -j DROP echo "[$(date)] 封禁IP: $ip" >> /var/log/rinidaye_block.log fidone < $BLOCKED_IPS配置宝塔计划任务
在宝塔面板中添加定时任务,定期执行封禁脚本。
操作步骤:
进入宝塔面板 → 计划任务 → 添加任务。
任务类型选择 Shell脚本。
执行周期设置为 每3分钟。
脚本内容粘贴上述 block_rinidaye_ips.sh 的代码。
保存并测试执行。
手动测试蜜罐链接:
curl -I http://你的域名/rinidaye
预期结果:返回 404 Not Found,且IP会被脚本封禁。
查看封禁日志:
cat /var/log/rinidaye_block.log
避免误伤:
确保蜜罐链接完全隐藏,正常用户才不会触发。
定期更换蜜罐路径,如:
/rinidaye-2025
/rinidaye-2026
/rinidaniang
/riniquanjia
或者多设置一些连接,随机显示!不要让那些老表找到规律!
定期清理蜜罐日志,已经封完ip的日志就没什么用了,把磁盘空间释放出来。
通过这种方式,阻断采集,且对正常用户无感知。
重点:把搜索引擎的ip段加到白名单!如百毒,斗狗,神婆等!
很久没在社区看到技术贴了!那我来发一个!
抱怨环境,不如多些思路,然后埋头苦干!
会收录方面的大佬,我很想和你做朋友啊! 先占位,留着编辑! 没理解啊,采集根本不会访问到你这个链接啊,正常采集就是列表页,并且按规则取啊,你这个明显不是列表页或者文章页啊,只有爬虫才会顺着链接爬 想法不错,不过搜索引擎的IP不是你能加的完的,可谓是伤敌一千自损八百。 另外,采集防范很简单的啊,按IP+UA为单位判断,设置CC规则,60秒超过20次,肯定是不正常访问啊,直接封IP 学习一下,有含量 这个我设置了 我是60秒25次(列表一页的文章是25)你在把这个加到列表的底部,那些AI爬虫也是可以搞掉的!
只是搜素引擎白名单比较复杂,这个要自己收集,我加白的名单 ip段+独立ip 大几千个了 谢谢分享,有时间研究 ***内容可能违规暂时被隐藏*** 内容可能违规暂时被隐藏
扒点文章其实并不可怕,原本也是到处采集的文章,
开几十线程,直接采到服务器都打不开!
就比较不人性!
页:
[1]
2