1回答

0收藏

如何用nginx限制屏蔽恶意搜索引擎爬虫禁止抓取网站?

系统运维 系统运维 48 人阅读 | 1 人回复 | 2024-05-05

本帖最后由 求知者 于 2024-5-5 15:56 编辑

如何用nginx限制屏蔽搜索引擎爬虫访问,禁止蜘蛛抓取网站?
"打赏他人,曝光自己,利他利我"
还没有人打赏,支持一下

回答|共 1 个

大神

发表于 2024-5-5 18:13:54 | 显示全部楼层


一般修改nginx.conf文件,
宝塔面板路径:panel/vhost/nginx/www.dadu.xyz.conf(www.dadu.xyz为自己的网站,请自行修改)

  1. #禁止Scrapy等爬虫工具的抓取
  2. if ($http_user_agent ~* "Scrapy|Sogou web spider|Baiduspider") {
  3.   return 403;
  4. }
  5. #禁止指定UA及UA为空的访问
  6. if ($http_user_agent ~ "FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|LinkpadBot|Ezooms|^$" )
  7. {
  8.   return 403;
  9. }
  10. #禁止非GET|HEAD|POST方式的抓取
  11. if ($request_method !~ ^(GET|HEAD|POST)$) {
  12.   return 403;
  13. }
复制代码

没有人用的低版本配置(一般是伪装成真实用户)
  1. if ($http_user_agent ~ "Mozilla/4.0\ \(compatible;\ MSIE\ 6.0;\ Windows\ NT\ 5.1;\ SV1;\ .NET\ CLR\ 1.1.4322;\ .NET\ CLR\ 2.0.50727\)") {
  2.    return 404;
  3. }
复制代码


相关教程:
【大全】恶意User-Agent过滤列表Nginx/Apache屏蔽蜘蛛爬虫

还没有人打赏,支持一下
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则