校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃

主頁 > 知識庫 > Nginx反爬蟲策略,防止UA抓取網站

Nginx反爬蟲策略,防止UA抓取網站

熱門標簽:云南云電銷機器人招商 400 電話 申請費用 江蘇自動外呼系統一般多少錢 比較穩定的外呼系統 信貸電銷機器人系統 鸚鵡螺號航海地圖標注時間 長沙回撥外呼系統 山東電信外呼系統靠譜嗎 ai電話機器人營銷

新增反爬蟲策略文件:

vim /usr/www/server/nginx/conf/anti_spider.conf

文件內容

#禁止Scrapy等工具的抓取 
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) { 
   return 403; 
} 
#禁止指定UA及UA為空的訪問 
if ($http_user_agent ~ "WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|Jullo|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|Java|Feedly|Apache-HttpAsyncClient|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|BOT/0.1|YandexBot|FlightDeckReports|Linguee Bot|^$" ) { 
   return 403;        
} 
#禁止非GET|HEAD|POST方式的抓取 
if ($request_method !~ ^(GET|HEAD|POST)$) { 
  return 403; 
}
#屏蔽單個IP的命令是
#deny 123.45.6.7
#封整個段即從123.0.0.1到123.255.255.254的命令
#deny 123.0.0.0/8
#封IP段即從123.45.0.1到123.45.255.254的命令
#deny 124.45.0.0/16
#封IP段即從123.45.6.1到123.45.6.254的命令是
#deny 123.45.6.0/24
# 以下IP皆為流氓
#deny 58.95.66.0/24;

配置使用

在站點的server中引入

# 反爬蟲  
include /usr/www/server/nginx/conf/anti_spider.conf

最后重啟nginx

校驗是否有效

模擬YYSpider

λ curl -X GET -I -A 'YYSpider' https://www.myong.top
HTTP/1.1 200 Connection established
HTTP/2 403
server: marco/2.11
date: Fri, 20 Mar 2020 08:48:50 GMT
content-type: text/html
content-length: 146
x-source: C/403
x-request-id: 3ed800d296a12ebcddc4d61c57500aa2

模擬百度Baiduspider

λ curl -X GET -I -A 'BaiduSpider' https://www.myong.top
HTTP/1.1 200 Connection established
HTTP/2 200
server: marco/2.11
date: Fri, 20 Mar 2020 08:49:47 GMT
content-type: text/html
vary: Accept-Encoding
x-source: C/200
last-modified: Wed, 18 Mar 2020 13:16:50 GMT
etag: "5e721f42-150ce"
x-request-id: e82999a78b7d7ea2e9ff18b6f1f4cc84

爬蟲常見的User-Agent

FeedDemon       內容采集 
BOT/0.1 (BOT for JCE) sql注入 
CrawlDaddy      sql注入 
Java         內容采集 
Jullo         內容采集 
Feedly        內容采集 
UniversalFeedParser  內容采集 
ApacheBench      cc攻擊器 
Swiftbot       無用爬蟲 
YandexBot       無用爬蟲 
AhrefsBot       無用爬蟲 
YisouSpider      無用爬蟲(已被UC神馬搜索收購,此蜘蛛可以放開!) 
jikeSpider      無用爬蟲 
MJ12bot        無用爬蟲 
ZmEu phpmyadmin    漏洞掃描 
WinHttp        采集cc攻擊 
EasouSpider      無用爬蟲 
HttpClient      tcp攻擊 
Microsoft URL Control 掃描 
YYSpider       無用爬蟲 
jaunty        wordpress爆破掃描器 
oBot         無用爬蟲 
Python-urllib     內容采集 
Indy Library     掃描 
FlightDeckReports Bot 無用爬蟲 
Linguee Bot      無用爬蟲

以上就是Nginx反爬蟲策略,防止UA抓取網站的詳細內容,更多關于Nginx 反爬蟲的資料請關注腳本之家其它相關文章!

標簽:衡陽 齊齊哈爾 亳州 嘉興 運城 澳門 拉薩 烏海

巨人網絡通訊聲明:本文標題《Nginx反爬蟲策略,防止UA抓取網站》,本文關鍵詞  Nginx,反,爬蟲,策略,防止,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Nginx反爬蟲策略,防止UA抓取網站》相關的同類信息!
  • 本頁收集關于Nginx反爬蟲策略,防止UA抓取網站的相關信息資訊供網民參考!
  • 推薦文章
    主站蜘蛛池模板: 蓬莱市| 同德县| 台东县| 沽源县| 赣榆县| 乡宁县| 开阳县| 庆云县| 库尔勒市| 青阳县| 二连浩特市| 凉城县| 繁昌县| 武清区| 南昌县| 额尔古纳市| 岐山县| 将乐县| 滨海县| 扶风县| 和龙市| 邯郸市| 昆明市| 闸北区| 阜新市| 台中县| 北碚区| 会东县| 开鲁县| 霍山县| 岑巩县| 邯郸县| 共和县| 忻城县| 通城县| 措勤县| 万山特区| 平潭县| 长海县| 大安市| 太白县|