校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃

主頁 > 知識庫 > Python中常見的反爬機制及其破解方法總結

Python中常見的反爬機制及其破解方法總結

熱門標簽:騰訊地圖標注沒法顯示 商家地圖標注海報 地圖標注自己和別人標注區別 ai電銷機器人的優勢 孝感營銷電話機器人效果怎么樣 聊城語音外呼系統 打電話機器人營銷 南陽打電話機器人 海外網吧地圖標注注冊

一、常見反爬機制及其破解方式

封禁IP,使用cookie等前面文章已經講過

現在主要將下面的:

​ ~ 驗證碼
​ —> 文字驗證碼 —> OCR(光學文字識別)—> 接口 / easyocr
​ 程序自己解決不了的問題就可以考慮使用三方接口(付費/免費)
​ —> 行為驗證碼 —> 超級鷹
​ ~ 手機號+短信驗證碼
​ —> 接碼平臺
​ ~ 動態內容
​ —> JavaScript逆向 —> 找到提供數據的API接口
​ —> 手機抓接口 —> 抓包工具(Charles / Fiddler)
​ —> Selenium直接模擬瀏覽器操作獲取動態內容
​ ~ find_element_by_xxx / find_elements_by_xxx
​ ~ page_source —> 獲取包含動態內容的網頁源代碼
​ —> JavaScript加密和混淆技術 —> 讀懂JavaScript是反反爬的前提
​ ~ 字體反爬 / 內容來自于摳圖
​ —> 例子

bytes —> 不變字節串 —> 二進制 —> BytesIO
str —> 不變字符串 —> 可閱讀的字符 —> StringIO

二、調用三方API接口數據(天行數據)

import requests

for page in range(1, 6):
    response = requests.get(
        'http://api.tianapi.com/topnews/index',
        params={
            'key': 'd5eace66dccd771e36767ce3563efa09',
            'page': page,
            'num': 20,
            'word': '華為',
            'src': '人民日報'
        }
    )
    result = response.json()
    for news in result['newslist']:
        print(news['title'])
        print(news['url'])

三、OCR(光學文字識別)庫

python 自帶的easyocr庫

import easyocr
reader = easyocr.Reader(['ch_sim', 'en'], gpu=False)
print(reader.readtext('./files/captcha.jpg', detail=0))

例子:阿里云郵箱自動登陸

import io

import easyocr

from PIL import Image
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions
from selenium.webdriver.support.wait import WebDriverWait

browser = webdriver.Chrome()
browser.set_window_size(1280, 960)
browser.get('http://mail.1000phone.com/')
# 隱式等待(下面的方法在工作時如果取不到就等10秒)
browser.implicitly_wait(10)
# 顯式等待
wait = WebDriverWait(browser, 10)
wait.until(expected_conditions.presence_of_element_located((By.CSS_SELECTOR, '.login_panel_iframe')))
iframe1 = browser.find_element_by_css_selector('.login_panel_iframe')
# 記錄iframe1的位置(相對位置)
x1, y1 = iframe1.location['x'], iframe1.location['y']
# Chrome對象的switch_to屬性的frame方法,可以從頁面切換到iframe中
browser.switch_to.frame(iframe1)
iframe2 = browser.find_element_by_css_selector('#ding-login-iframe')
x2, y2 = iframe2.location['x'], iframe2.location['y']
browser.switch_to.frame(iframe2)
username_input = browser.find_element_by_css_selector('#username')
# 模擬用戶輸入
username_input.send_keys('xx@1000phone.com')
password_input = browser.find_element_by_css_selector('#password')
password_input.send_keys('xxxxx!!')
# 創建一個等待對象
wait = WebDriverWait(browser, 10)
wait.until(expected_conditions.element_to_be_clickable((By.CSS_SELECTOR, '#login_checkcode_ico')))
captcha_img = browser.find_element_by_css_selector('#login_checkcode_ico')
# WebElement對象的size屬性代表元素寬度和高度,location屬性代表元素在窗口中的位置
size, location = captcha_img.size, captcha_img.location
x3, y3, width, height = location['x'], location['y'], size['width'], size['height']
# 截取整個瀏覽器窗口的圖片獲得圖片的二進制數據
image_data = browser.get_screenshot_as_png()
# bytes(只讀字節串) ----> io.BytesIO(可寫字節串)---> getvalue() ---> bytes
# str(只讀字符串) ----> io.StringIO(可寫字符串)---> getvalue() ---> str
browser_image = Image.open(io.BytesIO(image_data))
# 從截圖上剪裁出驗證碼的圖片
x, y = x1 + x2 + x3, y1 + y2 + y3
# Windows系統的寫法 ---> 如果截圖有問題就把坐標寫死
# print(x, y, width, height)
checkcode_image = browser_image.crop((x * 1.25, y * 1.25, (x + width) * 1.25, (y + height) * 1.25))
# macOS系統的寫法
# checkcode_image = browser_image.crop((x * 2, y * 2, (x + width) * 2, (y + height) * 2))
checkcode_image.save('result.png')
# 通過easyocr做光學文字識別
reader = easyocr.Reader(['en'], gpu=False)
code = reader.readtext('result.png', detail=0)[0]
# 將識別出的驗證碼輸入文本框
checkcode_input = browser.find_element_by_css_selector('#login_checkcode')
checkcode_input.send_keys(code)
login_button = browser.find_element_by_css_selector('#login_submit_btn')
# 模擬用戶點擊
login_button.click()

四、第三方打碼平臺(超級鷹打碼平臺)

補充:需要使用python 自帶pillow庫

"""
Pillow庫 ---> PIL ---> Python Image Library
"""
from PIL import Image, ImageFilter

# 加載圖像
guido_image = Image.open('guido.jpg')
# 剪裁
guido_image.crop((80, 40, 310, 350)).show()
# 濾鏡
guido_image.filter(ImageFilter.CONTOUR).show()
# 縮略圖
guido_image.thumbnail((125, 185))
# 顯示圖像
guido_image.show()

編寫超級鷹打碼平臺類

from hashlib import md5

import requests


class ChaojiyingClient:

    def __init__(self, username, password, soft_id):
        self.username = username
        password = password.encode('utf8')
        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    def post_pic(self, image_data, code_type):
        """
        image_data: 圖片字節
        code_type: 驗證碼類型 參考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': code_type,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', image_data)}
        response = requests.post(
            url='http://upload.chaojiying.net/Upload/Processing.php',
            data=params,
            files=files,
            headers=self.headers
        )
        return response.json()

    # 超級鷹錯誤反饋函數(僅用于給超級鷹平臺反饋)
    def report_error(self, im_id):
        """
        im_id:報錯題目的圖片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()


if __name__ == '__main__':
    chaojiying = ChaojiyingClient('賬戶', '密碼x', 'ID')  # 用戶中心>>軟件ID 生成一個替換 96001
    with open('img.png', 'rb') as file:
        image_data = file.read()  # 本地圖片文件路徑 來替換 a.jpg 有時WIN系統須要//
        print(chaojiying.post_pic(image_data, 1902))  # 1902 驗證碼類型  官方網站>>價格體系 3.4+版 print 后要加()

例子:使用超級鷹進行阿里云郵箱自動登陸

import io

import easyocr

from PIL import Image
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions
from selenium.webdriver.support.wait import WebDriverWait

from chaojiying import ChaojiyingClient

browser = webdriver.Chrome()
browser.set_window_size(1280, 960)
browser.get('http://mail.1000phone.com/')
# 隱式等待(下面的方法在工作時如果取不到就等10秒)
browser.implicitly_wait(10)
# 顯式等待
wait = WebDriverWait(browser, 10)
wait.until(expected_conditions.presence_of_element_located((By.CSS_SELECTOR, '.login_panel_iframe')))
iframe1 = browser.find_element_by_css_selector('.login_panel_iframe')
# 記錄iframe1的位置(相對位置)
x1, y1 = iframe1.location['x'], iframe1.location['y']
# Chrome對象的switch_to屬性的frame方法,可以從頁面切換到iframe中
browser.switch_to.frame(iframe1)
iframe2 = browser.find_element_by_css_selector('#ding-login-iframe')
x2, y2 = iframe2.location['x'], iframe2.location['y']
browser.switch_to.frame(iframe2)
username_input = browser.find_element_by_css_selector('#username')
# 模擬用戶輸入
username_input.send_keys('xxxx.com')
password_input = browser.find_element_by_css_selector('#password')
password_input.send_keys('xxxx!!')
# 創建一個等待對象
wait = WebDriverWait(browser, 10)
wait.until(expected_conditions.element_to_be_clickable((By.CSS_SELECTOR, '#login_checkcode_ico')))
captcha_img = browser.find_element_by_css_selector('#login_checkcode_ico')
# WebElement對象的size屬性代表元素寬度和高度,location屬性代表元素在窗口中的位置
size, location = captcha_img.size, captcha_img.location
x3, y3, width, height = location['x'], location['y'], size['width'], size['height']
# 截取整個瀏覽器窗口的圖片獲得圖片的二進制數據
image_data = browser.get_screenshot_as_png()
# bytes(只讀字節串) ----> io.BytesIO(可寫字節串)---> getvalue() ---> bytes
# str(只讀字符串) ----> io.StringIO(可寫字符串)---> getvalue() ---> str
browser_image = Image.open(io.BytesIO(image_data))
# 從截圖上剪裁出驗證碼的圖片
x, y = x1 + x2 + x3, y1 + y2 + y3
# Windows系統的寫法 ---> 如果截圖有問題就把坐標寫死
# print(x, y, width, height)
checkcode_image = browser_image.crop((x * 1.25, y * 1.25, (x + width) * 1.25, (y + height) * 1.25))
# macOS系統的寫法
# checkcode_image = browser_image.crop((x * 2, y * 2, (x + width) * 2, (y + height) * 2))
checkcode_image.save('result.png')
# 通過超級鷹打碼平臺打碼
chaojiying = ChaojiyingClient('賬戶', '密碼', 'ID')
with open('result.png', 'rb') as file:
    image_data = file.read()
    result_dict = chaojiying.post_pic(image_data, 1902)
# 將識別出的驗證碼輸入文本框
checkcode_input = browser.find_element_by_css_selector('#login_checkcode')
checkcode_input.send_keys(result_dict['pic_str'])
login_button = browser.find_element_by_css_selector('#login_submit_btn')
# 模擬用戶點擊
login_button.click()

五、通過接碼平臺接收手機驗證碼(隱私短信平臺)

通過隱私短信平臺接收驗證碼(免費)

import re

import bs4
import requests

pattern = re.compile(r'\d{4,6}')

resp = requests.get('https://www.yinsiduanxin.com/china-phone-number/verification-code-16521686439.html')
soup = bs4.BeautifulSoup(resp.text, 'html.parser')
# print(resp.text)
td = soup.select_one('body > div.container > div:nth-child(4) > div:nth-child(3) > div.main > div.layui-row > table > tbody > tr:nth-child(1) > td:nth-child(2)')
results = pattern.findall(td.text)
print(results[0])

到此這篇關于Python中常見的反爬機制及其破解方法總結的文章就介紹到這了,更多相關Python反爬機制及其破解內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • python 常見的反爬蟲策略
  • Python常見反爬蟲機制解決方案
  • python解決網站的反爬蟲策略總結
  • python中繞過反爬蟲的方法總結
  • Python反爬蟲技術之防止IP地址被封殺的講解
  • Python爬蟲和反爬技術過程詳解

標簽:楊凌 六盤水 聊城 牡丹江 迪慶 揚州 南寧 撫州

巨人網絡通訊聲明:本文標題《Python中常見的反爬機制及其破解方法總結》,本文關鍵詞  Python,中,常見,的,反爬,機制,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python中常見的反爬機制及其破解方法總結》相關的同類信息!
  • 本頁收集關于Python中常見的反爬機制及其破解方法總結的相關信息資訊供網民參考!
  • 推薦文章
    校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃
    国产99久久精品| 欧美一区二区三区精品| 777午夜精品免费视频| 国产肉丝袜一区二区| 视频一区二区不卡| 在线视频一区二区三区| 欧美激情在线看| 久久av老司机精品网站导航| 欧美综合视频在线观看| 国产精品久久免费看| 韩国三级在线一区| 欧美日韩午夜在线| 亚洲免费高清视频在线| 成人av小说网| 久久精品一区八戒影视| 久久99国产精品免费| 欧美精品 国产精品| 亚洲综合偷拍欧美一区色| av电影一区二区| 国产精品久久久久天堂| 高清av一区二区| 久久精品一二三| 国产精品一区二区视频| 精品999久久久| 麻豆精品在线看| 欧美成人精品福利| 蜜臀久久99精品久久久画质超高清 | 日一区二区三区| 色综合中文字幕| 一区二区三区日韩欧美| 色综合久久久久综合99| 亚洲男人的天堂av| 欧美丝袜丝交足nylons| 亚洲1区2区3区视频| 欧美日韩一级视频| 日本欧美一区二区| 91精品啪在线观看国产60岁| 天天影视网天天综合色在线播放 | 大陆成人av片| 国产精品剧情在线亚洲| 99re6这里只有精品视频在线观看 99re8在线精品视频免费播放 | 成人激情黄色小说| 中文字幕制服丝袜一区二区三区 | 久久成人av少妇免费| 精品对白一区国产伦| 国产乱码精品一区二区三区av| 久久在线观看免费| 不卡的av在线播放| 亚洲自拍都市欧美小说| 日韩一区二区免费在线观看| 国产在线一区观看| 1区2区3区欧美| 欧美猛男男办公室激情| 麻豆91小视频| 国产精品不卡视频| 欧美酷刑日本凌虐凌虐| 国产成人无遮挡在线视频| 日韩理论片一区二区| 欧美日韩黄视频| 国产高清一区日本| 日本免费新一区视频| 久久噜噜亚洲综合| 欧美综合一区二区| 国产激情偷乱视频一区二区三区| 亚洲美女屁股眼交3| 精品久久久久av影院| 99久久精品免费看| 美女网站视频久久| 亚洲欧美成aⅴ人在线观看| 日韩天堂在线观看| 在线亚洲一区二区| 国产精品一二三区| 亚洲超碰97人人做人人爱| 国产清纯白嫩初高生在线观看91| 欧美丝袜第三区| 大桥未久av一区二区三区中文| 天堂av在线一区| 国产精品高潮呻吟| 欧美成人一区二区三区片免费| 91浏览器入口在线观看| 国产精品1024| 青娱乐精品在线视频| 亚洲精品老司机| 国产女人18毛片水真多成人如厕| 91精品国产综合久久久久久漫画| 成年人午夜久久久| 精品一区二区在线视频| 午夜亚洲福利老司机| 国产精品福利一区二区| 26uuu国产电影一区二区| 欧美日韩一区中文字幕| 一道本成人在线| 粉嫩av一区二区三区| 国产九色精品成人porny | 91麻豆精品国产91久久久使用方法 | 欧美丰满高潮xxxx喷水动漫| 成人亚洲一区二区一| 美国av一区二区| 五月天精品一区二区三区| 亚洲女同一区二区| 亚洲四区在线观看| 亚洲一区二区视频在线| 欧美激情在线观看视频免费| 亚洲精品在线观看视频| 精品99久久久久久| 久久久亚洲精华液精华液精华液| 精品日本一线二线三线不卡| 欧美一区二区三区免费视频| 欧美午夜不卡在线观看免费| 91美女在线观看| 日本伦理一区二区| 在线欧美一区二区| 欧洲激情一区二区| 欧美亚洲丝袜传媒另类| 在线观看免费亚洲| 欧美人妖巨大在线| 欧美精品v国产精品v日韩精品| 欧美日本一区二区| 日韩欧美高清在线| 26uuu色噜噜精品一区二区| 久久久久一区二区三区四区| 久久久精品蜜桃| 成人免费一区二区三区在线观看| 综合久久一区二区三区| 一区二区三区蜜桃| 天天免费综合色| 看片网站欧美日韩| 国产福利精品导航| 色哟哟亚洲精品| 欧美一区二区三区影视| 亚洲精品一区二区三区精华液| 国产亚洲视频系列| 亚洲人精品午夜| 青青草国产精品亚洲专区无| 国产一区二区三区观看| 成人av高清在线| 欧美日韩中字一区| 日韩一区二区麻豆国产| 26uuu久久天堂性欧美| 国产精品无码永久免费888| 亚洲日本青草视频在线怡红院 | 国产精品美女一区二区三区| 一区二区三区欧美| 捆绑紧缚一区二区三区视频| 豆国产96在线|亚洲| 欧美亚洲免费在线一区| 精品va天堂亚洲国产| 午夜精品久久久久久久蜜桃app| 日本三级亚洲精品| www.日韩大片| 日韩欧美一区电影| 亚洲天堂av老司机| 经典三级视频一区| 色综合久久久久久久久| 精品国产1区二区| 亚洲一级在线观看| 国产精品538一区二区在线| 色婷婷av久久久久久久| 精品久久久久99| 亚洲国产精品一区二区www | 秋霞电影网一区二区| 成人短视频下载| 日韩欧美精品在线视频| 亚洲男人都懂的| 国产成人免费在线| 91精品国产综合久久蜜臀| 中文字幕一区二区不卡| 精品一区二区三区av| 欧美色视频一区| 中文字幕一区二区在线观看| 久久av中文字幕片| 3atv一区二区三区| 亚洲欧洲中文日韩久久av乱码| 国产精品一区二区久久不卡| 欧美夫妻性生活| 亚洲第一成年网| 欧美综合欧美视频| 亚洲精品美腿丝袜| 91污片在线观看| 国产精品不卡在线| 成人高清免费在线播放| 久久久久久久久久电影| 久久99久久99| 日韩免费在线观看| 美女视频一区二区| 欧美精品视频www在线观看| 亚洲国产精品久久人人爱蜜臀| 91麻豆精品在线观看| 中文字幕在线不卡国产视频| 国产成人在线色| 欧美国产一区在线| 不卡高清视频专区| 国产精品久久久久久久久免费相片 | 欧美一区二区三区性视频| 五月婷婷激情综合| 91精品欧美福利在线观看| 一区二区三区不卡在线观看| 91女厕偷拍女厕偷拍高清| 亚洲免费高清视频在线| 日本久久一区二区三区|