麻豆黑色丝袜jk制服福利网站-麻豆精品传媒视频观看-麻豆精品传媒一二三区在线视频-麻豆精选传媒4区2021-在线视频99-在线视频a

千鋒教育-做有情懷、有良心、有品質的職業教育機構

手機站

千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

領取全套視頻

千鋒教育

關注千鋒學習站小程序
隨時隨地免費學習課程

行業頭條

哈爾濱選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

哈密選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼和浩特選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呼倫貝爾選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

吳忠選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

呂梁選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

吉安選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

合肥選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

臺州選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

廈門選擇鴻蒙培訓機構要注意些什么？選擇千鋒的理由？ 查看詳情>>

400-811-9990 全國咨詢熱線

首頁精品課程

Java

鴻蒙開發

HTML5

物聯網

云計算

Python

軟件測試

網絡安全

大數據

Unity

UI/UE設計

全媒體營銷

影視剪輯

游戲原畫

區塊鏈

產品經理

商業插畫

PMP認證

紅帽RHCE

軟考認證

華為認證

出國留學

安全認證

更多課程

免費教程
HTML5視頻教程 Java視頻教程 Python視頻教程 UI視頻教程云計算視頻教程軟件測試視頻教程大數據視頻教程物聯網視頻教程 Unity視頻教程網絡安全視頻教程全媒體視頻教程影視剪輯視頻教程
教研實力
教研院項目庫師資團隊項目大賽
校企服務
企業內訓高校合作學科共建
就業服務
就業服務雙選會上門招聘人才定制促就業行動
認證考試
PMP培訓軟考培訓紅帽RHCE認證學歷提升
千鋒問問行業資訊技術干貨熱點話題
零基礎學IT IT培訓機構 IT面試題 IT就業前景
關于千鋒
千鋒簡介鋒益公益大賽組織品牌活動
聯系我們

當前位置：首頁 > 技術干貨 > 爬蟲之js逆向解析（滑塊驗證碼）

爬蟲之js逆向解析（滑塊驗證碼）

來源：千鋒教育

發布人：qyf

時間： 2022-09-19 17:44:53 1663580693

　　為什么要做逆向

　　動態網頁爬蟲一般可分為兩種：Selenium爬取和接口爬取。兩種方式各有優缺點：前者我們己經介紹了selenium的使用和驗證碼、滑塊的使用，其雖然可以很好地處理網頁異步加載問題，但面對大型爬蟲任務時，效率還是比較低的;后者雖然爬取速度較快，但請求參數很可能是動態變化的，這時就需要利用一些前端的知識，重新構造參數，整個過程通常稱為JS逆向。先來看一下簡單的請求：

　　但是往往在我們編寫爬蟲時，可能會碰到以下兩種問題：

　　• 所需要爬取的數據在網頁源代碼中并不存在;

　　• 點擊下一頁跳轉頁面時，網頁的URL 并沒與發生變化;

　　造成這種問題原因是，你所正在爬取的頁面采取了動態加載的方式

　　動態加載網頁其顯示的頁面則是經過Javascript處理數據后生成的結果，可以發生改變。

　　JavaScript是一種運行在瀏覽器中的解釋型編程語言，JavaScript非常值得學習，它既適合作為學習編程的入門語言，也適合當作日常開發的工作語言。JavaScript可以收集用戶的跟蹤數據，不需要重載頁面即可直接提交表單，可在頁面中嵌入多媒體文件，甚至可以運行網頁游戲等。在很多看起來非常簡單的頁面背后通常使用了許多JavaScript文件。比如：

Picture(1)

　　這些數據的來源有多種，可能是經過Javascript計算生成的，也可能是通過Ajax加載的。Ajax = Asynchronous JavaScript and XML(異步的 JavaScript 和 XML)，其最大的優點是在不重新加載整個頁面的情況下，可以與服務器交換數據并更新部分網頁的內容。

　　逆向工程

　　對于動態加載的網頁，我們想要獲取其網頁數據，需要了解網頁是如何加載數據的，該過程就被成為逆向工程。

　　對于使用了Ajax 請求技術的網頁，我們可以找到Ajax請求的具體鏈接，直接得到Ajax請求得到的數據。

　　需要注意的是，構造Ajax請求有兩種方式：

　　• 原生的Ajax請求，會直接創建一個XMLHTTPRequest對象。

　　• 調用jQuery的ajax()方法。一般情況下，$.ajax()會返回其創建的XMLHTTPRequest對象;但是，如果$.ajax()的dataType參數指定了為script或jsonp類型，$.ajax()不再返回其創建的XMLHTTPRequest對象。

　　JQuery補充：

　　在大型互聯網公司的不斷推廣下，JavaScript生態圈也在不斷的完善，各種類庫、API接口層出不窮。

　　jQuery是一個快速、簡潔的JavaScript框架，是繼Prototype之后又一個優秀的JavaScript代碼庫(或JavaScript框架)。jQuery設計的宗旨是“Write Less, Do More”，即倡導寫更少的代碼，做更多的事情。

　　對于這兩種方式，只要創建返回了XMLHTTPRequest對象，就可以通過Chrome瀏覽器的調試工具在NetWork窗口通過設置XHR過濾條件，直接篩選出Ajax請求的鏈接;如果是$.ajax()并且dataType指定了為script或jsonp，則無法通過這種方式篩選出來。

　　案例分析

　　這次搞得還是滑塊哦???，話不多說直接開搞數美滑塊，因為小紅書、蘑菇街、脈脈、斗魚等很多都用了數美的驗證碼。整體難度還可以就是動態參數有點東西的呢!

　　數美驗證碼官網：https://www.ishumei.com/trial/captcha.html

Picture(2)

　　數美滑塊的驗證碼主要的難點有以下幾點：

　　request的請求參數，是動態變化的。名稱是動態變化，加密的密鑰也是動態變化的，這就有點難搞了

　　每天小版本更新的頻率1-2次，必須得能夠實現完全自動化，否則人工很難及時的調整驗證碼的參數，來不及。

　　js里的混淆的變量也是動態變化的

　　驗證碼注冊

Picture(3)

　　先看一下register

Picture(4)

　　下圖是響應結果：bg和fg是驗證碼圖片地址 https://castatic.fengkongcloud.com/bg

Picture(5)

　　計算滑塊位置

　　根據上一步可以得到驗證圖片的地址。

　　驗證碼圖片：https://castatic.fengkongcloud.com/crb/set-000006/v2/07ee613eeb1b43bed7daa24c7b288ea0bg.jpg

　　滑塊圖片：https://castatic.fengkongcloud.com/crb/set-000006/v2/07ee613eeb1b43bed7daa24c7b288ea0fg.png

　　使用opencv查找并匹配圖像模板中的滑塊。

　　需要注意的是，這里是以原圖計算的，而頁面上的圖片大小只有(300，150)，(應用不同的產品可能大小也不同)

　　所以需要按比例進行縮小或者放大。

　　驗證

　　對應的api地址是：https://captcha.fengkongcloud.com/ca/v2/fverify?...

Picture(6)

　　查詢字符串參數：

Picture(7)

　　params參數里的 dv，qe，ou，cf等等，都經過了DES加密，

　　破解方式分析

　　打開控制臺多看幾遍請求過程，我們基本就明白請求步驟了。具體的分析過程就不再贅述。

　　所攜帶的請求參數如下：

　　該接口返回的js參數，是下一步需要請求的目標。

　　提取js參數

　　js地址：https://castatic.fengkongcloud.com/pr/auto-build/v1.0.3-144/captcha-sdk.min.js

　　需要提取該js中的參數名，會在最后驗證的時候使用(注：一般情況下參數名不會變)，但是這些請求參數都是變化的。

　　獲取js的response，搜索上面的參數我們沒有找到，但是發現了倒序的名字

　　通過查看調用棧，打斷點，一層層分析，發現js做了ob混淆。

　　JS混淆有很多種，這里舉幾個：UglifyJS，JScrambler，jsbeautifier.org，JSDetox，obfuscator.io 等，像下面的代碼就是ob混淆。

　　開頭定義了一個大數組，然后對這個大數組里的內容進行位移，再定義一個解密函數。后面大部分的值都調用了這個解密函數，以達到混淆的效果。如果想還原可以使用ob混淆還原工具：https://github.com/DingZaiHub/ob-decrypt

　　當然不進行混淆還原也可以通過斷點很快的定位到具體的函數加密的位置

　　再次請求走到這里，而這里是一部分的參數的加密，先進去看下它是怎么加密的

　　進來了走到這可以看到是DES加密，參數分別是加密的密碼，要加密的參數，后面兩個是數字呢就是模式選擇了，1，0是加密，0，0是解密，在這里是加密。

　　我們輸出在console中輸出一下，這四個參數看一下

　　那么問題來了，這個密碼"b64ccadf"哪來的呢，別急，我們重新再來一遍!很快我們又進來走到這，_0x1c2865是什么怎么是亂碼的呢?

　　console輸出一下看看

Picture(8)

　　密碼搞到了，加密方式也曉得了，然后參數一個一個整過去就Ok了。

　　返回結果response：

Picture(9)

　　message = success，riskLevel=PASS 說明驗證通過

　　完整代碼

　　"""

　　數美滑塊驗證碼破解驗證

　　"""

　　import base64

　　import json

　　import random

　　import re

　　import time

　　from io import BytesIO

　　import cv2

　　import numpy as np

　　import requests

　　from pyDes import des, ECB

　　CAPTCHA_DISPLAY_WIDTH = 310

　　CAPTCHA_DISPLAY_HEIGHT = 155

　　p = {}

　　def pad(b):

　　"""

　　塊填充

　　"""

　　block_size = 8

　　while len(b) % block_size:

　　b += b'\0'

　　return b

　　def split_args(s):

　　"""

　　分割js參數

　　"""

　　r = []

　　a = ''

　　i = 0

　　while i < len(s):

　　c = s[i]

　　if c == ',' and (a[0] != '\'' or len(a) >= 2 and a[-1] == '\''):

　　r.append(a)

　　a = ''

　　elif c:

　　a += c

　　i += 1

　　r.append(a)

　　return r

　　def find_arg_names(script):

　　"""

　　通過js解析出參數名

　　"""

　　names = {}

　　a = []

　　for r in re.findall(r'function\((.*?)\)', script):

　　if len(r.split(',')) > 100:

　　a = split_args(r)

　　break

　　r = re.search(r';\)(.*?)\(}', script[::-1]).group(1)

　　v = split_args(r[::-1])

　　d = r'{%s}' % ''.join([((',' if i else '') + '\'k{}\':([_x0-9a-z]*)'.format(i + 1)) for i in range(15)])

　　k = []

　　r = re.search(d, script)

　　for i in range(15):

　　k.append(r.group(i + 1))

　　n = int(v[a.index(re.search(r'arguments;.*?,(.*?)\);', script).group(1))], base=16)

　　for i in range(n // 2):

　　v[i], v[n - 1 - i] = v[n - 1 - i], v[i]

　　for i, b in enumerate(k):

　　t = v[a.index(b)].strip('\'')

　　names['k{}'.format(i + 1)] = t if len(t) > 2 else t[::-1]

　　return names

　　def get_encrypt_content(message, key, flag):

　　"""

　　接口參數的加密、解密

　　"""

　　des_obj = des(key.encode(), mode=ECB)

　　if flag:

　　content = pad(str(message).replace(' ', '').encode())

　　return base64.b64encode(des_obj.encrypt(content)).decode('utf-8')

　　else:

　　return des_obj.decrypt(base64.b64decode(message)).decode('utf-8')

　　def get_random_ge(distance):

　　"""

　　生成隨機的軌跡

　　"""

　　ge = []

　　y = 0

　　v = 0

　　t = 1

　　current = 0

　　mid = distance * 3 / 4

　　exceed = 20

　　z = t

　　ge.append([0, 0, 1])

　　while current < (distance + exceed):

　　if current < mid / 2:

　　a = 15

　　elif current < mid:

　　a = 20

　　else:

　　a = -30

　　a /= 2

　　v0 = v

　　s = v0 * t + 0.5 * a * (t * t)

　　current += int(s)

　　v = v0 + a * t

　　y += random.randint(-5, 5)

　　z += 100 + random.randint(0, 10)

　　ge.append([min(current, (distance + exceed)), y, z])

　　while exceed > 0:

　　exceed -= random.randint(0, 5)

　　y += random.randint(-5, 5)

　　z += 100 + random.randint(0, 10)

　　ge.append([min(current, (distance + exceed)), y, z])

　　return ge

　　def make_mouse_action_args(distance):

　　"""

　　生成鼠標行為相關的參數

　　"""

　　ge = get_random_ge(distance)

　　args = {

　　p['k']['k5']: round(distance / CAPTCHA_DISPLAY_WIDTH, 2),

　　p['k']['k6']: get_random_ge(distance),

　　p['k']['k7']: ge[-1][-1] + random.randint(0, 100),

　　p['k']['k8']: CAPTCHA_DISPLAY_WIDTH,

　　p['k']['k9']: CAPTCHA_DISPLAY_HEIGHT,

　　p['k']['k11']: 1,

　　p['k']['k12']: 0,

　　p['k']['k13']: -1,

　　'act.os': 'android'

　　}

　　return args

　　def get_distance(fg, bg):

　　"""

　　計算滑動距離

　　"""

　　target = cv2.imdecode(np.asarray(bytearray(fg.read()), dtype=np.uint8), 0)

　　template = cv2.imdecode(np.asarray(bytearray(bg.read()), dtype=np.uint8), 0)

　　result = cv2.matchTemplate(target, template, cv2.TM_CCORR_NORMED)

　　_, distance = np.unravel_index(result.argmax(), result.shape)

　　return distance

　　def update_protocol(protocol_num, js_uri):

　　"""

　　更新協議

　　"""

　　global p

　　r = requests.get(js_uri, verify=False)

　　names = find_arg_names(r.text)

　　p = {

　　'i': protocol_num,

　　'k': names

　　}

　　def conf_captcha(organization):

　　"""

　　獲取驗證碼設置

　　"""

　　url = 'https://captcha.fengkongcloud.com/ca/v1/conf'

　　args = {

　　'organization': organization,

　　'model': 'slide',

　　'sdkver': '1.1.3',

　　'rversion': '1.0.3',

　　'appId': 'default',

　　'lang': 'zh-cn',

　　'channel': 'YingYongBao',

　　'callback': 'sm_{}'.format(int(time.time() * 1000))

　　}

　　r = requests.get(url, params=args, verify=False)

　　resp = json.loads(re.search(r'{}\((.*)\)'.format(args['callback']), r.text).group(1))

　　return resp

　　def register_captcha(organization):

　　"""

　　注冊驗證碼

　　"""

　　url = 'https://captcha.fengkongcloud.com/ca/v1/register'

　　args = {

　　'organization': organization,

　　'channel': 'DEFAULT',

　　'lang': 'zh-cn',

　　'model': 'slide',

　　'appId': 'default',

　　'sdkver': '1.1.3',

　　'data': '{}',

　　'rversion': '1.0.3',

　　'callback': 'sm_{}'.format(int(time.time() * 1000))

　　}

　　r = requests.get(url, params=args, verify=False)

　　resp = json.loads(re.search(r'{}\((.*)\)'.format(args['callback']), r.text).group(1))

　　return resp

　　def verify_captcha(organization, rid, key, distance):

　　"""

　　提交驗證

　　"""

　　url = 'https://captcha.fengkongcloud.com/ca/v2/fverify'

　　args = {

　　'organization': organization,

　　p['k']['k1']: 'default',

　　p['k']['k2']: 'YingYongBao',

　　p['k']['k3']: 'zh-cn',

　　'rid': rid,

　　'rversion': '1.0.3',

　　'sdkver': '1.1.3',

　　'protocol': p['i'],

　　'ostype': 'web',

　　'callback': 'sm_{}'.format(int(time.time() * 1000))

　　}

　　args.update(make_mouse_action_args(distance))

　　key = get_encrypt_content(key, 'sshummei', 0)

　　for k, v in args.items():

　　if len(k) == 2:

　　args[k] = get_encrypt_content(v, key, 1)

　　print(args)

　　r = requests.get(url, params=args, verify=False)

　　resp = json.loads(re.search(r'{}\((.*)\)'.format(args['callback']), r.text).group(1))

　　return resp

　　def get_verify(organization):

　　"""

　　進行驗證

　　"""

　　resp = conf_captcha(organization)

　　protocol_num = re.search(r'build/v1.0.3-(.*?)/captcha-sdk.min.js', resp['detail']['js']).group(1)

　　if not p.get('id') or protocol_num != p['i']:

　　update_protocol(protocol_num, ''.join(['https://', resp['detail']['domains'][0], resp['detail']['js']]))

　　resp = register_captcha(organization)

　　rid = resp['detail']['rid']

　　key = resp['detail']['k']

　　domain = resp['detail']['domains'][0]

　　fg_uri = resp['detail']['fg']

　　bg_uri = resp['detail']['bg']

　　fg_url = ''.join(['http://', domain, fg_uri])

　　bg_url = ''.join(['http://', domain, bg_uri])

　　r = requests.get(fg_url, verify=False)

　　fg = BytesIO(r.content)

　　r = requests.get(bg_url, verify=False)

　　bg = BytesIO(r.content)

　　distance = get_distance(fg, bg)

　　print(distance)

　　r = verify_captcha(organization, rid, key, int(distance / 600 * 310))

　　return rid, r

　　def test():

　　organization = 'RlokQwRlVjUrTUlkIqOg'

　　# rid是驗證過程中響應的標示，r是最后提交驗證返回的響應

　　rid, r = get_verify(organization)

　　print(rid, r)

　　# riskLevel為PASS說明驗證通過

　　if r['riskLevel'] == 'PASS':

　　# 具體可抓包查看，接口：/api/sns/v1/system_service/slide_captcha_check

　　pass

　　if __name__ == '__main__':

　　test()

　　大家用同樣的方法趕快試一試小紅書，蘑菇街等網站登陸吧!

tags:

聲明：本站稿件版權均屬千鋒教育所有，未經許可不得擅自轉載。

10年以上業內強師集結，手把手帶你蛻變精英

請您保持通訊暢通，專屬學習老師24小時內將與您1V1溝通

免費領取

今日已有369人領取成功

劉同學 138****2860 剛剛成功領取

王同學 131****2015 剛剛成功領取

張同學 133****4652 剛剛成功領取

李同學 135****8607 剛剛成功領取

楊同學 132****5667 剛剛成功領取

岳同學 134****6652 剛剛成功領取

梁同學 157****2950 剛剛成功領取

劉同學 189****1015 剛剛成功領取

張同學 155****4678 剛剛成功領取

鄒同學 139****2907 剛剛成功領取

董同學 138****2867 剛剛成功領取

周同學 136****3602 剛剛成功領取

上一篇

爬蟲之圖片驗證碼處理

下一篇

20天學會爬蟲之Scrapy框架介紹

免費打包獲取

相關推薦HOT

Visual Studio Online和GitHub有什么區別?

1.定位不同Visual Studio Online，現更名為Visual Studio Codespaces，是微軟提供的一款在線開發環境，允許開發者在云端進行編程和調試工作。而...詳情>>

2023-10-15 00:21:42

什么是域控制器?

一、域控制器的定義域控制器是指在Windows Server操作系統中部署Active Directory服務的服務器。Active Directory是微軟公司開發的目錄服務，用...詳情>>

2023-10-15 00:10:28

深度學習模型權重h5、weights、ckpt、pth有什么區別?

1.來源框架不同h5格式通常用于Keras和TensorFlow框架，weights用于Darknet框架，ckpt是TensorFlow框架的一種格式，而pth則主要用于PyTorch框架...詳情>>

2023-10-15 00:05:17

大數據測試工程師需要具備哪些技能?

一、理解大數據概念大數據測試工程師需要理解大數據的基本概念和原理，如分布式存儲、MapReduce、實時計算等。他們還需要了解如何處理大規模的...詳情>>

2023-10-14 23:43:03

為什么SpringBoot的 jar 可以直接運行?

一、JAR文件的結構與執行方式Spring Boot的JAR包是Java Archive的縮寫，它是一種壓縮文件格式，可以將Java項目的類文件、資源文件以及依賴庫等...詳情>>

2023-10-14 23:01:49

熱門推薦

Visual Studio Online和GitHub有什么區別?

計算機視覺中所指的深度和深度學習中的深度有什么區別?

顯著性目標檢測和一般目標檢測最本質的區別是什么區別?

在目標檢測里single-shot和multi-shot的主要區別是什么?

APP安全測試與普通B/S架構的滲透測試有什么區別?

什么是域控制器?

圖卷積網絡和self-attention有什么區別?

深度學習模型權重h5、weights、ckpt、pth有什么區別?

機器學習中Inference和predict的區別是什么?

kd-tree和ball-tree在算法實現原理上有什么區別?

技術干貨更多>>

如何實現服務器負載均衡

2023-12-06

linux有哪些優勢和劣勢

2023-12-06

linux需要驅動嗎

2023-12-06

android與linux的區別

2023-12-06

如何搭建基于容器的深度學習環境

2023-12-06

職場就業更多>>

網絡安全軟件開發的就業前景

2023-12-09

學會python工程師后的就業前景

2023-12-09

學會java工程師后的就業前景

2023-12-09

云計算技術就業前景以及發展方向怎樣？

2023-08-07

快速通道

培訓機構
了解培訓相關
就業前景
查看就業前景
培訓門檻
了解學習門檻
應聘面試
常見面試考題
就業服務
畢業推薦就業
師資團隊
了解師資團隊

千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

主站蜘蛛池模板：欧美日韩一区二区在线| 中文字幕久久久久久久系列| 日本高清免费不卡在线播放| 男人女人做30分爽爽视频| 一级大黄色片| stoya在线观看| 女人是男人的女未来1分49分 | 国产影片中文字幕| 亚洲欧美视频一区| 精品久久久久久中文字幕| 伊人色综合久久天天| 亚洲欧美精品日韩欧美| 亚洲成a人一区二区三区| 午夜dj在线观看免费高清在线| 好男人在线社区www| 特黄特色大片免费播放| 交换人生电影在线| 调教在线视频| 免费阿v| 野花日本中文版免费观看| 国产99精品在线观看| 日本特黄特黄刺激大片| 国产福利一区二区三区在线观看 | 亚洲国产婷婷综合在线精品| 嗯嗯在线观看免费播放| 精品国产人成亚洲区| 成人小视频在线观看| 男人操女人免费视频| 亚洲免费一级视频| 天天做天天摸天天爽天天爱| 好湿好大硬得深一点动态图| 西西人体www44rt大胆高清| 伊人久久大香线蕉综合5g| 日本巨黄视频| 亚洲电影中文字幕| 永久免费毛片在线播放| 啊灬老师灬老师灬别停灬用力| 色戒7分27秒大尺度在线| 嗯啊不要视频| 亚洲精选在线观看| a级毛片免费观看网站|