校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃

主頁 > 知識(shí)庫 > 用xmlhttp編寫web采集程序

用xmlhttp編寫web采集程序

熱門標(biāo)簽:長春公司外呼系統(tǒng)中心 沈陽電話機(jī)器人公司 鄢陵學(xué)校如何做地圖標(biāo)注 成都ai外呼系統(tǒng)線路 沈陽三五防封電銷卡 鄭州智能外呼電銷機(jī)器人廠家 云南便宜外呼系統(tǒng)平臺(tái) 廣東語音外呼系統(tǒng)公司 虛擬電話外呼系統(tǒng)
晰帶語法著色的版本:http://gwx.showus.net/blog/article.asp?id=229

原創(chuàng)很辛苦,轉(zhuǎn)載請(qǐng)注明原文鏈接:http://gwx.showus.net/blog/article.asp?id=229

web采集程序?網(wǎng)頁抓取程序?小倫程序?不管怎么叫,這種程序應(yīng)用倒是蠻廣的。本文不討論這種使用這種程序引起的版權(quán)或道德問題,只談這種程序在ASP+VBScript環(huán)境下的實(shí)現(xiàn) :-)

預(yù)備知識(shí):除了一般的ASP+VBScript的知識(shí)外,你還需要了解xmlhttp對(duì)象和正則表達(dá)式對(duì)象。xmlhttp對(duì)象是時(shí)下風(fēng)頭正勁的Ajax的主角;而學(xué)好了正則表達(dá)式,你再也不用為處理復(fù)雜的字符串犯愁。

在編寫和調(diào)試正則表達(dá)式時(shí),RegEx 這個(gè)小工具非常有用。

目錄
抓取一個(gè)遠(yuǎn)程網(wǎng)頁并保存到本地 
改進(jìn):處理亂碼 
同時(shí)下載遠(yuǎn)程網(wǎng)頁的圖片(和其它文件) 
改進(jìn):探測真實(shí)URL 
改進(jìn):避免重復(fù)下載 
實(shí)戰(zhàn)舉例(以****為例) 
分析列表頁 
內(nèi)容頁的技巧 
分析內(nèi)容頁中的上一頁,下一頁 
高級(jí)主題:UTF-8和GB2312的轉(zhuǎn)換 
更多高級(jí)主題:登陸后抓取,客戶端偽造 
己有的采集程序 
原文鏈接:http://gwx.showus.net/blog/article.asp?id=229

1.抓取一個(gè)遠(yuǎn)程網(wǎng)頁并保存到本地
'用于調(diào)試的過程,后面會(huì)多次調(diào)用檢查中間結(jié)果
Dim inDebug:inDebug=True 
Sub D(Str)
    If inDebug = False Then Exit Sub
    Response.Write("div style='color:#003399; border: solid 1px #003399; background: #EEF7FF; margin: 1px; font-size: 12px; padding: 4px;'>")
    Response.Write(Str "/div>")
    Response.Flush()
End Sub

'過程: Save2File
'功能: 把文本或字節(jié)流保存為文件
'參數(shù): sContent    要保存的內(nèi)容
'       sFile       保存到文件,形如"files/abc.htm"
'       bText       是否是文本
'       bOverWrite  是否覆蓋己存在文件
Sub Save2File(sContent,sFile,bText,bOverWrite)
    Call D("Save2File:"+sFile+" *是否文本:"bText)
    Dim SaveOption,TypeOption
    If (bOverWrite = True) Then SaveOption=2 Else SaveOption=1
    If (bText = True) Then TypeOption=2 Else TypeOption=1
    Set Ads = Server.CreateObject("Adodb.Stream")
    With Ads
        .Type = TypeOption 
        .Open
        If (bText = True) Then .WriteText sContent Else .Write sContent
        .SaveToFile Server.MapPath(sFile),SaveOption
        .Cancel()
        .Close()
    End With
    Set Ads=nothing
End Sub

關(guān)鍵的函數(shù)
'函數(shù): myHttpGet
'功能: 抓取一個(gè)遠(yuǎn)程文件(網(wǎng)頁或圖片等)并保存到本地
'參數(shù): sUrl    遠(yuǎn)程文件的URL
'       bText   是否是文本(網(wǎng)頁),下載遠(yuǎn)程圖片是bText=False
'返回: 抓取的內(nèi)容
Function myHttpGet(sUrl,bText)
    Call D("font color=red>myHttpGet:/font>"+sUrl+" *是否文本:"bText)
    'Set oXml = Server.CreateObject("Microsoft.XMLHTTP")
    Set oXml = Server.CreateObject("MSXML2.ServerXMLHTTP")  '服務(wù)器版本的XMLHTTP組件
    '理解下面的內(nèi)容,你可以參考一下MSDN中的MSXML2.ServerXMLHTTP
    With oXml
        .Open "GET",sUrl,False
        .Send
        While .readyState > 4  '等待下載完畢
            .waitForResponse 1000 
        Wend 
        If bText = True Then
            myHttpGet = bytes2BSTR(.responseBody)
        Else
            myHttpGet = .responseBody
        End If
    End With
    Set oXml = Nothing
End Function

改進(jìn):處理亂碼
直接讀取服務(wù)器返回的中文內(nèi)容會(huì)出現(xiàn)亂碼,myHttpGet函數(shù)中引用的bytes2BSTR的作用是正確讀取服務(wù)器返回的文件中的雙字節(jié)文本(比如說中文)
'myHttpGet helper 處理雙字節(jié)文本
Function bytes2BSTR(vIn)
    strReturn = ""
    For i = 1 To LenB(vIn)
        ThisCharCode = AscB(MidB(vIn,i,1))
        If ThisCharCode  H80 Then
            strReturn = strReturn  Chr(ThisCharCode)
        Else
            NextCharCode = AscB(MidB(vIn,i+1,1))
            strReturn = strReturn  Chr(CLng(ThisCharCode) * H100 + CInt(NextCharCode))
            i = i + 1
        End If
    Next
    bytes2BSTR = strReturn
End Function

bytes2BSTR函數(shù)的功能也可以利用Adodb.Stream組件通過下面的函數(shù)實(shí)現(xiàn),雖然下面的函數(shù)可以指定字符集Charset,但它并不能轉(zhuǎn)換編碼,即傳遞"UTF-8"給參數(shù)sCset,來讀取一張GB2312編碼的網(wǎng)頁將顯示為亂碼。
'CharsetHelper可以正確的讀取以sCset(如"GB2312","UTF-8"等)編碼的文件
Function CharsetHelper(arrBytes,sCset)
    Call D("CharsetHelper: "+sCset)
    Dim oAdos
    Set oAdos = CreateObject("Adodb.Stream")
    With oAdos
        .Type = 1
        .Mode =3    'adModeReadWrite
        .Open
        .Write arrBytes
        .Position = 0
        .Type = 2
        .Charset = sCset
        CharsetHelper = .ReadText 
        .Close
    End With
    Set oAdos = Nothing
End Function

2.同時(shí)下載遠(yuǎn)程網(wǎng)頁的圖片(和其它文件)
'函數(shù): ProcessRemoteUrl
'功能: 替換字符串中的遠(yuǎn)程文件為本地文件并保存遠(yuǎn)程文件
'參數(shù): strContent  要替換的字符串,即遠(yuǎn)程網(wǎng)頁文件的內(nèi)容
'       sSavePath   不以/結(jié)尾的相對(duì)路徑,指示遠(yuǎn)程文件的本地保存路徑
'       sPreceding  更改后的URL前綴,如http://somehost/upload/
'返回: 替換遠(yuǎn)程路徑為本地路徑之后的新的網(wǎng)頁文本內(nèi)容
Function ProcessRemoteUrl(sContent,sSavePath,sPreceding)
    Call D("ProcessRemoteUrl")

Set re=new RegExp
    re.IgnoreCase =true
    re.Global=True
    '下面的正則中.SubMatches(4)=文件名全名.SubMatches(5)文件擴(kuò)展名
    re.Pattern = "((http):(?:\/\/){1}(?:(?:\w)+[.])+(net|com|cn|org|cc|tv|[0-9]{1,4})(\S*\/)((?:\S)+[.]{1}(gif|jpg|jpeg|png|bmp)))"

Set RemoteFile = re.Execute(sContent)

Dim SaveFileName
    'RemoteFile     正則表達(dá)式Match對(duì)象的集合
    'RemoteFileUrl  正則表達(dá)式Match對(duì)象
    For Each RemoteFileUrl in RemoteFile
        SaveFileName = RemoteFileUrl.SubMatches(4)
        Call Save2File(myHttpGet(RemoteFileUrl,False),sSavePath"/"SaveFileName,False,True)
        sContent=Replace(sContent,RemoteFileUrl,sPrecedingSaveFileName)
    Next

ProcessRemoteUrl=sContent
End Function 
改進(jìn):探測真實(shí)URL
上面的ProcessRemoteUrl函數(shù)不能正確處理形如img src="upload/abc.jpg" />和a href="/upload/abc.gif" ...的內(nèi)容,要處理這些相對(duì)鏈接,我們可以先用下面的函數(shù)把網(wǎng)頁中的相對(duì)鏈接都轉(zhuǎn)換成絕對(duì)鏈接
'函數(shù): DetectUrl
'功能: 替換字符串中的遠(yuǎn)程文件相對(duì)路徑為以http://..開頭的絕對(duì)路徑
'參數(shù): sContent    要處理的含相對(duì)路徑的網(wǎng)頁的文本內(nèi)容
'       sUrl        所處理的遠(yuǎn)程網(wǎng)頁自身的URL,用于分析相對(duì)路徑
'返回: 替換相對(duì)鏈接為絕對(duì)鏈接之后的新的網(wǎng)頁文本內(nèi)容
Function DetectUrl(sContent,sUrl)
    Call D("DetectUrl:"sUrl)

'分析URL
    Dim re,sMatch
    Set re=new RegExp
    re.Multiline=True
    re.IgnoreCase =true
    re.Global=True

re.Pattern = "(http://[-A-Z0-9.]+)/[-A-Z0-9+@#%~_|!:,.;/]+/"
    Dim sHost,sPath
    'http://localhost/get/sample.asp
    Set sMatch=re.Execute(sUrl)
    'http://localhost
    sHost=sMatch(0).SubMatches(0)
    'http://localhost/get/
    sPath=sMatch(0)

re.Pattern = "(src|href)=""?((?!http://)[-A-Z0-9+@#%=~_|!:,.;/]+)""?"
    Set RemoteFile = re.Execute(sContent)

'RemoteFile 正則表達(dá)式Match對(duì)象的集合
    'RemoteFileUrl 正則表達(dá)式Match對(duì)象,形如src="Upload/a.jpg"
    Dim sAbsoluteUrl
    For Each RemoteFileUrl in RemoteFile
        'img src="a.jpg">,img src="f/a.jpg">,img src="/ff/a.jpg">
        If Left(RemoteFileUrl.SubMatches(1),1)="/" Then
            sAbsoluteUrl=sHost
        Else
            sAbsoluteUrl=sPath
        End If
        sAbsoluteUrl = RemoteFileUrl.SubMatches(0)"="""sAbsoluteUrlRemoteFileUrl.SubMatches(1)""""
        sContent=Replace(sContent,RemoteFileUrl,sAbsoluteUrl)
    Next

DetectUrl=sContent
End Function 
改進(jìn):避免重復(fù)下載
網(wǎng)頁中的有些圖片,比如spacer.gif重復(fù)出現(xiàn),會(huì)被重復(fù)下載,壁免這個(gè)問題的一個(gè)方法是設(shè)置一個(gè)arrUrls數(shù)組,把采集過的文件的URL放在里面,在每次采集前先遍歷數(shù)組看是否已經(jīng)采集,然后只參集沒有參集過的文件

3.實(shí)戰(zhàn)舉例(以****為例)
****是我最經(jīng)常去的地方,而且網(wǎng)速不錯(cuò),就以她為例啦,沒有惡意哦:-)

分析列表頁
內(nèi)容頁的技巧
分析內(nèi)容頁中的上一頁,下一頁
想了一下,這部分內(nèi)容還是晢時(shí)不寫,免得被BS了  :-),還省得打好多字。 無非是把遠(yuǎn)程網(wǎng)頁采集下來,然后用正則表達(dá)式分析提取其中的特定內(nèi)容,如標(biāo)題,作者,內(nèi)容之類的 我有兩個(gè)小小的經(jīng)驗(yàn):

一是網(wǎng)頁源碼前后的內(nèi)容對(duì)分析有很大的干擾,你可以用下面的方法先把它支除
'抽取部分內(nèi)容進(jìn)行分析,你可以用用EditPlus數(shù)字?jǐn)?shù)
'去除前7600和后5000的字符
sPageW=Left(sPageW,Len(sPageW)-5000)
sPageW=Mid(sPageW,7600)

二是你可能不想在對(duì)方的服務(wù)器上留下連續(xù)的瀏覽記錄,下面的一個(gè)小函數(shù)會(huì)有所幫助
'過程: Sleep
'功能: 程序在此晢停幾秒
'參數(shù): iSeconds    要暫停的秒數(shù)
Sub Sleep(iSeconds)
    D Timer()" font color=blue>Sleep For "iSeconds" Seconds/font>"
    Dim t:t=Timer()
    While(Timer()t+iSeconds)
        'Do Nothing
    Wend
    D Timer()" font color=blue>Sleep For "iSeconds" Seconds OK/font>"
End Sub

'調(diào)用舉例,晢停,時(shí)長隨機(jī),在3秒以內(nèi)
Sleep(Fix(Rnd()*3))

三就是多用正則表達(dá)式測試工具提高編寫正則表達(dá)式的效率

4.高級(jí)主題:UTF-8和GB2312的轉(zhuǎn)換
這個(gè)問題比較復(fù)雜,由于我智力和精力方面的原因沒有完全搞定,網(wǎng)上己有的資料也大多不完全正確或者不全面,我推薦一個(gè)UTF-8和GB2312的轉(zhuǎn)換的C語言的實(shí)現(xiàn)供大家參考,它功能完整而且不依賴Windows API函數(shù)。
我在試著用ASP+VBScript實(shí)現(xiàn)它,有一些不太成熟的經(jīng)驗(yàn):

計(jì)算機(jī)上的文件、操作系統(tǒng)內(nèi)部的字符串表示都是Unicode的,所以,UTF-8和GB2312之間的轉(zhuǎn)換需要以Unicode為中介 
UTF-8就是Unicode的一個(gè)變體,它們之間的相互轉(zhuǎn)換比較簡單,參考下圖就可以了 
GB2312和Unicode的編碼好像是不相關(guān)的,不依賴操作系統(tǒng)內(nèi)部函數(shù)進(jìn)行轉(zhuǎn)換就需要一個(gè)編碼映射表,指出GB2312和Unicode的編碼一一對(duì)應(yīng)的關(guān)系,這個(gè)編碼表大約包含7480×2個(gè)項(xiàng)目。 
在ASP文件中,要默認(rèn)以某和編碼(如GB2312)讀取一個(gè)字符串,需要將ASP的CodePage設(shè)為相應(yīng)代碼頁(對(duì)GB2312是CodePage=936) 
編碼轉(zhuǎn)換中還有一些又小又重要的問題我還不知道:-( 
5.更多高級(jí)主題:登陸后抓取,客戶端偽造等
xmlhttp對(duì)象可以以post或get的方法與http服務(wù)器交互,可以設(shè)置和讀取http頭,學(xué)習(xí)一下http協(xié)議,并且更深入的了解一些xmlhttp對(duì)象的方法和屬性,你就可以用它來模擬一個(gè)瀏覽器,自動(dòng)的做各種以前需要人來做的重復(fù)工作。

6.己有的采集程序
本文旨在討論采集程序在ASP+VBScript環(huán)境下的實(shí)現(xiàn),如果你需要一個(gè)網(wǎng)頁采集程序,下面的鏈接可能對(duì)你有用。

LocoySpider火車頭網(wǎng)頁內(nèi)容采集器 
C#+.Net編寫的內(nèi)容采集器,它的一個(gè)重要特點(diǎn)是不將采集來的內(nèi)容保存到數(shù)據(jù)庫,而是使用自定的POST提交的別的網(wǎng)頁,如內(nèi)容管理系統(tǒng)的新建內(nèi)容頁。免費(fèi)。 
BeeCollector (小蜜蜂采集器) 
PHP+MySQL編寫的內(nèi)容采集器。 
風(fēng)訊內(nèi)容管理系統(tǒng) 
這個(gè)強(qiáng)大的內(nèi)容管理系統(tǒng)內(nèi)帶有一個(gè)ASP的網(wǎng)頁內(nèi)容采集器

標(biāo)簽:湖北 四平 孝感 遼陽 馬鞍山 朝陽 防城港 平頂山

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《用xmlhttp編寫web采集程序》,本文關(guān)鍵詞  用,xmlhttp,編寫,web,采集,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《用xmlhttp編寫web采集程序》相關(guān)的同類信息!
  • 本頁收集關(guān)于用xmlhttp編寫web采集程序的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    校园春色亚洲色图_亚洲视频分类_中文字幕精品一区二区精品_麻豆一区区三区四区产品精品蜜桃
    亚洲午夜久久久久久久久久久| 中文字幕中文字幕一区| 91精品国产一区二区三区蜜臀| 毛片基地黄久久久久久天堂| 国产精品国产三级国产有无不卡| 欧美一级夜夜爽| 91免费观看在线| 韩日欧美一区二区三区| 亚洲激情欧美激情| 国产精品久久免费看| 欧美一区二区三区男人的天堂| www..com久久爱| 国产在线播放一区| 日韩精品免费视频人成| 亚洲一区精品在线| 亚洲欧美日韩在线| 亚洲欧洲在线观看av| 国产视频在线观看一区二区三区 | 韩国v欧美v日本v亚洲v| 亚洲网友自拍偷拍| 一区二区在线观看av| 欧美国产综合一区二区| 久久久精品黄色| 久久久久久久久久久电影| 日韩欧美成人激情| 日韩美女天天操| 欧美一区二区三区视频免费 | 久久久久久免费网| 欧美成人video| 欧美一区二区三区免费视频| 欧美精选一区二区| 欧美日韩日日夜夜| 欧美日韩精品欧美日韩精品一| 91丨porny丨蝌蚪视频| 97精品国产露脸对白| 99久久精品国产毛片| 99精品一区二区三区| 99国产精品久久久久久久久久| eeuss鲁片一区二区三区| 99亚偷拍自图区亚洲| 91麻豆蜜桃一区二区三区| 色猫猫国产区一区二在线视频| 91年精品国产| 欧美午夜精品一区| 欧美日韩电影一区| 欧美一区二区三区在线| 精品入口麻豆88视频| 精品成人a区在线观看| 久久久综合视频| 国产精品无圣光一区二区| 亚洲欧美综合另类在线卡通| 一区二区三区在线视频免费观看| 亚洲精品菠萝久久久久久久| 午夜精品一区二区三区电影天堂 | 国产jizzjizz一区二区| 国产69精品久久久久777| 不卡视频一二三四| 日本韩国欧美一区二区三区| 欧美日韩午夜在线| 欧美电影精品一区二区| 中文字幕第一区二区| 亚洲精品v日韩精品| 日本成人在线不卡视频| 国产精品乡下勾搭老头1| av成人动漫在线观看| 欧美日韩成人综合| 亚洲精品一区二区在线观看| 国产精品久久二区二区| 婷婷综合五月天| 国产一区欧美一区| 91福利在线导航| 日韩精品一区二区三区四区| 欧美极品少妇xxxxⅹ高跟鞋| 欧美性猛交xxxx黑人交| 色偷偷久久人人79超碰人人澡| 91.麻豆视频| 久久久www免费人成精品| ㊣最新国产の精品bt伙计久久| 亚洲国产精品嫩草影院| 国产高清视频一区| 欧美色图一区二区三区| 久久色中文字幕| 亚洲午夜精品久久久久久久久| 韩国精品一区二区| 欧洲激情一区二区| 国产拍揄自揄精品视频麻豆| 午夜精品久久久久久久久久久 | 北条麻妃国产九九精品视频| 在线观看国产91| 国产欧美视频一区二区三区| 亚洲电影中文字幕在线观看| 国产精品一区二区黑丝| 欧美精品在线一区二区| 国产精品免费看片| 久久成人免费电影| 欧美在线观看视频一区二区三区 | 一区二区三区在线视频免费观看| 亚洲va天堂va国产va久| 欧美日韩免费电影| 久久精品在这里| 亚洲成人资源网| 99久久久无码国产精品| 26uuu久久综合| 日本特黄久久久高潮| 欧美在线播放高清精品| 国产精品免费久久久久| 国产精品一线二线三线精华| 制服丝袜在线91| 亚洲综合色网站| 成人av电影免费在线播放| 久久午夜国产精品| 久久超级碰视频| 欧美乱妇20p| 亚洲成人你懂的| 欧美在线短视频| 亚洲色图20p| 成人高清视频在线观看| 国产喂奶挤奶一区二区三区| 久久精品国产精品青草| 日韩亚洲国产中文字幕欧美| 性感美女久久精品| 日本伦理一区二区| 亚洲日本在线a| 99re这里只有精品首页| 欧美国产乱子伦| 国产成人在线电影| 国产亚洲综合性久久久影院| 欧美成人官网二区| 日本不卡一二三| 欧美日本视频在线| 午夜精品视频在线观看| 欧美日韩一级黄| 午夜电影久久久| 91精品国产一区二区三区香蕉| 图片区日韩欧美亚洲| 欧美色图片你懂的| 首页综合国产亚洲丝袜| 91精品综合久久久久久| 日韩不卡在线观看日韩不卡视频| 欧美裸体bbwbbwbbw| 美女视频黄a大片欧美| 欧美mv和日韩mv国产网站| 国产精品一区二区三区乱码| 中文av一区二区| 色哟哟一区二区| 午夜欧美2019年伦理| 91精品午夜视频| 国内成人精品2018免费看| 中文字幕av不卡| 日本高清免费不卡视频| 亚洲成人免费观看| 欧美电影精品一区二区| 懂色av一区二区三区免费观看| 国产精品亲子乱子伦xxxx裸| 91在线精品一区二区| 亚洲第一av色| 2020国产精品自拍| 91女神在线视频| 人人超碰91尤物精品国产| 久久青草欧美一区二区三区| 99久久国产免费看| 亚洲bt欧美bt精品777| 欧美精品一区二区三区四区| 成人激情动漫在线观看| 亚洲图片一区二区| 精品黑人一区二区三区久久 | 精品视频1区2区| 另类小说一区二区三区| 色诱视频网站一区| 色呦呦日韩精品| 婷婷久久综合九色综合绿巨人| 日韩欧美国产综合| av一区二区三区黑人| 亚洲午夜视频在线| 久久久久久免费网| 在线精品视频免费播放| 国产在线不卡一区| 亚洲综合清纯丝袜自拍| 久久久久国产精品人| 在线欧美日韩国产| 国产一区999| 午夜免费欧美电影| 国产精品国产a级| 日韩手机在线导航| 色综合久久精品| 国产裸体歌舞团一区二区| 亚洲精品欧美激情| 久久久久久久久蜜桃| 欧美三级在线播放| av一区二区三区黑人| 韩日av一区二区| 亚洲一区二区欧美日韩| 中文字幕第一区综合| 欧美大片免费久久精品三p| 一本色道亚洲精品aⅴ| 国产激情视频一区二区三区欧美| 午夜伊人狠狠久久| 国产精品久久久久久久久久免费看| 欧美一区2区视频在线观看| 日本高清不卡在线观看|