自由的xxxx在线视频,日本国产精品,91婷婷韩国欧美一区二区

主頁 > 網站建設 > 建站知識 > 復制站點與DeDecms防采集的方法

復制站點與DeDecms防采集的方法

POST TIME:2020-04-10 20:29

軟件APP類網站源碼織夢通用型企業網站源碼html

html5響應式網站織夢模板源碼IT網絡工作室織夢網

藍色安防器材公司類整站模板

工業環保工程類企業網站織夢模板(帶手機端)

去年年底，某客戶找我幫忙制作了一個企業網站，考慮到網站日后要進行搜索引擎推廣，因此，網站在SEO上必須具備搜索引擎友好性，權衡左右，最終我選擇了DeDeCMS，這樣可以在URL、PageTitle、TextBlock、LinkBlock、Auto Sitemap、Related Article幾方面及早進行SEO布局。于是，在欄目規劃、布局設計、模板制作階段，我便將各種SEO元素充分融入整個制作階段，期望站點上線后，搜索排名權重可以快速積累。特別是在模板代碼撰寫方面，有效的控制鏈接輸出與導入，盡可能提高內鏈接的相關性以及關鍵詞匹配的位置，并去除了無用的網頁噪音信息，使每類頁面主題都特別突出。

果不其然，網站正式發布后，網站收錄比例很快達到70%，絕大多數產品終端頁被收錄，部分資訊頁面被收錄，更重要的是：行業關鍵詞排名與產品關鍵詞排名進步飛速；整個網站在SEO運轉中呈良性發展趨勢。客戶開始接手網站并正常更新站點內容，按照設定的計劃，一切本應該順利進展。

然而就在近期，網站SEO表現開始下滑，首當其沖的是網頁收錄數量，在百度統計后臺顯示的頁面索引量與搜索框中site命令返回結果數差別明顯，site命令顯示只有2個頁面被收錄，均是首頁，帶www與不帶www的兩個版本的首頁。除此之外，當資訊被正常更新后，百度很快索引了，短時間內通過site命令可以返回結果，但時間不長即又發現收錄失效。綜合上述情況，我認為網站已經被百度降權了。

為了找到問題所在，我研究了各個方面的影響因素，結果發現：

（1）除了正常更新網站內容外，企業方也在積極運作外鏈，建設外鏈本來是好事，但卻用錯了方式，參與了資源站的鏈輪；

（2）網上驚現模板相同、內容相同、品牌不同的仿制站，而且仿制站在百度收錄也是只有首頁，與客戶網站“驚人的相似”。

1、關于鏈輪問題，還好我及時發現并制止了這種行為，由于只有幾篇產品頁參與了鏈輪，時間不長，應該不至于影響如此之大，何況還是自身資源站點。

2、關于復制站點，已經很少見了，大部分人都會有意識的形成站點內容或者組織形式上的差異化；而客戶網站出現這樣的SEO癥狀，恐怕關鍵就在于仿制站點，當在我看到仿制站的一刻我徹底無語了，除了企業品牌名稱不同，網站其他東西我都太清楚了；我很想吐槽，可回頭一想現在的互聯網不就流行各處抄襲的風氣嗎，也許習慣了就好，可我TM實在不能忍受的是，模板100%仿制就算了，數據原封不動的采集過去也罷了，拜托，你TMD敢不把99%雷同的站點整體發布出來嗎！你TMD搞SEO不知道相似站點啊！你TMD仿站還能把我寫的自動更新網站地圖文件sitemap.php也能仿制過去！做SEO的傷不起啊。

吐槽歸吐槽，問題還是需要解決的，采用了幾下的辦法：

1、調整模板數據調用規則與新內容塊布置

新內容塊產生將頁面主題關鍵詞更分散一些，同時調整數據調用規則，讓仿制站點的數據與自身頁面數據產生差異性，降低復制網站SEO問題的負面影響。

2、找到防止內容采集的辦法

DeDeCMS自身有防采集混淆字符串的功能，但這種防采集的辦法對SEO很不利，你總不想讓搜索蜘蛛看到網頁中有不少隱藏文本吧，而且這些文本會影響蜘蛛對信息塊主題的判斷，影響關鍵詞排名，其實，DeDeCMS沒有根本性的防采集的方法，道高一尺魔高一丈啊，只要你的信息通過頁面的方式發布出來，總能找到采集的方法；綜合網上收集的信息，我采納了兩種辦法，只能放置最初級的采集：

（1）辦法一：復制網頁正文內容時自動添加版權信息

JavaScript代碼

<!--

document.body.oncopy = function() {

setTimeout( function() {

var text = clipboardData.getData("text");

if (text) {

texttext = text + " （這里是你的文章版權信息，去掉括號）："+location.href;

clipboardData.setData("text", text);

}

}, 100 )

}

-->

</script>

將以上代碼放置在文章頁模板中正文結束后面即可。我測試了下該方法，只針對IE瀏覽器有效，而Firefox、遨游、Google Chrome均無效。

（2）辦法二：使頁面代碼具有唯一性

一般別人采集的時候都是要獲取內容開始的代碼和結束的代碼，而且要唯一性的，所以填的開始代碼大多是：<div>。這樣，我們在這個class后面加上文章的ID值，改成這樣<div id="{dede:field.id/}">，這里{dede:field.id/}在dedecms中是獲取當前文章的ID值，那么生成的每一篇文章的ID值都不一樣，這里的開始代碼也就都不一樣了，這樣別人就采集不到了，采一次只能采一篇。

我們制作模板的時候在在body標記附近的<div>修改成<div>，注意是空格+{dede:field.id/}，這樣div的class還是沒有變，但產生了<div>，這段代碼在每篇文章的內文頁均是唯一性的，或者在html標記里插入id={dede:field.id/}，比如：<div id={dede:field.id/}>與<body id={dede:field.id/}>，這里{dede:field.id/}在dedecms中是獲取當前文章的ID值，這樣別人就采集不到了，采一次只能采一篇。當然，別人可以使用過濾規則來去掉，但是假如我在所有的class里插入文檔ID，或者插入id=文檔ID這樣的。那他就只能采集整個頁面，然后再過濾，使采集變得更加復雜。

缺點：如果插入{dede:field.id/}不夠多的話別人可以用過濾規則過濾掉。但是對于一些站群采集軟件來說，這一招足以防止他們采集了！

3、升級DeDeCMS至最新版

DeDeCMS舊版有漏洞，很容易被黑，要么就是嵌入各種廣告代碼，要么就是被無端增加超級多的隱藏鏈接，所以，務必要升級到最新版。