技術:robots、Canonical標簽和Crawl-delay設置
合肥網站推廣-佳達網絡小編匯編
1、robots.txt文件
如果你以為網站index文件是搜索引擎訪問網站時查看的第一個文件,那么你錯了!robots.txt才是百度等搜索引擎訪問網站時查看的第一個文件,這個文件用于指定spider在該網站上的抓取范圍。如果網站對百度spider設置了robots.txt文件,百度會遵循robots協議,不去抓取封禁的結果,但是考慮到用戶在搜索引擎中有搜索該網站地址的需求,搜索結果中會根據搜索需求展示網站的標題及網址,但不會顯示網站的摘要。
這就是百度在今年1月上線的百度網頁搜索結果robots提示。
2、Canonical標簽
為了避免重復內容的收錄,百度會通過算法對網頁內容及鏈接進行識別,對內容完全相同或者高度相似的網頁,會計算出一個系統認為規范的網頁結果建立索引并供用戶查詢。
支持Canonical標簽以后,站長可以通過將 <link> 元素和 rel=”canonical” 屬性添加到該網頁非規范版本的<head> 部分,為搜索引擎指定規范網頁。添加此鏈接和屬性可以告訴百度:“在內容相同或高度相似的所有網頁中,該網頁為最規范最有價值的頁面,推薦將該網頁排在搜索結果中靠前的位置。”
可通過在每個非規范版本的 HTML 網頁的 <head> 部分中,添加一個 rel=”canonical” 鏈接來進行指定規范網址。
例如,要指定指向網頁 http://www.example.com/product.php?id=15786 的規范鏈接,需要按以下形式創建 <link> 元素:
<link rel=”canonical” href=”http://www.example.com/product.php?id=15786″/>
然后將上述鏈接復制到某網頁所有非規范網頁版本的 <head> 部分中(例如 http://www.example.com/product.php?id=15786&active=1),即可完成設置。
3、Crawl-delay設置
前兩點是百度支持,最后講一點百度不支持的。Crawl-delay設置原意是希望配置網站針對百度spider的訪問頻率,但百度已經很明確不支持Crawl-delay配置,如果確有需要可以使用百度站長平臺的抓取壓力反饋工具,先查詢網站在百度近一個月的天級抓取量趨勢圖,可調節百度spider每天訪問您網站的抓取壓力上限,供百度參考,避免百度spider對站點抓取壓力過大,造成網站服務器負載及抓取異常。
今天給大家分享的幾個技術點,還是有一點點專業的,愛好者不妨看看,或許有些收貨。