天水網(wǎng)站建設(shè)公司告訴你Robots協(xié)議到底怎么寫(xiě)好
Robots協(xié)議(也稱(chēng)為爬蟲(chóng)協(xié)議、機(jī)器人協(xié)議等)的全稱(chēng)是“網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取。Robots是各大搜索引擎公認(rèn)的隱私網(wǎng)頁(yè)保護(hù)權(quán)益,如果你的站點(diǎn)有某些頁(yè)面不想讓搜索引擎抓取到,可以選擇屏蔽該類(lèi)URL這也是最基本網(wǎng)站建設(shè)知識(shí),搜索引擎就不會(huì)將屏蔽的頁(yè)面進(jìn)行開(kāi)放。Robots協(xié)議寫(xiě)到禁止不要搜索引擎抓取但是搜索引擎的蜘蛛可能還會(huì)抓取,但是不一定會(huì)將內(nèi)容放出來(lái)。
天水網(wǎng)站建設(shè)公司認(rèn)為,對(duì)于站點(diǎn)內(nèi)容頁(yè)面較少其實(shí)可以選擇不屏蔽抓取,屏蔽抓取的目的大致分為兩個(gè),1.該類(lèi)數(shù)據(jù)不能對(duì)外公布 2.節(jié)省網(wǎng)站自身抓取配額。
如果是出于隱私角度完全可以將內(nèi)容設(shè)置加密,比如用戶(hù)需要登錄后才能看到完整的內(nèi)容,像這些內(nèi)容搜索引擎就無(wú)法完整的抓取到,通過(guò)這個(gè)原理只要不想被搜索引擎抓取到可以選擇登錄后才能看到內(nèi)容,這樣就能輕易的避免搜索引擎的蜘蛛進(jìn)行抓取。
節(jié)省網(wǎng)站的抓取配額,對(duì)于小站來(lái)說(shuō)配額是充足的。也不會(huì)出現(xiàn)大量的無(wú)效頁(yè)面或者廣告以及低俗的內(nèi)容。Robots協(xié)議到底怎么寫(xiě)好呢?下面天水網(wǎng)站建設(shè)公司告訴你具體的寫(xiě)法。
robots.txt寫(xiě)法
如果需要屏蔽一些頁(yè)面不能讓搜索引擎抓取到的內(nèi)容,還是可以通過(guò)robots來(lái)解決。但是有個(gè)重點(diǎn)需要注意,屏蔽的這些頁(yè)面URL結(jié)構(gòu)如果完整的寫(xiě)robots里面就非常容易暴露給競(jìng)爭(zhēng)對(duì)手,相信很多的中大型站點(diǎn)是有很多的頁(yè)面沒(méi)有在網(wǎng)站首頁(yè)或者其他頁(yè)面給予鏈接入口。但是為了測(cè)試或者其他原因選擇了暫時(shí)屏蔽就會(huì)給予競(jìng)爭(zhēng)對(duì)手更多研究的方向。所以在robots里面還存在一個(gè)非常大安全隱患,如果將所有不必要的頁(yè)面都選擇屏蔽那為什么還要進(jìn)行建立,屏蔽寫(xiě)作robots文件里面未必是件好事。
也可以使用另外一種方式進(jìn)行屏蔽,比如寫(xiě)作meta信息里面;
也可以進(jìn)行屏蔽。
也能有效的進(jìn)行屏蔽抓取
常見(jiàn)的robots.txt文件協(xié)議都是這樣的;
User-agent: *
Disallow: /?
Disallow: /ulod
sitemap: http://www.ytbbb.cn/sitemap.xml
1.告知所有的搜索引擎蜘蛛,這里的*代表的所有的搜索引擎種類(lèi)
2.但不允許抓取帶“?”的URL
3.不允許抓取”/ulod”該文件下的內(nèi)容
4.這個(gè)站點(diǎn)網(wǎng)站地圖抓取地址
告訴搜索引擎不愿意被抓取到的頁(yè)面URL結(jié)構(gòu)填寫(xiě)在robots文件中,允許收錄的就可以不寫(xiě)。
相關(guān)熱詞搜索: Robots協(xié)議,怎么寫(xiě),天水網(wǎng)站建設(shè)公司