天水網(wǎng)站建設(shè)公司告訴你Robots協(xié)議到底怎么寫好
Robots協(xié)議(也稱為爬蟲協(xié)議、機器人協(xié)議等)的全稱是“網(wǎng)絡(luò)爬蟲排除標準”(Robots Exclusion Protocol),網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。Robots是各大搜索引擎公認的隱私網(wǎng)頁保護權(quán)益,如果你的站點有某些頁面不想讓搜索引擎抓取到,可以選擇屏蔽該類URL這也是最基本網(wǎng)站建設(shè)知識,搜索引擎就不會將屏蔽的頁面進行開放。Robots協(xié)議寫到禁止不要搜索引擎抓取但是搜索引擎的蜘蛛可能還會抓取,但是不一定會將內(nèi)容放出來。
天水網(wǎng)站建設(shè)公司認為,對于站點內(nèi)容頁面較少其實可以選擇不屏蔽抓取,屏蔽抓取的目的大致分為兩個,1.該類數(shù)據(jù)不能對外公布 2.節(jié)省網(wǎng)站自身抓取配額。
如果是出于隱私角度完全可以將內(nèi)容設(shè)置加密,比如用戶需要登錄后才能看到完整的內(nèi)容,像這些內(nèi)容搜索引擎就無法完整的抓取到,通過這個原理只要不想被搜索引擎抓取到可以選擇登錄后才能看到內(nèi)容,這樣就能輕易的避免搜索引擎的蜘蛛進行抓取。
節(jié)省網(wǎng)站的抓取配額,對于小站來說配額是充足的。也不會出現(xiàn)大量的無效頁面或者廣告以及低俗的內(nèi)容。Robots協(xié)議到底怎么寫好呢?下面天水網(wǎng)站建設(shè)公司告訴你具體的寫法。
robots.txt寫法
如果需要屏蔽一些頁面不能讓搜索引擎抓取到的內(nèi)容,還是可以通過robots來解決。但是有個重點需要注意,屏蔽的這些頁面URL結(jié)構(gòu)如果完整的寫robots里面就非常容易暴露給競爭對手,相信很多的中大型站點是有很多的頁面沒有在網(wǎng)站首頁或者其他頁面給予鏈接入口。但是為了測試或者其他原因選擇了暫時屏蔽就會給予競爭對手更多研究的方向。所以在robots里面還存在一個非常大安全隱患,如果將所有不必要的頁面都選擇屏蔽那為什么還要進行建立,屏蔽寫作robots文件里面未必是件好事。
也可以使用另外一種方式進行屏蔽,比如寫作meta信息里面;
也可以進行屏蔽。
也能有效的進行屏蔽抓取
常見的robots.txt文件協(xié)議都是這樣的;
User-agent: *
Disallow: /?
Disallow: /ulod
sitemap: http://www.ytbbb.cn/sitemap.xml
1.告知所有的搜索引擎蜘蛛,這里的*代表的所有的搜索引擎種類
2.但不允許抓取帶“?”的URL
3.不允許抓取”/ulod”該文件下的內(nèi)容
4.這個站點網(wǎng)站地圖抓取地址
告訴搜索引擎不愿意被抓取到的頁面URL結(jié)構(gòu)填寫在robots文件中,允許收錄的就可以不寫。
相關(guān)熱詞搜索: Robots協(xié)議,怎么寫,天水網(wǎng)站建設(shè)公司