一.什么是robots.txt文件?
搜索引擎通過一種程序robot(又稱spider),自動訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息。spider在訪問一個網(wǎng)站時,會首先會檢查該網(wǎng)站的根域下是否有一個叫做robots.txt的純文本文件。您可以在您的網(wǎng)站中創(chuàng)建一個純文本文件robots.txt,在文件中聲明該網(wǎng)站中不想被robot訪問的部分或者指定搜索引擎只收錄特定的部分。
請注意,robots.txt是一個純文本文件,是搜索引擎蜘蛛爬行網(wǎng)站的時候要訪問的第一個文件,當(dāng)蜘蛛訪問一個站點(diǎn)時,它會首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會按照該文件中的內(nèi)容來確定訪問的范圍,相當(dāng)于網(wǎng)站與搜索引蜘蛛遵循協(xié)議,如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被屏蔽的網(wǎng)頁,作為站長,我們就可以通過robots.txt文件屏蔽掉錯誤的頁面和一些不想讓蜘蛛爬取和收錄的頁面。
二.robots.txt放置位置
robots.txt文件應(yīng)該放置在網(wǎng)站根目錄下。舉例來說,當(dāng)spider訪問一個網(wǎng)站(比如http://m.11g56c.cn)時,首先會檢查該網(wǎng)站中是否存在http://m.11g56c.cn/robots.txt這個文件,如果Spider找到這個文件,它就會根據(jù)這個文件的內(nèi)容,來確定它訪問權(quán)限的范圍。
三.robots.txt作用
第一,Robots.txt文件大大節(jié)省服務(wù)器寬帶
我們都知道像email retrievers、image strippers這類搜索引擎都耗用大量寬帶,而且對網(wǎng)站沒有什么太大的意義,而通過Robots.txt就可以制止不必要的爬行工作,如果你的網(wǎng)站是圖片站的話,沒有設(shè)置好Robots.txt文件的話,就會浪費(fèi)大量的服務(wù)器寬帶。
第二、方便搜索引擎爬起工作
如果你的網(wǎng)站內(nèi)容豐富,頁面很多,設(shè)置Robots.txt文件更為重要,比如你有個網(wǎng)站,整個站有50多個G,打開頁面可能會比較慢,如果不配置好Robots.txt文件的話,蜘蛛爬行工作就會很費(fèi)力,而且如果太多的蜘蛛爬行,以至?xí)绊懩憔W(wǎng)站的正常訪問。
第三、聲明該網(wǎng)站中不想被robot訪問的部分或者指定搜索引擎只收錄特定的部分,優(yōu)化蜘蛛訪問效率,蜘蛛抓取更頻繁。
第四、引導(dǎo)蜘蛛爬網(wǎng)站地圖
介紹:麥道科技,專注于網(wǎng)站建設(shè)領(lǐng)域10年,具有成熟的網(wǎng)站制作理念,豐富的網(wǎng)頁設(shè)計經(jīng)驗(yàn)。