關(guān)于網(wǎng)站結(jié)構(gòu)優(yōu)化小技巧
2023-03-15?
圍觀熱度 1684?建站知識
簡單談一下優(yōu)化網(wǎng)站結(jié)構(gòu)時(shí)增加網(wǎng)站收錄的技巧,希望對讀者有所幫助。
先來看一下如下圖所示的內(nèi)容,如果告訴我這是一位SEOer寫的,那么我絕對不會相信。為什么呢?代碼中存在大量的<iframe></iframe>框架結(jié)構(gòu),懂點(diǎn)SEO的人一定知道,這段代碼是不可能進(jìn)行蜘蛛爬行的。
下面通過介紹搜索引擎蜘蛛爬取和收錄網(wǎng)頁,來掌握相關(guān)的SEO技術(shù),以免在搜索引擎優(yōu)化過程中,犯類似上述的錯(cuò)誤。
技巧1:了解爬取過程
想要讓爬蟲(也就是蜘蛛)爬取和收錄網(wǎng)頁,需要有一定的策略。這如同做一件事情,要有一定的計(jì)劃和安排,對付網(wǎng)絡(luò)爬蟲一定要有策略。策略有抓取、更新和抽取之分,具體情況如下圖所示。
⑴抓取策略
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)頁的數(shù)量規(guī)模不斷擴(kuò)大,如此巨大的數(shù)據(jù)量,最終決定了爬蟲所能抓取的網(wǎng)頁數(shù)量只能是其所下載網(wǎng)絡(luò)的一部分。因此,事先定義清除哪些網(wǎng)頁需要下載,哪些不需要下載,哪些網(wǎng)頁優(yōu)先下載,能節(jié)省很多無謂的爬取。
⑵更新策略
編寫搜索引擎程序的時(shí)候,需要判斷一個(gè)網(wǎng)頁是否已經(jīng)更新。頁面更新了需要重新下載,再次建立索引;若沒有更新,則不用重新索引,從而節(jié)約系統(tǒng)資源。具體方法包括通過監(jiān)控列表頁來發(fā)現(xiàn)新的頁面,定期檢查(check)頁面是否過期等。
⑶抽取策略
爬蟲并不追求覆蓋面大,而是將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。此時(shí)需要考慮如何從網(wǎng)頁中抽取想要的內(nèi)容,不僅要包含最終的目標(biāo)內(nèi)容,還有下一步要抓取的URL。
技巧2:掌握抓取頻率
除了前面提到的這幾種相關(guān)策略,還需要注意爬蟲的“抓取頻率”。對于搜索引擎而言,爬蟲效率的一個(gè)重要評價(jià)標(biāo)準(zhǔn)就是爬蟲開銷。Dasgupta等人將爬蟲開銷定義為:爬蟲開銷=重復(fù)抓取的老頁面數(shù)/發(fā)掘的新頁面數(shù)。
那么,爬蟲的抓取頻率以及效率該如何優(yōu)化呢?下面進(jìn)行具體介紹。
首先,以robots.txt命名的文本文件是個(gè)很強(qiáng)的利器,當(dāng)網(wǎng)站上擁有重復(fù)內(nèi)容、無內(nèi)容且無意義頁面等類似內(nèi)容的時(shí)候,就可以果斷地用robots.txt屏蔽掉。這里需要注意:robots.txt文件可以用通配符書寫,書寫是比較自由的。建議把xml格式的sitemap路徑放在robots.txt文件中,供搜索引擎尋找。
其次,當(dāng)需要合理地、有效率地下載一個(gè)網(wǎng)站時(shí),設(shè)置參數(shù)nofollow,可以讓百度搜索引擎不抓取頁面上的所有鏈接。在robots.txt文件中添加rel=“noindex”語句,不能阻止百度爬蟲抓取,因?yàn)閚oindex參數(shù)可以讓搜索引擎不把當(dāng)前網(wǎng)頁置入索引庫,但是頁面上所有的鏈接,爬蟲都會去分析。若要屏蔽鏈接,要加上nofollow參數(shù)。
總之,提高爬蟲的抓取效率在SEO之中是一件比較重要的事情,尤其對于中大型網(wǎng)站而言,應(yīng)該將大部分精力放在讓爬蟲抓取更多更準(zhǔn)的頁面上,而不是讓它抓到無意義的頁面。