通常大家會認為檢索預算(Crawl Budget )是我們無法控制的事情。或者更確切地說,根本不考慮檢索預算是很常見的。然而,隨著我們的網站變得越來越大,檢索預算成為我們在搜索中存在的主要影響因素。在本篇文章中,我們的 SEO 專家們將討論檢索預算的重要性,並分享一些有關管理網站檢索預算的實用建議。
檢索預算是 Google 願意花費在檢索您的網站上的資源量。可以說您的檢索預算等於每天檢索的頁面數,但事實並非如此。有些頁面比其他頁面消耗更多資源,因此即使預算保持不變,爬網頁面的數量也會有所不同。
在分配檢索預算時,Google 一般會看四件事:你網站的受歡迎程度、更新率、頁面數量和處理檢索的能力。但即使它是一種複雜的算法,您仍然可以干預並幫助 Google 管理它檢索您網站的方式。
檢索預算決定了您的網頁在搜索中出現的速度,這裡的主要問題是檢索預算與您網站的更新率之間可能存在不匹配。如果發生這種情況,您將在創建或更新頁面的那一刻與它出現在搜索中的那一刻之間經歷越來越長的延滯。
您沒有獲得足夠的檢索預算的一個可能原因是 Google 認為您的網站不夠重要。所以它可能被認為是垃圾網頁,或判定提供非常糟糕的用戶體驗,也有可能兩者皆是。在這種情況下,除了發布更好的內容並等待您的聲譽提高之外,您應該是無能為力。
您沒有獲得足夠的檢索預算的另一個可能原因,是您的網站充滿了檢索陷阱。在某些技術問題上,爬蟲可能會陷入循環迴圈,無法找到您的頁面,或者不鼓勵訪問您的網站。在這種情況下,您可以採取一些措施來顯著提高您的檢索能力,我們將在以下內容進一步討論它們。
如果您正在運行具有頻繁更新率(從每天一次到每週一次)的大型或中型網站,檢索預算可能會成為一個重要問題。在這種情況下,缺乏檢索預算可能會造成永久性索引延滯。在啟動新網站或重新設計舊網站時,這也可能是一個問題,並且很快就會發生很多變化,儘管這種類型的檢索延滯最終會自行解決。無論網站的大小如何,最好至少對其進行一次可能的檢索問題審核。如果您正在運行一個大型網站,那麼現在就立刻去做,如果您正在運行一個較小的網站,那麼不急,只需將它放在您的待辦事項列表中即可。
如何優化您的檢索預算?
您應該做很多事情來鼓勵搜索爬蟲造訪,檢索您網站的更多頁面,並更頻繁地執行此操作。以下是最大化檢索預算功能的操作列表:
網站地圖是一個文字檔,其中包含您希望在搜索中被檢索和索引的所有頁面。如果沒有網站地圖,Google 將無法發現您網站上內部連結包含的頁面。這樣一來,Google 需要一段時間後才能了解您網站的範圍,並決定哪些發現的頁面應該被編入索引,哪些不應該被編入索引。通過網站地圖,Google 可以準確地知道您的網站有多大以及哪些頁面要被索引。甚至可以選擇告訴 Google 每個頁面的優先級別,以及它的更新頻率。借助所有這些資訊,Google 可以為您的網站設計最合適的檢索模式。值得一提的是,Google 將網站地圖視為由你推薦,而不是必須,您也可以忽略您的網站地圖,並為您的網站選擇不同的檢索模式。
現在,您可以通過多種方式建立網站地圖。如果您使用的是 CMS 平台,例如 Shopify,那麼您的網站地圖可能會自動生成並且已經在 yourwebsite.com/sitemap.xml 上可用。其他 CMS 平台肯定會有提供網站地圖服務的 SEO 插件。同一個網站有多個網站地圖也很常見。有時這樣做是為了方便,更容易管理主題相似的頁面,有時它是出於必要。網站地圖文字檔限制為 50 K 頁面,如果您有一個更大的網站,您將被迫建立多個網站地圖以覆蓋全部頁面。
一個常見的檢索問題是 Google 認為該頁面應該被檢索但無法訪問。在這種情況下,可能會發生兩種情況,首先是該頁面不應被檢索,並且錯誤地提交給了 Google。在這種情況下,您必須通過從網站地圖中刪除該頁面或通過刪除該頁面的內部連結,或可能兩者兼而有之來取消提交該頁面。其次是頁面應該被檢索,但訪問被錯誤拒絕。在這種情況下,您應該檢查會阻止訪問的原因,像是 robots.txt、4 xx、5 xx、重定向錯誤等,並逐一解決問題。
無論哪種情況,這些混合信號都會將 Google 逼入死胡同,並且非必要地浪費您的檢索預算。尋找和解決這些問題的最佳方法是在 Google Search Console 中查看您的涵蓋範圍報告。 Google Search Console 的錯誤選項專門用於檢索衝突,並為您提供錯誤數量、錯誤類型和受影響頁面的列表。
另一種類型的檢索衝突是頁面被錯誤地檢索和索引。這顯然是在浪費您的檢索預算,但更重要的是,這也可能會造成安全問題。如果您使用錯誤的方式來阻止檢索,則可能意味著您的某些私人頁面已被編入索引並且現在可以公開使用。
要尋找此類頁面,最好還是使用 Google Search Console 及其涵蓋範圍報告,您將獲得檢索的頁面數,以及可疑問題和受影響頁面的列表。這些頁面最常見的問題是它們被 robots.txt 文件阻止。網站管理員仍然要經常使用 robots.txt 來阻止頁面被編入索引。同時,Google 將 robots.txt 說明視為建議,並可能決定在搜索中仍顯示已屏蔽頁面。要解決這些問題,請查看頁面列表並決定是否要將它們編入索引。如果沒有,您必須使用 noindex 元標記完全阻止爬蟲,然後從搜索中刪除頁面。如果是,您必須從 robots.txt 文件的 disallow 指令中指示刪除該頁面。
通過告訴 Google 忽略非必要資源,您可以節省大部分的檢索預算。GIF、影片和圖像等內容可能會佔用大量記憶體,但這類資料通常用於裝飾或娛樂,對於理解頁面內容可能不是那麼重要。要阻止 Google 檢索這些非必要的資源,請使用您的 robots.txt 文件禁止它們。您可以按名稱禁止單個資源或是禁止整個文件類型。
如果連續出現不合理數量的 301 和 302 重定向,搜索引擎將在某個時候會停止跟踪重定向,並且可能無法檢索目標頁面。更重要的是,每個重定向的 URL 都浪費了您的檢索預算。請確保您連續使用重定向不會超過兩次,並且僅在絕對必要時才使用。要獲取帶有重定向的頁面的完整列表,請諮詢您的 SEO 專家,針對具有 302 重定向的頁面和具有 301 重定向的頁面獲取重定向頁面整理出完整列表,針對具有長重定向鏈的頁面獲取具有超過 2 個重定向的 URL 列表。
有些內容管理系統會生成大量的動態 URL,但所有這些 URL 可能都指向同一個頁面,正常情況下,搜尋引擎機器人會將這些 URL 視為單獨的頁面。因此,您可能既浪費了檢索預算,又可能滋生出重複內容問題。如果您網站的搜尋功能或 CMS 將參數添加到不影響頁面內容的 URL,請確保通過在 Google Search Console 帳戶中管理這些參數,讓 Google 知道它,並決定是否允許搜索用戶查看該頁面。
重複的內容意味著有兩個或多個頁面具有非常相似的內容。這可能由於多種原因而發生,動態 URL 就是其中之一,還有 A/B 測試、www/非 www 版本、http/https 版本、內容聯合以及某些 CMS 平台的細節。具有重複內容的問題是您浪費雙倍的預算來檢索相同的內容。要解決重複內容問題,您首先必須找到重複頁面。請諮詢您的 SEO 專家尋找重複的標題和元描述,尤其是元描述是具有相同內容的頁面的一個很好的指標。如果找到任何確實相似的頁面,那麼您必須確定哪個是主要頁面,哪個是重複頁面。現在轉到重複頁面並將此 canonical 代碼添加到 head 部分,這樣,Google 將忽略重複頁面並專注於檢索主頁。
儘管內部連結與您的檢索預算沒有直接關係,但 Google 表示直接從您的首頁連結的頁面可能被認為更重要並且被更頻繁地檢索。一般來說,將您網站的重要區域與任何頁面保持距離不超過 3 次點擊是一個不錯的建議。在您的網站選單或頁腳中包含最重要的頁面和類別。對於較大的網站,例如部落格和電子商務網站,包含相關貼文/產品和特色貼文/產品的部分,可以極大地幫助您將目標網頁放在那裡,無論是對於用戶還是搜索引擎。
如果您剛剛發布或更新了令人驚嘆的內容,並且迫不及待地等待 Google 檢索它,請使用 Google Search Console 的請求索引功能。您所要做的就是將您的 URL 複製到頂部的 URL 檢查字段中,單擊 Enter,然後請求索引。即使頁面已經編入索引,但您可能剛剛更新它,實際上也可以這樣做。此功能的效果不是立竿見影的。與 Google 的一切一樣,這個請求更像是一個非常禮貌的向 Google 推薦。
如您所見,搜索引擎優化不僅僅與「有價值的內容」和「信譽良好的連結」有關。當您網站表面看起來很漂亮時,可能是時候去內部深處進行一些爬蟲搜尋了,這肯定會在提高您網站的搜索性能方面創造奇蹟。現在您已經掌握了馴服搜索引擎爬蟲所需的所有工具與知識,請繼續在您自己的網站上對其進行測試,並與我們的 SEO 專家分享結果!