了解過搜索引擎爬蟲抓取爬行的可能會有一個比較清晰的答案,是的就是幫助爬蟲盡可能的抓取頁面,只有被讀取到的頁面才有可能被收錄。
扁平化的結構將網站的頁面盡可能的直接展示在蜘蛛爬蟲面前或者很容易被爬蟲發現,不需要一個層級一個層級的深入挖掘,除非知名站點或大型網站能夠享有這種特權。因為整個互聯網的數據量是相當龐大的,而每天更新的信息量現有的蜘蛛資源都很難去實現完全抓取,還有些頁面每天會被蜘蛛重復抓取,所以這就需要蜘蛛舍棄一些,所以也就出現了抓取策略,對低質量的網站降低抓取量,很難發現新頁面的網站將資源全都消耗在頁面的重復抓取上面。
贊
5
有一點幫助
1
沒有幫助
參與評論