歡迎進入含山縣吳楚新銳網絡科技有限公司官網!

服務熱線:0551-64935250

含山縣吳楚新銳網絡科技有限公司

影響百度爬蟲對網站抓取量的(Of)因素

首先介紹一(One)下百度爬蟲抓取量,其實就是(Yes)百度爬蟲對站點一(One)天抓取網頁的(Of)數量,從百度内部透露來說,一(One)般會抓兩種網頁,其中一(One)個(Indivual)是(Yes)這(This)個(Indivual)站點産生新的(Of)網頁,一(One)般 中小型站當天就可以(By)完成,大(Big)型網站可能完成不(No)了(Got it),另一(One)種是(Yes)百度以(By)前抓過的(Of)網頁,它是(Yes)需要(Want)更新的(Of),比如一(One)個(Indivual)站點已經被百度收錄了(Got it)5w,那麽百度會給出(Out)一(One)個(Indivual)時(Hour)間段,比如30天,然後平均一(One)下,每天到這(This)個(Indivual)站點上(Superior)面抓5W/30的(Of)這(This)樣一(One)個(Indivual)數字,但是(Yes)具體的(Of)量,百度有自己的(Of)一(One)套算法公式來計算。

影響百度抓取量的(Of)因素。

1.站點安全

對于(At)中小型站點,在(Exist)安全技術上(Superior)比較薄弱,被黑被篡改的(Of)現象非常常見,一(One)般被黑有常見幾種情況,一(One)種是(Yes)主域被黑,一(One)種是(Yes)标題被篡改,還有一(One)種是(Yes)在(Exist)頁面裏面加 了(Got it)很多的(Of)外鏈。一(One)般主域被黑就是(Yes)被劫持,就是(Yes)主域被進行301的(Of)跳轉到指定的(Of)網站,而如果在(Exist)百度那邊發現跳轉後的(Of)是(Yes)一(One)些垃圾站,那麽你這(This)個(Indivual)站點抓取量會裏 面降低。

2.内容質量

如果抓取了(Got it)10萬條,而隻有100條建庫了(Got it),那麽抓取量還會降下來,因爲(For)百度會認爲(For)抓取的(Of)網頁比例很低,那麽就沒必要(Want)去抓取更多,所以(By)要(Want)“甯缺毋濫”,特别要(Want)注意在(Exist)建站的(Of)時(Hour)候一(One)定要(Want)注意質量,不(No)要(Want)采集一(One)些内容,這(This)是(Yes)一(One)種潛在(Exist)的(Of)隐患。

3.站點響應速度

①網頁的(Of)大(Big)小會影響抓取,百度建議網頁的(Of)大(Big)小在(Exist)1M以(By)内,當然類似大(Big)的(Of)門戶網站,如新浪另說。

4.同ip上(Superior)面主域的(Of)數量

百度抓取都是(Yes)按照ip進行去抓取的(Of),比如在(Exist)一(One)個(Indivual)ip上(Superior)一(One)天抓取了(Got it)1000w個(Indivual)頁面,而在(Exist)這(This)個(Indivual)站點上(Superior)有40W的(Of)站點,那麽平均下來抓取每個(Indivual)站點的(Of)數量會分的(Of) 很少,所以(By)在(Exist)選擇服務商的(Of)時(Hour)候,要(Want)看一(One)看同ip上(Superior)面有沒有大(Big)站,如果有大(Big)站的(Of)話,可能會被分得的(Of)抓取量會很少因爲(For)流量都跑大(Big)站上(Superior)面去了(Got it)。

在(Exist)線客服
服務熱線