360搜索ICO算法簡介
時(shí)間:2018-08-16 11:34:11瀏覽量:2533
ICO算法是對(duì)已經(jīng)入索引庫的低質(zhì)量URL和無效URL數(shù)據(jù)進(jìn)行清理的算法,在不同的階段會(huì)對(duì)不同類型的無效數(shù)據(jù)進(jìn)行清理,該算法是一個(gè)長期執(zhí)行的算法。(ICO 全稱:Index clear optimize)
算法公布規(guī)范:一次清理超過10億頁面的算法360搜索都將提前公布告知站長,并告知算法優(yōu)化處理的主要方向。
ICO算法—本次針對(duì)重復(fù)內(nèi)容清理
處理量級(jí):10億以上
處理網(wǎng)頁特點(diǎn):
該算法主要是針對(duì)重復(fù)內(nèi)容進(jìn)行清理,對(duì)用戶沒有價(jià)值的內(nèi)容頁面,內(nèi)容時(shí)效性強(qiáng)且過期的頁面,采集站類,URL地址含有無效參數(shù)的頁面等。
例如:招聘類網(wǎng)站不同子站中內(nèi)容相同的頁面,小說采集站尤其處理對(duì)用戶無價(jià)值的頁面,舊新聞頁且內(nèi)容重復(fù)的頁面也會(huì)處理一部分,以及其他的部分無效頁面。