起重學(xué)院
下載手機(jī)APP
當(dāng)前位置: 首頁 ? 起重學(xué)院 ? 電子商務(wù) ? 正文

聚類搜索引擎概念和基本工作步驟解析

來源:中國起重機(jī)械網(wǎng)
|
|
|

隨著互聯(lián)網(wǎng)技術(shù)和互聯(lián)網(wǎng)應(yīng)用系統(tǒng)的快速發(fā)展,各個領(lǐng)域的互聯(lián)網(wǎng)應(yīng)用系統(tǒng)都已經(jīng)積累了海量的Web數(shù)據(jù),包括產(chǎn)品數(shù)據(jù)、用戶數(shù)據(jù)、評價數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)、狀態(tài)數(shù)據(jù)等等。這些數(shù)據(jù)不僅內(nèi)容極其豐富,而且很大程度上都開放給互聯(lián)網(wǎng)用戶,可以免費(fèi)的訪問、下載和處理。這就為進(jìn)一步集成和開發(fā)這些Web數(shù)據(jù)的潛在價值,建立增值應(yīng)用提供了重要基礎(chǔ)。聚類搜索是近年來發(fā)展最為迅速的互聯(lián)網(wǎng)數(shù)據(jù)集成和增值技術(shù)。

 

聚類搜索是在垂直搜索基礎(chǔ)上發(fā)展起來的新型搜索技術(shù)。垂直搜索是主要針對行業(yè)的專業(yè)搜索,側(cè)重于某一行業(yè)領(lǐng)域,其目的是使用戶能夠更加方便地找出所需的專業(yè)信息。而聚類搜索是為了進(jìn)一步提高搜索的精度使其符合用戶的搜索習(xí)慣和興趣,在搜索引擎的搜索結(jié)果中進(jìn)行聚類,把搜索出來的信息進(jìn)行分類處理,將使信息資源更加清晰明了。

 

所謂聚類搜索引擎,就是運(yùn)用聚類技術(shù)對搜索結(jié)果進(jìn)行自動聚類分析的搜索工具。其特點(diǎn)是去重性強(qiáng)、分類性強(qiáng)、匯集性強(qiáng),即可以及時去除重復(fù)信息,對搜索的結(jié)果進(jìn)行分門別類,并可以匯集各大知名搜索引擎的信息資源。

 

目前,典型的聚類搜索引擎的基本工作步驟為:①依據(jù)用戶查詢的關(guān)鍵字,從一個或多個搜索引擎獲取搜索結(jié)果;②對搜索結(jié)果進(jìn)行預(yù)處理,過濾掉重復(fù)、無效信息;③將文檔中關(guān)鍵短語作為特征提取出來生成聚類標(biāo)簽;④將文檔分配到生成的聚類標(biāo)簽下;⑤將聚類后的搜索結(jié)果進(jìn)行排序并顯示給用戶。

?

移動版:聚類搜索引擎概念和基本工作步驟解析

?