- 相關(guān)推薦
Web結(jié)構(gòu)挖掘在電子商務(wù)網(wǎng)站結(jié)構(gòu)優(yōu)化中的應(yīng)用
[摘要] 本文概述了Web結(jié)構(gòu)挖掘技術(shù)并描述了其常見算法。針對(duì)Web結(jié)構(gòu)挖掘算法,提出了進(jìn)步網(wǎng)站結(jié)構(gòu)公道性的對(duì)策。使用戶通過優(yōu)化網(wǎng)站結(jié)構(gòu)來獲取更多有效客戶,擴(kuò)大網(wǎng)站影響力,從而提升網(wǎng)站價(jià)值。[關(guān)鍵詞] Web結(jié)構(gòu)挖掘 網(wǎng)站結(jié)構(gòu) 超鏈接 PageRank HITS
一、前言
網(wǎng)站的推廣對(duì)電子商務(wù)網(wǎng)站而言尤為重要。網(wǎng)站在常用搜索引擎上的排名會(huì)直接影響到網(wǎng)站的推廣和網(wǎng)站的運(yùn)營(yíng)效果。因網(wǎng)站的結(jié)構(gòu)不同,即使內(nèi)容相同,外觀相同的網(wǎng)站,在常用搜索引擎中的排名也會(huì)不同。網(wǎng)站結(jié)構(gòu)是否公道會(huì)影響到搜索引擎在網(wǎng)站頁面上抓取的結(jié)果,從而影響到網(wǎng)站的排名。在實(shí)際應(yīng)用中,常使用PR(Page Rank)值來判定網(wǎng)站結(jié)構(gòu)是否公道, PR值越高說明網(wǎng)站結(jié)構(gòu)越公道,搜索引擎就會(huì)收錄該網(wǎng)站更多的頁面,為網(wǎng)站帶來更多的流量。因此,進(jìn)步網(wǎng)站結(jié)構(gòu)的公道性,獲取更高的PR值就顯得尤為重要。只有用網(wǎng)站結(jié)構(gòu)優(yōu)化的理念往設(shè)計(jì)網(wǎng)站,才有可能設(shè)計(jì)一個(gè)成功的網(wǎng)站;赪eb的數(shù)據(jù)挖掘技術(shù)中的Web結(jié)構(gòu)挖掘( Web Structure Mining)則是判定網(wǎng)站結(jié)構(gòu)是否公道的一個(gè)有效方法。使用Web結(jié)構(gòu)挖掘方法可以進(jìn)步網(wǎng)站結(jié)構(gòu)的公道性,增加網(wǎng)站的PR值,擴(kuò)大網(wǎng)站的流量。
二、Web結(jié)構(gòu)挖掘的概念
基于Web的數(shù)據(jù)挖掘是指使用數(shù)據(jù)挖掘技術(shù)在Web數(shù)據(jù)中發(fā)現(xiàn)潛伏的、有用的模式或信息;赪eb的數(shù)據(jù)挖掘一般可以分為三類:Web內(nèi)容挖掘(Web Content Mining)、 Web結(jié)構(gòu)挖掘( Web Structure Mining)及 Web 用法挖掘(Web Usage Mining)。其中Web 結(jié)構(gòu)挖掘是對(duì)Web 的鏈接結(jié)構(gòu)進(jìn)行分析, 以對(duì)超鏈接分析來評(píng)估Web 資源, 從而發(fā)現(xiàn)有用模式, 進(jìn)步搜索質(zhì)量及進(jìn)步網(wǎng)站被抓取的可能性。Web結(jié)構(gòu)包括不同網(wǎng)頁之間的超鏈接結(jié)構(gòu)和網(wǎng)頁內(nèi)部用HTML,XML表示的樹形結(jié)構(gòu),以及文檔URL中的目錄路徑結(jié)構(gòu)等。Web頁面之間的鏈接結(jié)構(gòu)中包含了很多有用的信息,Web結(jié)構(gòu)挖掘是從Web結(jié)構(gòu)中推導(dǎo)知識(shí),即對(duì)Web文檔的結(jié)構(gòu)進(jìn)行挖掘,挖掘Web潛伏的鏈接結(jié)構(gòu)模式,通過分析網(wǎng)頁間鏈接數(shù)目及對(duì)象來建立網(wǎng)站自身的鏈接結(jié)構(gòu)模式。
Web結(jié)構(gòu)挖掘的基本思想是將Web看成是一個(gè)巨大的以Web頁面為節(jié)點(diǎn)、頁面之間超鏈接為有向邊所構(gòu)成的一個(gè)網(wǎng)狀結(jié)構(gòu)的有向圖,然后利用圖論對(duì)Web的拓?fù)浣Y(jié)構(gòu)進(jìn)行分析,從而確定其網(wǎng)站結(jié)構(gòu)的公道性。
Web結(jié)構(gòu)挖掘的算法一般可分為查詢相關(guān)算法和查詢無關(guān)算法兩類。HITS( Hypertext Induced Topic Search)和PageRank分別是查詢相關(guān)算法和查詢無關(guān)算法的代表。這些算法已經(jīng)在實(shí)際的系統(tǒng)中實(shí)現(xiàn)和使用,并且取得了良好的效果。
三、Web結(jié)構(gòu)挖掘算法描述
基于超鏈接分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank算法,同年J. Kleinberg提出了HITS算法,其他一些學(xué)者也相繼提出了另外的鏈接分析算法,如SALSA,PHITS,Bayesian等算法。對(duì)超鏈接進(jìn)行挖掘的兩個(gè)典型的算法是:PageRank算法及HITS算法。
1.PageRank算法
PageRank算法是Web超鏈接結(jié)構(gòu)分析中最成功的代表之一,該算法是評(píng)價(jià)網(wǎng)頁權(quán)威性的一種重要工具。Google、Yahoo、Baidu等都是基于該算法的搜索引擎。PageRank算法基于2個(gè)條件,一是若網(wǎng)頁A被多次引用,則A重要;若 A被重要網(wǎng)頁B引用,則A重要;B的重要性被均勻的傳遞到它所引用的網(wǎng)頁。二是若用戶訪問網(wǎng)頁A,然后跟隨A的導(dǎo)出鏈接向后瀏覽網(wǎng)頁B而不退回A,那么瀏覽B的概率就是B的PageRank值。
PageRank在具體實(shí)現(xiàn)時(shí)會(huì)忽略掉頁面的文本和其他內(nèi)容,只考慮頁面間的超鏈接。但由于網(wǎng)頁的鏈接范圍領(lǐng)域很廣,鏈接的頁面價(jià)值參差不齊,所以僅以簡(jiǎn)單的鏈接數(shù)目來判定網(wǎng)頁的重要性是不真實(shí)客觀的,所以其他研究者對(duì)PageRank算法提出了改進(jìn)。改進(jìn)的PageRank算法不僅考慮了網(wǎng)頁引用數(shù)目,還根據(jù)頁面的導(dǎo)進(jìn)鏈接的權(quán)重來計(jì)算頁面的重要性。頁面導(dǎo)進(jìn)鏈接的權(quán)重由鏈接提供頁面的重要性所決定,即當(dāng)前頁面的重要性主要由其他頁面的重要性來決定,PageRank算法就是從鏈接結(jié)構(gòu)中獲取網(wǎng)頁的重要性。
簡(jiǎn)單PageRank算法描述如下:
PR(A) = (1-d) / N d (PR(T1)/C(T1) ... PR(Tn)/C(Tn))
其中:PR(A):頁面A的PR值,
PR(Ti):頁面Ti的PR值,頁面Ti鏈向頁面A
C(Ti):頁面Ti鏈出的鏈接數(shù)目
d:阻尼系數(shù),取值在0-1之間
N:互聯(lián)網(wǎng)上所有網(wǎng)頁的數(shù)目
由此可見,PageRank算法不以站點(diǎn)排序,頁面PR值由獨(dú)立的頁面決定。頁面的PR值由鏈向它的頁面的PR值決定,但每個(gè)鏈進(jìn)頁面的貢獻(xiàn)值是不同的。假如Ti頁面中鏈出越多,它對(duì)當(dāng)前頁面A的貢獻(xiàn)就越小。A的鏈進(jìn)頁面越多,其PR值也越高。阻尼系數(shù)的使用,減少了其他頁面對(duì)當(dāng)前頁面A的排序貢獻(xiàn)。所有頁面的PR值形成了一個(gè)概率分布,所有頁面的PR值之和為1。
簡(jiǎn)單PageRank算法也可以用矩陣來描述,設(shè)T為一個(gè)矩陣,T的行和列對(duì)應(yīng)頁面集的頁面。PageRank的算法是將T的行和列互換后得到的矩陣A。為了將各列矢量的總和變成1(全概率),把各個(gè)列矢量除以各自的鏈接數(shù)(非零要素?cái)?shù)), 即假如網(wǎng)頁i有指向網(wǎng)頁j的一個(gè)鏈接,則Aij=1/Ni,否則Aij=0,就形成了一個(gè) “推移概率行列”,各個(gè)行矢量表示頁面間的推移概率。由T顛倒得到A的理由是,PageRank 并非重視“鏈接到多少地方”而是重視“被多少地方鏈接”。PR值的計(jì)算,就是求屬于這個(gè)推移概率行列最大特性值的固有矢量。
2.HITS算法
HITS算法綜合權(quán)衡了查詢內(nèi)容與頁面鏈接的關(guān)系。HITS算法以為網(wǎng)頁的重要性依靠于用戶提出的查詢請(qǐng)求。HITS算法通過兩個(gè)評(píng)價(jià)權(quán)值——內(nèi)容權(quán)威度(Authority)和鏈接權(quán)威度(Hub)來對(duì)網(wǎng)頁質(zhì)量進(jìn)行評(píng)估。內(nèi)容權(quán)威度與網(wǎng)頁自身直接提供內(nèi)容信息的質(zhì)量相關(guān),被越多網(wǎng)頁所引用的網(wǎng)頁,其內(nèi)容權(quán)威度越高;鏈接權(quán)威度與網(wǎng)頁提供的超鏈接頁面的質(zhì)量相關(guān),引用越多高質(zhì)量頁面的網(wǎng)頁,其鏈接權(quán)威度越高。HITS算法以為對(duì)每一個(gè)網(wǎng)頁應(yīng)該將其內(nèi)容權(quán)威度和鏈接權(quán)威度分開來考慮,在對(duì)網(wǎng)頁內(nèi)容權(quán)威度做出評(píng)價(jià)的基礎(chǔ)上再對(duì)頁面的鏈接權(quán)威度進(jìn)行評(píng)價(jià),然后給出該頁面的綜合評(píng)價(jià)。
HITS算法是一個(gè)“迭代—收斂”的過程,在獲取了一個(gè)與查詢主題相關(guān)的返回頁面根集合(Root Set)S后,根據(jù)S中的頁面的鏈接關(guān)系再向集合S中擴(kuò)充與S中頁面相鏈接的頁面, 將S擴(kuò)展成一個(gè)更大的基礎(chǔ)集合(Base Set)T?蓪看作一個(gè)二分有向圖SG=(V1,V2,E),其中:頂點(diǎn)集Vl:T中的Hub網(wǎng)頁集;頂點(diǎn)集V2:T中的Authority網(wǎng)頁集;邊集E: Vl中的網(wǎng)頁到V2中的網(wǎng)頁的超鏈接。對(duì)V1中的任一個(gè)頂點(diǎn)v,用h(v)表示網(wǎng)頁v的Hub值,對(duì)V2中的頂點(diǎn)u,用a(u)表示網(wǎng)頁的Authority值。開始時(shí)h(v)=a(u)=1,對(duì)u執(zhí)行I操縱修改它的a(u),對(duì)v執(zhí)行O操縱修改它的h(v),然后規(guī)范化a(u),h(v),如此不斷的重復(fù)計(jì)算下面的操縱I,O,直到a(u),h(v)收斂。
I 操縱:(1)
O操縱:(2)
每次迭代后需要對(duì)a(u),h(v)進(jìn)行規(guī)范化處理:
式(1)反映了若一個(gè)網(wǎng)頁由很多好的Hub指向,則其權(quán)威值會(huì)相應(yīng)增加(即權(quán)威值增加為所有指向它的網(wǎng)頁的現(xiàn)有Hub值之和)。式(2)反映了若一個(gè)網(wǎng)頁指向很多好的權(quán)威頁,則Hub值也會(huì)相應(yīng)增加(即Hub值增加為該網(wǎng)頁鏈接的所有網(wǎng)頁的權(quán)威值之和)。HITS算法輸出一組具有較大Hub值的網(wǎng)頁和具有較大權(quán)威值的網(wǎng)頁。
HITS算法存在的主要題目:
(1)實(shí)際應(yīng)用中,由S天生T的時(shí)間開銷很昂貴;
(2)站點(diǎn)內(nèi)部網(wǎng)頁在權(quán)威度數(shù)值上可相互加強(qiáng);
(3)網(wǎng)頁中一些無關(guān)的鏈接影響A,H值的計(jì)算;
(4)存在與查詢主題無關(guān)的網(wǎng)頁即主題漂移現(xiàn)象。
【Web結(jié)構(gòu)挖掘在電子商務(wù)網(wǎng)站結(jié)構(gòu)優(yōu)化中的應(yīng)用】相關(guān)文章:
Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用.03-21
Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用研究03-07
Web。玻凹夹g(shù)在電子商務(wù)中的應(yīng)用03-21
數(shù)據(jù)挖掘技術(shù)在電子商務(wù)網(wǎng)站中的應(yīng)用03-28
論資本結(jié)構(gòu)優(yōu)化目標(biāo)與資本結(jié)構(gòu)優(yōu)化03-01
Web挖掘在網(wǎng)絡(luò)營(yíng)銷中的應(yīng)用研究03-23