- 相關(guān)推薦
用戶訪問模式挖掘及在電子商務(wù)中的應(yīng)用
摘要:當(dāng)今電子商務(wù)網(wǎng)站日益增多,網(wǎng)站所提供的功能和服務(wù)也越來越豐富,然而也存在不足。比如,提供的服務(wù)或信息分布不公道,未能充分考慮到用戶的需求;信息的訪問路徑未能考慮到信息的重要性和普遍關(guān)注性等等。本文研究將集中在基于圖結(jié)構(gòu)的用戶訪問模式挖掘及其在電子商務(wù)中的應(yīng)用上,通過對(duì)基于Web拓?fù)浣Y(jié)構(gòu)(圖結(jié)構(gòu))挖掘用戶訪問模式的數(shù)據(jù)挖掘,可對(duì)已存在的Web站點(diǎn)的結(jié)構(gòu)及站點(diǎn)內(nèi)的頁面進(jìn)行調(diào)整和改善,方便地向?yàn)g覽模式相似的用戶組推薦其感愛好的主題相似的頁面,使各類信息和服務(wù)以更有效的方式提供給用戶。關(guān)鍵詞:數(shù)據(jù)挖掘 Web日志挖掘 用戶訪問模式 Web拓?fù)浣Y(jié)構(gòu)
一、引言
近幾年因特網(wǎng)已經(jīng)成為一個(gè)巨大的、分布廣泛的和全球性的信息服務(wù)中心,逐漸滲透到人們的日常工作、生活及其它領(lǐng)域,它為用戶提供了各種信息。然而,用戶面對(duì)一堆雜亂無章的信息往往花費(fèi)了大量的精力卻無法找到理想的結(jié)果。如何有效得分析用戶的需求,幫助用戶從因特網(wǎng)的信息海洋中發(fā)現(xiàn)他們感愛好的信息和資源,已經(jīng)成為一項(xiàng)迫切而重要的課題。解決這些題目的一個(gè)途徑,就是將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與Web結(jié)合起來,進(jìn)行Web數(shù)據(jù)挖掘。其中的Web日志挖掘可以把握用戶在瀏覽站點(diǎn)時(shí)的行為,并且將挖掘出的用戶訪問模式應(yīng)用于網(wǎng)站上,在改善Web站點(diǎn)的結(jié)構(gòu)以及頁面間的超鏈接結(jié)構(gòu),進(jìn)步站點(diǎn)的服務(wù)質(zhì)量等方面有重要的意義。
二、Web數(shù)據(jù)挖掘概述
(一)Web數(shù)據(jù)挖掘的定義及分類
Web數(shù)據(jù)挖掘我們這里采用一個(gè)更一般的定義:Web數(shù)據(jù)挖掘是指從與WWW相關(guān)的資源和行為中抽取感愛好的、有用的模式和隱含信息。
Web信息的多樣性決定了Web挖掘任務(wù)的多樣性,Web數(shù)據(jù)挖掘總的來說分為內(nèi)容挖掘、結(jié)構(gòu)挖掘和日志挖掘三類,如圖l所示:
(二)Web日志挖掘
Web日志挖掘也稱Web使用挖掘,是指從Web使用數(shù)據(jù)中抽取用戶訪問模式的過程。
一般Web日志挖掘的過程分為以下三步:
1.?dāng)?shù)據(jù)預(yù)備:對(duì)Web日志內(nèi)容進(jìn)行預(yù)處理,刪除無用數(shù)據(jù),識(shí)別用戶會(huì)話,完善訪問路徑。
2.模式識(shí)別:采用相應(yīng)的數(shù)據(jù)挖掘算法,對(duì)預(yù)處理之后的數(shù)據(jù)進(jìn)行挖掘,天生模式。
3.模式分析:排除模式識(shí)別中沒有價(jià)值的規(guī)則或模式,將有價(jià)值的模式提取出來。
三、基于圖結(jié)構(gòu)的Web日志挖掘
(一)數(shù)據(jù)預(yù)備
1.?dāng)?shù)據(jù)源
目前的Web日志挖掘的數(shù)據(jù)源主要是Web服務(wù)器日志文件,它記錄了用戶訪問站點(diǎn)的數(shù)據(jù),每當(dāng)站點(diǎn)上的頁面被訪問一次,Web服務(wù)器就在日志中增加一條相應(yīng)的記錄。服務(wù)器上的日志不僅具體記錄了站點(diǎn)訪問者的瀏覽行為,而且匯集了訪問同一站點(diǎn)的多個(gè)訪問者的行為。
2.?dāng)?shù)據(jù)預(yù)處理
在Web日志挖掘中,主要分析的數(shù)據(jù)源是服務(wù)器日志,但是由于服務(wù)器日志記錄的數(shù)據(jù)并不完整,直接在其上進(jìn)行挖掘非常困難。因此要對(duì)日志數(shù)據(jù)進(jìn)行預(yù)處理主要包括以下步驟:
數(shù)據(jù)轉(zhuǎn)換:將原始日志文件導(dǎo)進(jìn)數(shù)據(jù)庫中。
數(shù)據(jù)清理:刪除與日志分析目的無關(guān)的記錄。
用戶識(shí)別:將用戶和請(qǐng)求的頁面相關(guān)聯(lián)。
會(huì)話識(shí)別:將用戶在一段時(shí)間內(nèi)的請(qǐng)求頁面分解成能反映實(shí)際瀏覽習(xí)慣的用戶會(huì)話。
路徑補(bǔ)充:將本地或者代理服務(wù)器中緩存而沒有被日志記錄的請(qǐng)求頁面增加到會(huì)話中。
(二)基于圖結(jié)構(gòu)的用戶訪問模式挖掘
本文中的算法在現(xiàn)有的挖掘關(guān)聯(lián)規(guī)則算法的基礎(chǔ)上上進(jìn)行延伸,并且在支持度計(jì)算,候選路徑的產(chǎn)生和剪除階段時(shí)考慮網(wǎng)站的圖結(jié)構(gòu)。這樣,在候選集的天生和剪除過程中減少了候選集的數(shù)目,可進(jìn)步發(fā)現(xiàn)模式的精確性和效率,并且避免了“交易變質(zhì)”的題目。首先,分析站點(diǎn)結(jié)構(gòu),并給出“圖”的相關(guān)定義和定理。其次,對(duì)現(xiàn)有的Web日志挖掘方法進(jìn)行簡(jiǎn)單的先容和分析。接著,給出基于圖結(jié)構(gòu)的用戶訪問模式挖掘算法。
1.站點(diǎn)結(jié)構(gòu)的分析
每個(gè)Web網(wǎng)站并不是平面結(jié)構(gòu),而是有自己的特定結(jié)構(gòu)。我們可將Web結(jié)構(gòu)看作是一個(gè)多層的模型,每個(gè)層面包含很多頁面,這些頁面上有很多文本、圖片、音樂等頁面元素組成,它們可以鏈接本層面或其他層面的頁面元素。
Web可以用一個(gè)有向圖來表示,G=(V,E),V是頁面的集合,E是頁面之間的超鏈接集合。頁面抽象為圖中的頂點(diǎn),而頁面之間的超鏈接抽象為圖中的有向邊。頂點(diǎn)v的進(jìn)邊表示對(duì)v的引用,出邊表示v引用了其它的頁面。 所以Web頁面之間的超鏈接揭示了Web結(jié)構(gòu)。通過對(duì)Web結(jié)構(gòu)的分析可對(duì)Web數(shù)據(jù)挖掘有很大的幫助,如圖4,某站點(diǎn)拓?fù)浣Y(jié)構(gòu)示例圖。
2.基于圖結(jié)構(gòu)的用戶訪問模式挖掘算法
Web用戶訪問模式的挖掘過程可描述為:把用戶會(huì)話序列看成是對(duì)圖的遍歷,結(jié)合數(shù)據(jù)庫和Web圖結(jié)構(gòu)確定訪問的最大向前路徑。從中找出支持度大于閾值的所有子路徑即頻繁遍歷路徑,最后確定最大頻繁遍歷路徑;趫D結(jié)構(gòu)的用戶訪問模式的挖掘和現(xiàn)有方法最大的不同是,訪問模式也被以為是圖遍歷,而不是二叉樹訪問順序,即用戶會(huì)話序列是圖中的路徑。
(1)天生最大向前路徑
Web用戶訪問模式的挖掘過程的第一步是把用戶會(huì)話序列看成是對(duì)圖的遍歷,結(jié)合數(shù)據(jù)庫和Web圖結(jié)構(gòu)確定訪問的最大向前路徑。所謂最大向前路徑(MFP)是指從起始頁開始到回溯發(fā)生前,用戶連續(xù)訪問的最大頁面序列。
假設(shè)
、僖来巫x取頁面xi(1≤i≤m)。
、谌鬤i不存在于{y1,…,y-1}中,即xi是沒有訪問過的頁面,則將xi作為yj加進(jìn)當(dāng)前可能的MFP中,f1ag標(biāo)記為前進(jìn),轉(zhuǎn)(1)。
、鄯駝t若xi=yk(1≤k
假如flag標(biāo)明為回退,刪除{yk i,…,yj-1}后轉(zhuǎn)(1)。
④當(dāng)處理到用戶會(huì)話中的最后一頁時(shí),假如f1ag標(biāo)志仍-標(biāo)明向前,則此時(shí)的{y1,…,yj 1}是該會(huì)話中的最后一個(gè)MFP。 此算法的形式化描述如下:
for aU Sn∈S //依次處理繪畫文件中的每個(gè)會(huì)話Sn1
y1=x1;j=2;i=2 f1ag=YES; ////初始化頁面序列,將遍歷方向設(shè)置為前進(jìn);
while(i≤m)//循環(huán)處理用戶會(huì)話Sn中每個(gè)頁面;
{
if(xi==yk)for some 1≤k
頻繁遍歷路徑是指MFP中滿足一定支持度的子路徑序列(不是連續(xù)頁面序列)。頻繁遍歷路徑的確定能用像Aprior算法中的逐層搜索算法實(shí)現(xiàn)。在算法的每步中,都要掃描數(shù)據(jù)庫,并計(jì)算所有的候選集的支持度。每步中的所有候選集都有相同的長度。在每個(gè)過程的結(jié)束,天生候選集Ck,然后計(jì)算Ck中每個(gè)候選項(xiàng)的支持度并剪除小于支持度閾值的候選項(xiàng),以減少下一循環(huán)的掃描時(shí)間,由此頻繁遍歷路徑集合Lk被確定,并用于在下個(gè)步中候選集的計(jì)算。算法的一般結(jié)構(gòu)如下。支持度的最小值記為minSupport,Ck表示所有長度為k的候選集,Lk表示所有長度為k的頻繁遍歷路徑的集合,D表示數(shù)據(jù)庫,G表示圖。
算法4-逐層搜索確定圖G中的頻繁遍歷路徑 盡管逐層搜索算法的基本結(jié)構(gòu)相似于Apriori,但是它的組成部分(i)候選集支持度計(jì)算(ii)產(chǎn)生下一階段的候選集,明顯不同于Apriori,由于,該算法中的候選集必須是圖中的路徑。該算法基于定理4執(zhí)行Apriori剪除。對(duì)于支持度計(jì)算(第6,7步),基于子路徑的數(shù)目。
在圖4的例子中,
四、Web日志挖掘的應(yīng)用
從Web使用數(shù)據(jù)中挖掘出的訪問模式可以應(yīng)用到廣闊的領(lǐng)域,以下僅先容在電子商務(wù)中的應(yīng)用。
(一)個(gè)性化服務(wù)
根據(jù)網(wǎng)站用戶的訪問情況,為用戶提供個(gè)性化信息服務(wù),這是很多互聯(lián)網(wǎng)應(yīng)用,尤其是互聯(lián)網(wǎng)信息服務(wù)或電子商務(wù)(網(wǎng)站)所追求的目標(biāo)。根據(jù)用戶的訪問行為和檔案向使用者進(jìn)行動(dòng)態(tài)的推薦,對(duì)很多應(yīng)用都有很大的吸引力。Web日志挖掘是一個(gè)能夠出色地完成這個(gè)目標(biāo)的方式。
例如141:SiteHelper可以通過分析每個(gè)用戶的網(wǎng)頁訪問情況,了解用戶的愛好,并從用戶瀏覽時(shí)間較長的網(wǎng)頁中抽取出相應(yīng)關(guān)鍵字,匯總后給用戶,獲得反饋后,再向用戶推薦網(wǎng)站中其他類似或相關(guān)網(wǎng)頁。又如:WebWatcher“跟蹤”用戶瀏覽網(wǎng)頁過程,識(shí)別用戶可能感愛好的鏈接,WebWatcher根據(jù)用戶本人和其他類似用戶的瀏覽情況,對(duì)每個(gè)新網(wǎng)頁進(jìn)行評(píng)估,以幫助用戶能夠及時(shí)地瀏覽自己感愛好的網(wǎng)頁。
(二)貿(mào)易智能
有關(guān)用戶訪問網(wǎng)站的行為模式,對(duì)于電子商務(wù)中的市場(chǎng)職員來說是非常重要的,通過定義Web使用日志的超維數(shù)據(jù)立方,將Web使用數(shù)據(jù)與電子商務(wù)應(yīng)用數(shù)占有機(jī)地結(jié)合在一起。這樣就可以利用數(shù)據(jù)挖掘方法與技術(shù)來為客戶關(guān)系治理中的四個(gè)重要階段(吸引顧客,保存顧客,交叉銷售,顧客離開)提供決策支持。例如:WebLogMiner可以將Web日志數(shù)據(jù)轉(zhuǎn)換為超維數(shù)據(jù)立方的形式以便能夠進(jìn)行OLAP分析處理和數(shù)據(jù)挖掘工作。在WebLogMiner系統(tǒng)中還使用了關(guān)聯(lián)規(guī)則,分類和序列模式分析等數(shù)據(jù)挖掘方法,得到了電子商務(wù)交易行為序列、特征和交易預(yù)期的分析。
五、小結(jié)
本文運(yùn)用一種基于Web拓?fù)浣Y(jié)構(gòu)(圖結(jié)構(gòu))挖掘用戶訪問模式的方法,區(qū)別于常用的基于樹形結(jié)構(gòu)的Web路徑分析技術(shù),進(jìn)步了發(fā)現(xiàn)模式的精確性和效率。我們給出一個(gè)像Aprior那樣的逐層搜索算法,得到用戶的瀏覽模式。
【用戶訪問模式挖掘及在電子商務(wù)中的應(yīng)用】相關(guān)文章:
Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用.03-21
電子商務(wù)在圖書銷售模式中的應(yīng)用03-22
數(shù)據(jù)挖掘在旅游電子商務(wù)中應(yīng)用論文11-28
談數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用03-21
論網(wǎng)格技術(shù)在電子商務(wù)模式中的應(yīng)用03-22
數(shù)據(jù)挖掘技術(shù)在電子商務(wù)網(wǎng)站中的應(yīng)用03-28