亚洲AV日韩AⅤ综合手机在线观看,激情婷婷久久综合色,欧美色五月婷婷久久,久久国产精品99久久人人澡

  • <abbr id="uk6uq"><abbr id="uk6uq"></abbr></abbr>
  • <tbody id="uk6uq"></tbody>
  • 科技論文發(fā)表基于Web數(shù)據(jù)挖掘技術(shù)的研究論文

    時間:2020-08-07 08:48:13 論文發(fā)表 我要投稿

    科技論文發(fā)表基于Web數(shù)據(jù)挖掘技術(shù)的研究論文

      互聯(lián)網(wǎng)的不斷得到發(fā)展,網(wǎng)頁中數(shù)據(jù)量迅速增加,如何從這么多的網(wǎng)頁信息中獲取有用的數(shù)據(jù)已經(jīng)成功數(shù)據(jù)挖掘領(lǐng)域的一個熱門的研究方向,數(shù)據(jù)挖掘是近幾年來迅速發(fā)展的進行信息獲取的一個重要渠道, 尤其大量運用與社會和科學的方方面面。一般來說數(shù)據(jù)挖掘主要利用計算機和相關(guān)的信息技術(shù),把有用的數(shù)據(jù)從海量的網(wǎng)頁數(shù)據(jù)中挖掘出來,為我們從事其他方面的運用;诰W(wǎng)頁的數(shù)據(jù)挖掘是一門技術(shù)的綜合研究方向,它的思想是從Internet中提取網(wǎng)頁中的大量數(shù)據(jù),也就是從網(wǎng)頁的數(shù)據(jù)結(jié)構(gòu)中發(fā)現(xiàn)隱含的模式[1]。

    科技論文發(fā)表基于Web數(shù)據(jù)挖掘技術(shù)的研究論文

      1 數(shù)據(jù)挖掘的特點

      1)數(shù)據(jù)挖掘的特點之一就是半結(jié)構(gòu)化,這個特別算是網(wǎng)頁數(shù)據(jù)挖掘的最大特點[2],因為網(wǎng)頁上的數(shù)據(jù)分布沒有規(guī)律,非常復(fù)雜,沒有任何固定的模式能夠很好的描述它的特點。因此稱它為半結(jié)構(gòu)化。

      2)數(shù)據(jù)挖掘的特點之二是網(wǎng)頁中的數(shù)據(jù)比較分散,這些網(wǎng)頁數(shù)據(jù)存在世界各地的很多服務(wù)器上,因此是一種數(shù)據(jù)源分散的結(jié)構(gòu)。

      3) 數(shù)據(jù)挖掘的特點之三是數(shù)據(jù)庫的'結(jié)構(gòu)存在不同,因為互聯(lián)網(wǎng)上的一個網(wǎng)站可以存為一個數(shù)據(jù)源,它們的結(jié)構(gòu)互不相關(guān),異構(gòu)性特點比較強,由它們構(gòu)成的數(shù)據(jù)庫自然而然也屬于一種異構(gòu)的形式。

      4) 數(shù)據(jù)挖掘的特點之四是動態(tài)性強,網(wǎng)站上的數(shù)據(jù)資源是不斷更新變化的,找不到固定的形式,網(wǎng)站與網(wǎng)站的直接訪問的鏈接是形式變化的。

      2 數(shù)據(jù)挖掘過程

      基于Web的數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)倉庫相比,網(wǎng)頁上的信息是半結(jié)構(gòu)化的或非結(jié)構(gòu)化、不容易識別、變化的,正因為它這些特點,要想在網(wǎng)頁上開展直接數(shù)據(jù)挖掘,可謂很費功夫,就要借助一些方法來預(yù)處理數(shù)據(jù),才能方便挖掘。通常進行網(wǎng)頁數(shù)據(jù)挖掘可分為的如圖1所示的四個步奏。

      1)數(shù)據(jù)源的獲取,在網(wǎng)站的各個頁面中獲取數(shù)據(jù)信息,組成目標數(shù)據(jù)信息源,再從這些信息源中找到相關(guān)有用的數(shù)據(jù)。這個過程的目的就是從像網(wǎng)頁文檔、email、網(wǎng)頁記錄、新聞信息、各種網(wǎng)站數(shù)據(jù)庫中挖掘出有用的數(shù)據(jù)。

      2)把獲取的數(shù)據(jù)進行加工處理,網(wǎng)頁數(shù)據(jù)挖掘的好壞直接與數(shù)據(jù)源的好壞相關(guān),如果獲取的數(shù)據(jù)源有大量的垃圾數(shù)據(jù),對數(shù)據(jù)挖掘過程有很大的影響,因此挖掘之前需要對數(shù)據(jù)源進行篩選,消除那些雜音數(shù)據(jù),保證數(shù)據(jù)源的純正,然后將這些已經(jīng)過濾的數(shù)據(jù)再次裝入數(shù)據(jù)庫中進行下一步的分析。

      3)對數(shù)據(jù)經(jīng)過提純處理后,進入模式尋找階段,這需要各種挖掘算法分析、挖掘大量的、隱藏的、潛在的、可被利用的數(shù)據(jù)模式。在挖掘的過程中,經(jīng)常會使用到一些相關(guān)的方法,例如聚類分析法、關(guān)聯(lián)規(guī)則發(fā)等挖掘方法。

      4)在對數(shù)據(jù)模式發(fā)現(xiàn)后,需要對這些模式進行挖掘,也就是知識的轉(zhuǎn)換過程,把提取到的模式再進行信息轉(zhuǎn)化,轉(zhuǎn)化為我們能夠理解,識別的知識,為我們的決策需要提供有用的參考源。

      3 數(shù)據(jù)挖掘分類

      在進行數(shù)據(jù)挖掘的時候,針對不同的數(shù)據(jù)結(jié)構(gòu),會采用不同的挖掘方法,這樣才能有效、合理挖掘到有用的數(shù)據(jù),不能籠統(tǒng)采用一種方法,這樣挖掘的數(shù)據(jù)相應(yīng)的雜音數(shù)據(jù)就比較多。大體上,我們把數(shù)據(jù)挖掘分為三種類型,即:網(wǎng)頁使用挖掘、網(wǎng)頁結(jié)構(gòu)挖掘、網(wǎng)頁內(nèi)容挖 [3],如圖2所示。

      4 數(shù)據(jù)挖掘相關(guān)技術(shù)

      互聯(lián)網(wǎng)的發(fā)展促進網(wǎng)頁數(shù)據(jù)挖掘得到越來越多的應(yīng)用,于是針對網(wǎng)頁挖掘的各種方法和技術(shù)不斷出現(xiàn),就這些相關(guān)的技術(shù)[4],下面分別一一介紹。

      4.1 網(wǎng)頁內(nèi)容挖掘

      4.1.1 網(wǎng)頁文檔挖掘

      網(wǎng)頁文檔挖掘就是分析網(wǎng)站上存在的數(shù)量很多的網(wǎng)頁文檔采用聚類、分類、關(guān)聯(lián)處理等多種方法進行分析,然后根據(jù)網(wǎng)頁文檔進行預(yù)測。在Internet的文檔數(shù)據(jù)一般都是以html格式的網(wǎng)頁文檔出現(xiàn),要采集這些網(wǎng)頁文檔數(shù)據(jù),然后把這些文檔數(shù)據(jù)變成記錄的形式存貯進數(shù)據(jù)庫,把這些記錄用來表示文檔內(nèi)容特征,為后續(xù)的分析提供保障。表示文檔的特征形式通常使用文檔特征向量形式, 由于文檔的特征表示中存在一些缺陷,文檔的特征向量的維數(shù)非常高,對數(shù)據(jù)分析不利,因此一個好特征表示主要集中在特征集的選取方面,特征集需求好,對數(shù)據(jù)進行分析的時間就相對少,如果選取不好,將要花很長時間去等待。因此特征集選取好壞成為數(shù)據(jù)分析額關(guān)鍵。一旦特征集選擇好后,就可以采用聚類、分類、數(shù)據(jù)關(guān)聯(lián)等方法來進行提取信息,然后對這些提取的信息進行評價分析,找到有用的信息,為后續(xù)的決策工作提供指導(dǎo)。

      4.1.2 挖掘網(wǎng)頁多媒體

      在進行網(wǎng)頁多媒體挖掘主要關(guān)注的是特征提取,這點網(wǎng)頁內(nèi)容挖掘不一樣。在網(wǎng)頁多媒體挖掘中提取的多媒體特征主要關(guān)注視頻或者圖片的顏色特征、鍵值、形式以及它們的URL,最后根據(jù)這些特征進行數(shù)據(jù)挖掘。

      4.2挖掘網(wǎng)頁結(jié)構(gòu)

      挖掘網(wǎng)站空間中的知識,不僅關(guān)注包含在各個網(wǎng)頁內(nèi)容中的信息數(shù)據(jù),同時也關(guān)注網(wǎng)站與網(wǎng)站之間的網(wǎng)頁結(jié)構(gòu)和超級鏈接結(jié)構(gòu),這也是非常重要的。進行網(wǎng)頁結(jié)構(gòu)挖掘主要分析網(wǎng)頁結(jié)構(gòu)之間的特征,利用聚類和分類來分析頁面結(jié)構(gòu)特征,找到特征模式。

      4.3 網(wǎng)頁使用挖掘

      網(wǎng)頁使用挖掘也是挖掘網(wǎng)頁記錄,實際就是挖掘用戶在網(wǎng)頁上留下的相關(guān)的記錄信息,網(wǎng)頁使用挖掘就是分析用戶留言記錄的相關(guān)信息,通過這些信息時報未來需要發(fā)展的用戶; 網(wǎng)頁使用挖掘通常使用擴展有向樹模型分析用戶的各種瀏覽行為習慣,挖掘出用戶的日志信息,以及用戶關(guān)心、關(guān)注的興趣領(lǐng)域,把這些信息存放在知識庫中,未下一步的分析工作提供數(shù)據(jù), 對網(wǎng)頁使用日志挖掘可分為三個步驟:日志預(yù)分析、分析方法處理、 模式分析階段。在網(wǎng)頁使用分析中,關(guān)注網(wǎng)頁服務(wù)器記錄的相關(guān)信息,這些信息主要包括用戶訪問的時間、URL、IP、使用方法、代理、返回結(jié)構(gòu)、傳輸數(shù)據(jù)等相關(guān)信息雖然信息比較多,但是還存在無用的數(shù)據(jù),需要進行提純處理。一旦數(shù)據(jù)處理后,就能采用關(guān)聯(lián)分析、如路徑分析等模式發(fā)現(xiàn)技術(shù)來分析日志,獲取有用的信息。

      5 結(jié)束語

      本文介紹了網(wǎng)頁數(shù)據(jù)挖掘的相關(guān)概念、挖掘過程、分類方法以及相關(guān)技術(shù)。在Internet發(fā)展的今天, 網(wǎng)頁數(shù)據(jù)挖掘的研究方面更加寬,人們不斷關(guān)注如何對這些網(wǎng)頁數(shù)據(jù)的處理。網(wǎng)頁數(shù)據(jù)挖掘在各個方面,特別在結(jié)合語言問題、查詢半結(jié)構(gòu)化、數(shù)據(jù)庫方面會得到不斷發(fā)展。

    【科技論文發(fā)表基于Web數(shù)據(jù)挖掘技術(shù)的研究論文】相關(guān)文章:

    1.web數(shù)據(jù)挖掘技術(shù)分析與研究

    2.Web數(shù)據(jù)挖掘技術(shù)探析

    3.Web數(shù)據(jù)挖掘在電子商務(wù)的應(yīng)用論文

    4.Web數(shù)據(jù)挖掘及其在電子商務(wù)中的應(yīng)用研究論文

    5.淺析電子商務(wù)中的WEB數(shù)據(jù)的挖掘論文

    6.計算機Web數(shù)據(jù)挖掘技術(shù)在現(xiàn)代商業(yè)中的應(yīng)用論文

    7.數(shù)據(jù)挖掘技術(shù)應(yīng)用于經(jīng)濟統(tǒng)計中的研究論文

    8.數(shù)據(jù)挖掘技術(shù)工程管理論文