數(shù)據(jù)挖掘論文的參考文獻(xiàn)
在日常學(xué)習(xí)、工作生活中,大家都有寫論文的經(jīng)歷,對(duì)論文很是熟悉吧,借助論文可以有效訓(xùn)練我們運(yùn)用理論和技能解決實(shí)際問題的的能力.相信寫論文是一個(gè)讓許多人都頭痛的問題,以下是小編收集整理的數(shù)據(jù)挖掘論文的參考文獻(xiàn),供大家參考借鑒,希望可以幫助到有需要的朋友.
數(shù)據(jù)挖掘論文的參考文獻(xiàn) 篇1
[1]劉瑩;跀(shù)據(jù)挖掘的商品銷售預(yù)測(cè)分析[J].科技通報(bào).2014(07)
[2]姜曉娟,郭一娜.基于改進(jìn)聚類的電信客戶流失預(yù)測(cè)分析[J].太原理工大學(xué)學(xué)報(bào).2014(04)
[3]李欣海.隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲學(xué)報(bào).2013(04)
[4]朱志勇,徐長(zhǎng)梅,劉志兵,胡晨剛;谪惾~斯網(wǎng)絡(luò)的客戶流失分析研究[J].計(jì)算機(jī)工程與科學(xué).2013(03)
[5]翟健宏,李偉,葛瑞海,楊茹;诰垲惻c貝葉斯分類器的網(wǎng)絡(luò)節(jié)點(diǎn)分組算法及評(píng)價(jià)模型[J].電信科學(xué).2013(02)
[6]王曼,施念,花琳琳,楊永利。成組刪除法和多重填補(bǔ)法對(duì)隨機(jī)缺失的二分類變量資料處理效果的比較[J].鄭州大學(xué)學(xué)報(bào)(醫(yī)學(xué)版).2012(05)
[7]黃杰晟,曹永鋒。挖掘類改進(jìn)決策樹[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版).2010(01)
[8]李凈,張范,張智江。數(shù)據(jù)挖掘技術(shù)與電信客戶分析[J].信息通信技術(shù).2009(05)
[9]武曉巖,李康;虮磉_(dá)數(shù)據(jù)判別分析的隨機(jī)森林方法[J].中國(guó)衛(wèi)生統(tǒng)計(jì).2006(06)
[10]張璐。論信息與企業(yè)競(jìng)爭(zhēng)力[J].現(xiàn)代情報(bào).2003(01)
[11]楊毅超。基于Web數(shù)據(jù)挖掘的作物商務(wù)平臺(tái)分析與研究[D].湖南農(nóng)業(yè)大學(xué)2008
[12]徐進(jìn)華;诨疑到y(tǒng)理論的數(shù)據(jù)挖掘及其模型研究[D].北京交通大學(xué)2009
[13]俞馳;诰W(wǎng)絡(luò)數(shù)據(jù)挖掘的客戶獲取系統(tǒng)研究[D].西安電子科技大學(xué)2009
[14]馮軍。數(shù)據(jù)挖掘在自動(dòng)外呼系統(tǒng)中的應(yīng)用[D].北京郵電大學(xué)2009
[15]于寶華。基于數(shù)據(jù)挖掘的高考數(shù)據(jù)分析[D].天津大學(xué)2009
[16]王仁彥。數(shù)據(jù)挖掘與網(wǎng)站運(yùn)營(yíng)管理[D].華東師范大學(xué)2010
[17]彭智軍。數(shù)據(jù)挖掘的若干新方法及其在我國(guó)證券市場(chǎng)中應(yīng)用[D].重慶大學(xué)2005
[18]涂繼亮。基于數(shù)據(jù)挖掘的智能客戶關(guān)系管理系統(tǒng)研究[D].哈爾濱理工大學(xué)2005
[19]賈治國(guó)。數(shù)據(jù)挖掘在高考填報(bào)志愿上的應(yīng)用[D].內(nèi)蒙古大學(xué)2005
[20]馬飛;跀(shù)據(jù)挖掘的航運(yùn)市場(chǎng)預(yù)測(cè)系統(tǒng)設(shè)計(jì)及研究[D].大連海事大學(xué)2006
[21]周霞;谠朴(jì)算的太陽(yáng)風(fēng)大數(shù)據(jù)挖掘分類算法的研究[D].成都理工大學(xué)2014
[22]阮偉玲。面向生鮮農(nóng)產(chǎn)品溯源的基層數(shù)據(jù)庫(kù)建設(shè)[D].成都理工大學(xué)2015
[23]明慧。復(fù)合材料加工工藝數(shù)據(jù)庫(kù)構(gòu)建及數(shù)據(jù)集成[D].大連理工大學(xué)2014
[24]陳鵬程。齒輪數(shù)控加工工藝數(shù)據(jù)庫(kù)開發(fā)與數(shù)據(jù)挖掘研究[D].合肥工業(yè)大學(xué)2014
[25]岳雪;诤A繑(shù)據(jù)挖掘關(guān)聯(lián)測(cè)度工具的設(shè)計(jì)[D].西安財(cái)經(jīng)學(xué)院2014
[26]丁翔飛;诮M合變量與重疊區(qū)域的SVM—RFE方法研究[D].大連理工大學(xué)2014
[27]劉士佳;贛apReduce框架的頻繁項(xiàng)集挖掘算法研究[D].哈爾濱理工大學(xué)2015
[28]張曉東。全序模塊模式下范式分解問題研究[D].哈爾濱理工大學(xué)2015
[29]尚丹丹;谔摂M機(jī)的Hadoop分布式聚類挖掘方法研究與應(yīng)用[D].哈爾濱理工大學(xué)2015
[30]王化楠。一種新的混合遺傳的基因聚類方法[D].大連理工大學(xué)2014
拓展閱讀
什么是大數(shù)據(jù)?
“大數(shù)據(jù)”到底有多大?根據(jù)研究機(jī)構(gòu)統(tǒng)計(jì),僅在2011年,全球數(shù)據(jù)增量就達(dá)到了1.8ZB(即1.8萬億GB),相當(dāng)于全世界每個(gè)人產(chǎn)生200GB以上的數(shù)據(jù)。這種增長(zhǎng)趨勢(shì)仍在加速,據(jù)保守預(yù)計(jì),接下來幾年中,數(shù)據(jù)將始終保持每年50%的增長(zhǎng)速度。
縱觀人類歷史,每一次劃時(shí)代的變革都是以新工具的出現(xiàn)和應(yīng)用為標(biāo)志的。蒸汽機(jī)把人們從農(nóng)業(yè)時(shí)代帶入了工業(yè)時(shí)代,計(jì)算機(jī)和互聯(lián)網(wǎng)把人們從工業(yè)時(shí)代帶入了信息時(shí)代,而如今大數(shù)據(jù)時(shí)代已經(jīng)到來,它源自信息時(shí)代,又是信息時(shí)代全方位的深化應(yīng)用與延伸。大數(shù)據(jù)時(shí)代的生產(chǎn)原材料是數(shù)據(jù),生產(chǎn)工具則是大數(shù)據(jù)技術(shù),是對(duì)信息時(shí)代所產(chǎn)生的海量數(shù)據(jù)的挖掘和分析,從而快速地獲取有價(jià)值信息的技術(shù)和應(yīng)用。
概括來講,大數(shù)據(jù)有三個(gè)特征,可總結(jié)歸納為“3V”,即量(Volume)、類(Variety)、時(shí)(Velocity)。量,數(shù)據(jù)容量大,現(xiàn)在數(shù)據(jù)單位已經(jīng)躍升至ZB級(jí)別。類,數(shù)據(jù)種類多,主要來自業(yè)務(wù)系統(tǒng),例如社交網(wǎng)絡(luò)、電子商務(wù)和物聯(lián)網(wǎng)應(yīng)用。時(shí),處理速度快,時(shí)效性要求高,從傳統(tǒng)的事務(wù)性數(shù)據(jù)到實(shí)時(shí)或準(zhǔn)實(shí)時(shí)數(shù)據(jù)。
什么是數(shù)據(jù)挖掘?
數(shù)據(jù)挖掘,又稱為知識(shí)發(fā)現(xiàn)(Knowledge Discovery),是通過分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù)。知識(shí)發(fā)現(xiàn)過程通常由數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個(gè)階段組成。數(shù)據(jù)準(zhǔn)備是從數(shù)據(jù)中心存儲(chǔ)的數(shù)據(jù)中選取所需數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含規(guī)律找出來;規(guī)律表示則是盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來。
“數(shù)據(jù)海量、信息缺乏”是相當(dāng)多企業(yè)在數(shù)據(jù)大集中之后面臨的尷尬問題。目前,大多數(shù)事物型數(shù)據(jù)庫(kù)僅實(shí)現(xiàn)了數(shù)據(jù)錄入、查詢和統(tǒng)計(jì)等較低層次的功能,無法發(fā)現(xiàn)數(shù)據(jù)中存在的有用信息,更無法進(jìn)一步通過數(shù)據(jù)分析發(fā)現(xiàn)更高的價(jià)值。如果能夠?qū)@些數(shù)據(jù)進(jìn)行分析,探尋其數(shù)據(jù)模式及特征,進(jìn)而發(fā)現(xiàn)某個(gè)客戶、群體或組織的興趣和行為規(guī)律,專業(yè)人員就可以預(yù)測(cè)到未來可能發(fā)生的變化趨勢(shì)。這樣的數(shù)據(jù)挖掘過程,將極大拓展企業(yè)核心競(jìng)爭(zhēng)力。例如,在網(wǎng)上購(gòu)物時(shí)遇到的提示“瀏覽了該商品的人還瀏覽了如下商品”,就是在對(duì)大量的購(gòu)買者“行為軌跡”數(shù)據(jù)進(jìn)行記錄和挖掘分析的基礎(chǔ)上,捕捉總結(jié)購(gòu)買者共性習(xí)慣行為,并針對(duì)性地利用每一次購(gòu)買機(jī)會(huì)而推出的銷售策略。
數(shù)據(jù)挖掘在供電企業(yè)的應(yīng)用前景
隨著社會(huì)的進(jìn)步和信息通信技術(shù)的發(fā)展,信息系統(tǒng)在各行業(yè)、各領(lǐng)域快速拓展。這些系統(tǒng)采集、處理、積累的數(shù)據(jù)越來越多,數(shù)據(jù)量增速越來越快,以至用“海量、爆炸性增長(zhǎng)”等詞匯已無法形容數(shù)據(jù)的增長(zhǎng)速度。
2011年5月,全球知名咨詢公司麥肯錫全球研究院發(fā)布了一份題為《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的.下一個(gè)新領(lǐng)域》的報(bào)告。報(bào)告中指出,數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素;而人們對(duì)于大數(shù)據(jù)的運(yùn)用預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來。2012年3月29日,美國(guó)政府在白宮網(wǎng)站上發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》,表示將投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,增強(qiáng)從大數(shù)據(jù)中分析萃取信息的能力。
在電力行業(yè),堅(jiān)強(qiáng)智能電網(wǎng)的迅速發(fā)展使信息通信技術(shù)正以前所未有的廣度、深度與電網(wǎng)生產(chǎn)、企業(yè)管理快速融合,信息通信系統(tǒng)已經(jīng)成為智能電網(wǎng)的“中樞神經(jīng)”,支撐新一代電網(wǎng)生產(chǎn)和管理發(fā)展。目前,國(guó)家電網(wǎng)公司已初步建成了國(guó)內(nèi)領(lǐng)先、國(guó)際一流的信息集成平臺(tái)。隨著三地集中式數(shù)據(jù)中心的陸續(xù)投運(yùn),一級(jí)部署業(yè)務(wù)應(yīng)用范圍的拓展,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中心的上線運(yùn)行,電網(wǎng)業(yè)務(wù)數(shù)據(jù)從總量和種類上都已初具規(guī)模。隨著后續(xù)智能電表的逐步普及,電網(wǎng)業(yè)務(wù)數(shù)據(jù)將從時(shí)效性層面進(jìn)一步豐富和拓展。大數(shù)據(jù)的“量類時(shí)”特性,已在海量、實(shí)時(shí)的電網(wǎng)業(yè)務(wù)數(shù)據(jù)中進(jìn)一步凸顯,電力大數(shù)據(jù)分析迫在眉睫。
當(dāng)前,電網(wǎng)業(yè)務(wù)數(shù)據(jù)大致分為三類:一是電力企業(yè)生產(chǎn)數(shù)據(jù),如發(fā)電量、電壓穩(wěn)定性等方面的數(shù)據(jù);二是電力企業(yè)運(yùn)營(yíng)數(shù)據(jù),如交易電價(jià)、售電量、用電客戶等方面的數(shù)據(jù);三是電力企業(yè)管理數(shù)據(jù),如ERP、一體化平臺(tái)、協(xié)同辦公等方面的數(shù)據(jù)。如能充分利用這些基于電網(wǎng)實(shí)際的數(shù)據(jù),對(duì)其進(jìn)行深入分析,便可以提供大量的高附加值服務(wù)。這些增值服務(wù)將有利于電網(wǎng)安全檢測(cè)與控制(包括大災(zāi)難預(yù)警與處理、供電與電力調(diào)度決策支持和更準(zhǔn)確的用電量預(yù)測(cè)),客戶用電行為分析與客戶細(xì)分,電力企業(yè)精細(xì)化運(yùn)營(yíng)管理等等,實(shí)現(xiàn)更科學(xué)的需求側(cè)管理。
例如,在電力營(yíng)銷環(huán)節(jié),針對(duì)“大營(yíng)銷”體系建設(shè),以客戶和市場(chǎng)為導(dǎo)向,省級(jí)集中的95598客戶服務(wù)、計(jì)量檢定配送業(yè)務(wù)屬地化管理的營(yíng)銷管理體系和24小時(shí)面向客戶的營(yíng)銷服務(wù)系統(tǒng),可通過數(shù)據(jù)分析改善服務(wù)模式,提高營(yíng)銷能力和服務(wù)質(zhì)量;以分析型數(shù)據(jù)為基礎(chǔ),優(yōu)化現(xiàn)有營(yíng)銷組織模式,科學(xué)配置計(jì)量、收費(fèi)和服務(wù)資源,構(gòu)建營(yíng)銷稽查數(shù)據(jù)監(jiān)控分析模型;建立各種針對(duì)營(yíng)銷的系統(tǒng)性算法模型庫(kù),發(fā)現(xiàn)數(shù)據(jù)中存在的隱藏關(guān)系, 為各級(jí)決策者提供多維的、直觀的、全面的、深入的分析預(yù)測(cè)性數(shù)據(jù), 進(jìn)而主動(dòng)把握市場(chǎng)動(dòng)態(tài),采取適當(dāng)?shù)臓I(yíng)銷策略,獲得更大的企業(yè)效益,更好地服務(wù)于社會(huì)和經(jīng)濟(jì)發(fā)展。此外,還可以考慮在電力生產(chǎn)環(huán)節(jié),利用數(shù)據(jù)挖掘技術(shù),在線計(jì)算輸送功率極限,并考慮電壓等因素對(duì)功率極限的影響,從而合理設(shè)置系統(tǒng)輸出功率,有效平衡系統(tǒng)的安全性和經(jīng)濟(jì)性。
公司具備非常好的從數(shù)據(jù)運(yùn)維角度實(shí)現(xiàn)更大程度信息、知識(shí)發(fā)現(xiàn)的條件和基礎(chǔ),完全可以立足數(shù)據(jù)運(yùn)維服務(wù),創(chuàng)造數(shù)據(jù)增值價(jià)值,提供并衍生多種服務(wù)。以數(shù)據(jù)中心為紐帶,新型數(shù)據(jù)運(yùn)維的成果將有可能作為一種新的消費(fèi)形態(tài)與交付方式,給客戶帶來全新的使用體驗(yàn),打破傳統(tǒng)業(yè)務(wù)系統(tǒng)間各自為陣的局面,進(jìn)一步推動(dòng)電網(wǎng)生產(chǎn)和企業(yè)管理,從數(shù)據(jù)運(yùn)維角度對(duì)企業(yè)生產(chǎn)經(jīng)營(yíng)、管理以及堅(jiān)強(qiáng)智能電網(wǎng)建設(shè)提供更有力、更長(zhǎng)遠(yuǎn)、更深入的支撐。
數(shù)據(jù)挖掘?qū)I(yè)就業(yè)方向
1.數(shù)據(jù)挖掘主要是做算法還是做應(yīng)用?分別都要求什么?
這個(gè)問題太籠統(tǒng),基本上算法和應(yīng)用是兩個(gè)人來做的,可能是數(shù)據(jù)挖掘職位。做算法的比較少,也比較高級(jí)。
其實(shí)所謂做算法大多數(shù)時(shí)候都不是設(shè)計(jì)新的算法(這個(gè)可以寫論文了),更多的是技術(shù)選型,特征工程抽取,最多是實(shí)現(xiàn)一些已經(jīng)有論文但是還沒有開源模塊的算法等,還是要求扎實(shí)的算法和數(shù)據(jù)結(jié)構(gòu)功底,以及豐富的分布式計(jì)算的知識(shí)的,以及不錯(cuò)的英文閱讀和寫作能力。但即使是這樣也是百里挑一的,很難找到。
絕大讀書數(shù)據(jù)挖掘崗位都是做應(yīng)用,數(shù)據(jù)清洗,用現(xiàn)成的庫(kù)建模,如果你自己不往算法或者架構(gòu)方面繼續(xù)提升,和其他的開發(fā)崗位的性質(zhì)基本沒什么不同,只要會(huì)編程都是很容易入門的。
2.北上廣以外的普通公司用的多嗎?待遇如何?
實(shí)際情況不太清楚,由于數(shù)據(jù)挖掘和大數(shù)據(jù)這個(gè)概念太火了,肯定到處都有人招聘響應(yīng)的崗位,但是二線城市可能僅僅是停留在概念上,很多實(shí)際的工作并沒有接觸到足夠大的數(shù)據(jù),都是生搬硬套框架(從我面試的人的工作經(jīng)驗(yàn)上看即使是在北上廣深這種情況也比較多見)。
只是在北上廣深,可能接觸到大數(shù)據(jù)的機(jī)會(huì)多一些。而且做數(shù)據(jù)挖掘現(xiàn)在熱點(diǎn)的技術(shù)比如Python,Spark,Scala,R這些技術(shù)除了在一線城市之外基本上沒有足夠的市場(chǎng)(因?yàn)闀?huì)的人太少了,二線城市的公司找不到掌握這些技術(shù)的人,不招也沒人學(xué))。
所以我推測(cè)二線城市最多的還是用JAVA+Hadoop,或者用JAVA寫一些Spark程序。北上廣深和二線城市程序員比待遇是欺負(fù)人,就不討論了。
3.和前端后端程序員比有什么區(qū)別?有什么優(yōu)缺點(diǎn)?
和傳統(tǒng)的前后端程序員相比,最主要的去別就是對(duì)編程水平的要求。從我招聘的情況來看,做數(shù)據(jù)挖掘的人編程水平要求可以降低一個(gè)檔次,甚至都不用掌握面向?qū)ο蟆?/p>
但是要求技術(shù)全面,編程、SQL,Linux,正則表達(dá)式,Hadoop,Spark,爬蟲,機(jī)器學(xué)習(xí)模型等技術(shù)都要掌握一些。前后端可能是要求精深,數(shù)據(jù)挖掘更強(qiáng)調(diào)廣博,有架構(gòu)能力更好。
4.目前在學(xué)習(xí)機(jī)器學(xué)習(xí),如果想找數(shù)據(jù)挖掘方面的工作應(yīng)該學(xué)習(xí)哪些內(nèi)容?
打基礎(chǔ)是最重要的,學(xué)習(xí)一門數(shù)據(jù)挖掘常用的語(yǔ)言,比如Python,Scala,R;學(xué)習(xí)足夠的Linux經(jīng)驗(yàn),能夠通過awk,grep等Linux命令快速的處理文本文件。掌握SQL,MySQL或者PostgreSQL都是比較常用的關(guān)系型數(shù)據(jù)庫(kù),搞數(shù)據(jù)的別跟我說不會(huì)用數(shù)據(jù)庫(kù)。
補(bǔ)充的一些技能,比如NoSQL的使用,Elasticsearch的使用,分詞(jieba等模塊的使用),算法的數(shù)據(jù)結(jié)構(gòu)的知識(shí)。
5.hadoop,hive之類的需要學(xué)習(xí)嗎?
我覺得應(yīng)當(dāng)學(xué)習(xí),首先Hadoop和Hive很簡(jiǎn)單(如果你用AWS的話你可以開一臺(tái)EMR,上面直接就有Hadoop和Hive,可以直接從使用學(xué)起)。
我覺得如果不折騰安裝和部署,還有Linux和MySQL的經(jīng)驗(yàn),只要半天到一天就能熟悉Hadoop和Hive的使用(當(dāng)然你得有Linux和MySQL的基礎(chǔ),如果沒有就先老老實(shí)實(shí)的學(xué)Linux和MySQL,這兩個(gè)都可以在自己的PC上安裝,自己折騰)。
Spark對(duì)很多人來說才是需要學(xué)習(xí)的,如果你有JAVA經(jīng)驗(yàn)大可以從JAVA入門。如果沒有那么還是建議從Scala入門,但是實(shí)際上如果沒有JAVA經(jīng)驗(yàn),Scala入門也會(huì)有一定難度,但是可以慢慢補(bǔ)。
所以總的來說Spark才足夠難,以至于需要學(xué)習(xí)。
最后的最后我有一些建議。第一要對(duì)自己有一個(gè)系統(tǒng)的認(rèn)知,自己的編程水平夠么,SQL會(huì)用么,Linux會(huì)用么,能流暢的看英文文檔么?
如果上面任何一個(gè)問題的答案是No,我都不建議直接轉(zhuǎn)行或者申請(qǐng)高級(jí)的數(shù)據(jù)挖掘職位(因?yàn)槟愫茈y找到一個(gè)正經(jīng)的數(shù)據(jù)挖掘崗位,頂多是一些打擦邊球的崗位,無論是實(shí)際干的工作還是未來的成長(zhǎng)可能對(duì)你的幫助都不大)。
無論你現(xiàn)在是學(xué)生還是已經(jīng)再做一些前段后端、運(yùn)維之類的工作你都有足夠的時(shí)間補(bǔ)齊這些基礎(chǔ)知識(shí)。
補(bǔ)齊了這些知識(shí)之后,第一件事就是了解大數(shù)據(jù)生態(tài),Hadoop生態(tài)圈,Spark生態(tài)圈,機(jī)器學(xué)習(xí),深度學(xué)習(xí)(后兩者需要高等數(shù)學(xué)和線性代數(shù)基礎(chǔ),如果你的大學(xué)專業(yè)學(xué)這些不要混)。
【數(shù)據(jù)挖掘論文的參考文獻(xiàn)】相關(guān)文章:
數(shù)據(jù)挖掘論文參考文獻(xiàn)范文08-21
數(shù)據(jù)挖掘類論文參考文獻(xiàn)范例12-16
淺談數(shù)據(jù)挖掘財(cái)務(wù)分析論文09-12
淺談反病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)分類挖掘論文07-08
數(shù)據(jù)結(jié)構(gòu)論文參考文獻(xiàn)07-30
論計(jì)算機(jī)病毒數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘論文06-21
計(jì)算機(jī)教學(xué)評(píng)價(jià)中數(shù)據(jù)挖掘的應(yīng)用論文07-06