數(shù)據(jù)挖掘在道路交通事故中的應用論文
數(shù)據(jù)挖掘技術在金融業(yè)、醫(yī)療保健業(yè)、市場業(yè)、零售業(yè)和制造業(yè)等很多領域都得到了很好的應用。針對交通安全領域中交通事故數(shù)據(jù)利用率低的現(xiàn)狀,可以通過數(shù)據(jù)挖掘對相關交通事故數(shù)據(jù)進行統(tǒng)計分析,從而發(fā)現(xiàn)其中的關聯(lián),這對提升交通安全水平具有非常重要的意義。
1數(shù)據(jù)挖掘技術概述
數(shù)據(jù)挖掘(DataMining)即對大量數(shù)據(jù)進行有效的分類統(tǒng)計,從而整理出有規(guī)律的、有價值的、潛在的未知信息。一般來講,這些數(shù)據(jù)存在極大的隨機性和不完全性,其包括各行各業(yè)各個方面的數(shù)據(jù)。數(shù)據(jù)挖掘是一個結合了數(shù)據(jù)庫、人工智能、機器學習的學科,涉及統(tǒng)計數(shù)據(jù)和技術理論等領域。
2數(shù)據(jù)挖掘關聯(lián)分析研究
關聯(lián)分析作為數(shù)據(jù)挖掘中的重要組成部分,其主要作用就是通過數(shù)據(jù)之間的相互關聯(lián)從而發(fā)現(xiàn)數(shù)據(jù)集中某種未知的聯(lián)系。關聯(lián)分析最初是在20世紀90年代初被提出來的,一直備受關注。已被廣泛應用于各行各業(yè),包括醫(yī)療體檢、電子商務、商業(yè)金融等各個領域。關聯(lián)規(guī)則的挖掘一般可分成兩個步驟[1]:
。1)找出頻繁項集,不小于最小支持度的項集;
。2)生成強關聯(lián)規(guī)則,不小于最小置信度的關聯(lián)規(guī)則。相對于生成強關聯(lián)規(guī)則,找出頻繁項集這一步比較麻煩。由R.Agrawal等人在1994年提出的Apriori算法是生成頻繁項集的經(jīng)典算法[2]。Apriori算法使用了Level-wise搜索的迭代方法,即用k-項集探索(k+1)-項集。Apriori算法在整體上可分為兩個部分。
(1)發(fā)現(xiàn)頻集。這個部分是最重要的,開銷相繼產生了各種各樣的頻集算法,專門用于發(fā)現(xiàn)頻集,以降低其復雜度、提高發(fā)現(xiàn)頻集的效率。
。2)利用所獲得的頻繁項集各種算法主要致力產生強關聯(lián)規(guī)則。當然頻集構成的聯(lián)規(guī)則未必是強關聯(lián)規(guī)則,還要檢驗構成的關聯(lián)規(guī)則的支持度和支持度是否超過它們的閾值。Apriori算法找出頻繁項集分為兩步:連接和剪枝。
。1)連接。集合Lk-1為頻繁k-1項集的集合,它通過與自身連接就可以生成候選k項集的集合,記作Ck。
(2)剪枝。頻繁k項集的集合Lk是Ck的子集。剪枝首先利用Apriori算法的性質(頻繁項集的所有非空子集都是頻繁的,如果不滿足這個條件,就從候選集合Ck中刪除)對Ck進行壓縮;然后,通過掃描所有的事務,確定壓縮后Ck中的每個候選的支持度;最后與設定的最小支持度進行比較,如果支持度不小于最小支持度,則認為該候選項是頻繁的。目前,在互聯(lián)網(wǎng)技術及科學技術的快速發(fā)展下,人工智能、機器識別等技術興起,關聯(lián)分析也被越來越多應用其中,并在不斷發(fā)展中提出了大量的改進算法。
3數(shù)據(jù)挖掘關聯(lián)分析在道路交通事故原因分析當中的應用
近年來,我國越來越多的學者將數(shù)據(jù)挖掘關聯(lián)分析應用于道路交通事故的研究中,主要是分析道路、車輛、行人以及環(huán)境等因素與交通事故之間的某種聯(lián)系。Pande和Abdel-Aty[3]通過關聯(lián)分析研究了美國佛羅里達州2004年非交叉口發(fā)生的道路交通事故,重點分析了各個不同的影響因素與交通事故之間的內在聯(lián)系,通過研究得出如下結論,道路照明條件不足是引發(fā)道路交通事故的主要因素,除此之外,還發(fā)現(xiàn)天氣惡劣的環(huán)境下道路彎道的直線段也極易發(fā)生交通事故。Graves[4]利用數(shù)據(jù)挖掘技術中的關聯(lián)規(guī)則對歐洲道路交通事故進行了分析,主要研究了交通事故與道路設施狀況之間的關聯(lián),通過研究發(fā)現(xiàn)了易導致交通事故發(fā)生的各個道路設施狀況因素,此研究為歐洲路面建設及投資提供了強大的決策支持。我國學者董立巖在研究道路交通事故數(shù)據(jù)的文獻中,將粗糙集與關聯(lián)分析進行了融合,提出了基于偏好信息的決策規(guī)則簡約算法并將其應用其中,通過分析發(fā)現(xiàn)了道路交通事故的未知規(guī)律。王艷玲通過關聯(lián)分析中的因子關聯(lián)樹模型重點分析了影響道路交通事故最重要的因子,發(fā)現(xiàn)在道路交通事故常見的誘因人、車、路及環(huán)境中對事故影響最大的因子是環(huán)境。許卉瑩等利用關聯(lián)分析、聚類分析以及決策樹分析三種數(shù)據(jù)挖掘技術對道路交通事故數(shù)據(jù)進行分析,最終得出了科學的道路交通事故預防和交通安全管理決策依據(jù)。尚威等在研究中,對大量的道路交通數(shù)據(jù)進行了有效整合,并在此基礎上按照交通事故相關因素的不同特點整理出與事故發(fā)生有關的字段數(shù)據(jù),形成新的事故數(shù)據(jù)記錄表,然后再根據(jù)多維關聯(lián)規(guī)則對記錄的相關數(shù)據(jù)進行分析,從而發(fā)現(xiàn)了事故誘導因素記錄字段值和事故結果字段值組成的道路交通事故頻繁字段的組合。張聽等在充分掌握聚類數(shù)據(jù)挖掘理論與方法的基礎上,提出了多目標聚類分析框架和一個啟發(fā)式的聚類算法k-WANMI,并將其用在道路交通事故的聚類研究中對不同權重的屬性進行了多目標分析。同樣,許宏科也利用該方法對公路隧道交通流數(shù)據(jù)進行了聚類分析,其在研究中不僅明確了隧道交通流的峰值規(guī)律,而且還根據(jù)這種規(guī)律制訂了隧道監(jiān)控設備的不同控制方案,對提高隧道交通安全的水平做了極大的貢獻。徐磊和方源敏在研究中,提出了由簡化信息熵構造的'改進C4.5決策樹算法,并將其應用在交通事故數(shù)據(jù)的研究中,對交通數(shù)據(jù)進行了正確分類,發(fā)現(xiàn)了一些隱藏的規(guī)則和知識,為交通管理提供了依據(jù)。劉軍、艾力斯木吐拉、馬曉松運用多維關聯(lián)規(guī)則分析交通事故記錄,從而找到導致交通事故發(fā)生次數(shù)多的主要原因,并且指導相關部門作出相應的決策。楊希剛運用關聯(lián)規(guī)則為現(xiàn)實中的交通事故的預防提供依據(jù)。吉林大學的吳昊等人,基于關聯(lián)規(guī)則的理論基礎,定義了公路交通事故屬性模型,并結合改進后的Apriori算法,分析了交通事故歷史數(shù)據(jù)信息,為有關單位和用戶尋找道路黑點(即事故多發(fā)點)提供了技術支援和決策幫助。
4結語
通過數(shù)據(jù)挖掘中的關聯(lián)分析方法雖然能夠對道路交通事故的相關因素進行清晰的分析,但是目前在這一方面的研究仍有不足之處。因為關聯(lián)分析在道路交通事故的研究中往往只能片面發(fā)現(xiàn)某一種或幾種因素影響交通事故的規(guī)律,很難將所有影響因素結合起來進行全面系統(tǒng)的分析。然而道路交通事故的發(fā)生通常都是由相應因素導致,而后事故當事人意識到危險源的存在并采取措施,直到事故發(fā)生的連續(xù)過程,整體來看體現(xiàn)了時序性。也就是說,道路交通事故是受到一系列按照時間先后順序排列的影響因素組合共同作用而發(fā)生的,從整體的角度出發(fā)研究事故發(fā)生機理更加科學。
參考文獻
[1]楊秀萍.大數(shù)據(jù)下關聯(lián)規(guī)則算法的改進及應用[J].計算機與現(xiàn)代化,2014(12):23-26.
[2]王云,蘇勇.關聯(lián)規(guī)則挖掘在道路交通事故分析中的應用[J].科學技術與工程,2008(7):1824-1827.
[3]徐磊,方源敏.基于決策樹C4.5改進算法的交通數(shù)據(jù)挖掘[J].微處理機,2010,31(6):57-59.
[4]楊希剛.數(shù)據(jù)挖掘在交通事故中的應用[[J].軟件導刊,2008,7(26):18-20.
【數(shù)據(jù)挖掘在道路交通事故中的應用論文】相關文章:
1.數(shù)據(jù)挖掘技術在經(jīng)濟統(tǒng)計中的應用論文
2.數(shù)據(jù)挖掘技術在電子商務中的應用研究論文
4.計算機Web數(shù)據(jù)挖掘技術在現(xiàn)代商業(yè)中的應用論文
5.Web數(shù)據(jù)挖掘及其在電子商務中的應用研究論文