數據挖掘論文精選5篇論文

論文
關注：3.25W次

數據挖掘論文一：

題目：數據挖掘技術在神經根型頸椎病方劑研究中的優勢及應用進展

關鍵詞：數據挖掘技術; 神經根型頸椎病; 方劑; 綜述;

1 數據挖掘技術簡介

數據挖掘技術[1] (Knowledge Discovery in Datebase, KKD) , 是一種新興的信息處理技術, 它融匯了人工智能、模式別、模糊數學、數據庫、數理統計等多種技術方法, 專門用於海量數據的處理, 從大量的、不完全的、有噪聲的、模糊的、隨機的數據集中, 提取隱含在其中的、人們事先不知道的、但又是潛在的有用的信息和知識, 其目的是發現規律而不是驗證假設。數據挖掘技術主要適用於龐大的數據庫的研究, 其特點在於:基於數據分析方法角度的分類, 其本質屬於觀察性研究, 數據來源於日常診療工作資料, 應用的技術較傳統研究更先進, 分析工具、理論模型與傳統研究區別較大。其操作步驟包括[2]:選擇數據, 數據處理, 挖掘分析, 結果解釋, 其中結果解釋是數據挖掘技術研究的關鍵。其方法包括分類、聚類、關聯、序列、決策樹、貝斯網絡、因子、辨別等分析[3], 其結果通常表示為概念、規則、規律、模式、約束、可視化等形式圖[4]。當今數據挖掘技術的方向主要在於:特定數據挖掘, 高效挖掘算法, 提高結果的有效性、確定性和表達性, 結果的可視化, 多抽象層上的交互式數據挖掘, 多元數據挖掘及數據的安全性和保密性。因其優勢和獨特性被運用於多個領域中, 且結果運用後取得顯着成效, 因此越來越多的中醫方劑研究者將其運用於方劑中藥物的研究。

2 數據挖掘術在神經根型頸椎病治方研究中的優勢

中醫對於神經根型頸椎病的治療準則為辨證論治, 從古至今神經根型頸椎病的中醫證型有很多, 其治方是集中醫之理、法、方、藥為一體的數據集合, 具有以“方-藥-證”為核心的多維結構。方劑配伍本質上表現為方與方、方與藥、藥與藥、藥與劑量, 以及方藥與證、病、症交叉錯綜的關聯與對應[5], 而中醫方劑講究君臣佐使的配伍, 藥物有升降沉浮, 四氣五味及歸經之別, 對於神經根型頸椎病的治療, 治方中藥物的種類、炮製方法、用量、用法等都是千變萬化的, 而這些海量、模糊、看似隨機的藥物背後隱藏着對臨牀有用的信息和規律, 但這些大數據是無法在可承受的時間範圍內可用常規軟件工具進行捕捉、管理和處理的, 是需要一個新處理模式才能具有更強的決策力、洞察力和流程優化能力, 而數據挖掘技術有可能從這些海量的的數據中發現新知識, 揭示背後隱藏的關係和規則, 並且對未知的情況進行預測[6]。再者, 中醫辨治充滿非線性思維, “方-藥-證”間的多層關聯、序列組合、集羣對應, 形成了整體論的思維方式和原則, 而數據挖掘技術數據挖掘在技術線路上與傳統數據處理方法不同在於其能對數據庫內的數據以線性和非線性方式解析, 尤善處理模糊的、非量化的數據。例如趙睿曦等[7]在研究張氏骨傷治療腰椎間盤突出症的用藥規律時, 選取了100張治方, 因該病病因病機複雜, 證候不一, 骨傷名師張玉柱先生對該病的治則治法、藥物使用是不同的。因此他們利用Excel建立方證數據庫, 採用SPPS Clementine12.0軟件對這些數據的用藥頻次、藥物關聯規則及藥物聚類進行分析, 最後總結出張氏骨傷治療腰椎間盤突出症遵循病從肝治、病從血治、標本兼治的原則, 也歸納出治療三種不同證型的腰突症的三類自擬方。由此看出數據挖掘技術在方劑研究中的應用對數據背後信息、規律等的挖掘及名家經驗的推廣具有重大意義, 因此數據挖掘技術在神經根型頸椎病的治方研究中也同樣發揮着巨大的作用。

3 數據挖掘技術在神經根型頸椎治方中的應用進展

神經根型頸椎病在所有頸椎病中最常見, 約佔50%~60%[8], 醫家對其治方的研究也是不計其數。近年來數據挖掘技術也被運用於其治方研究中, 筆者通過萬方、中國知網等總共檢索出以下幾篇文獻, 雖數量不多但其優勢明顯。劉向前等[9]在挖掘古方治療神經根型頸椎病的用藥規律時, 通過檢索《中華醫典》並從中篩選以治療頸項肩臂痛為主的古方219首並建立數據庫, 對不同證治古方的用藥類別、總味數、單味藥使用頻數及藥對 (組) 出現頻數進行統計, 總結出風寒濕痺證、痰濕阻痺證、寒濕阻滯證、正虛不足證的用藥特點, 得出解表藥、祛風濕藥、活血化瘀藥、補虛藥是治療頸項肩臂痛古方組成的主要藥物。古為今用, 該研究對於現代醫家在治療該病中有很好的借鑑和參考意義。齊兵獻等[10]檢索CNKI (1980-2009年) 相關文獻中治療神經根型頸椎病的方劑建立數據庫, 採用SPSS11.5統計軟件這些治方常用藥物使用頻次頻率、性味頻率、歸經頻率分析比較, 治療神經根型頸椎病的中藥共計99味, 使用頻次479味次;所用藥物種類依次以補益藥、活血化瘀藥、祛風濕藥運用最多, 其中藥味以辛、苦為主, 藥性以温、寒為主, 歸經以肝、脾、心為主, 而本病以肝腎虧虛, 氣血瘀滯為主, 臨牀以補益藥、活血化瘀藥、祛風濕藥等中藥運用最多。這對於醫家治療該病選用藥物的性味、歸經等具有指導意義。陳元川等[11]檢索2004年1月至2013年3月發表的以單純口服中藥治療神經根型頸椎病的有關文獻, 對其中的方劑和藥物進行統計、歸類、分析, 最終納入32首方劑, 涉及111味中藥, 補氣藥、發散風寒藥、活血止痛藥、補血藥等使用頻次較高;葛根、白芍、黃芪、當歸、桂枝等藥物使用頻次較高, 證實與古方桂枝加葛根湯主藥相同, 且該方扶陽解表的治法與該研究得出的扶正祛邪的結果相吻合, 同時也證實石氏傷科強調治傷科病當“以氣為主, 以血為先”等正確性。所以大數據背後的規律和關係在很多方面古今是一致的, 同時數據依據的支持也為現代神經根型頸椎病治療提供有力的保障。謝輝等[12]收集2009至2014年10月3日的166張治療神經根型頸椎病的治方建立數據庫, 採用關聯規則算法、複雜系統熵聚類等無監督數據挖掘方法, 利用中醫傳承輔助平台 (TCMISS) 軟件分析處方中各種藥物的使用頻次、藥物之間的關聯規則、核心藥物組合和新處方, 從中挖掘出治療該病中醫中的常用藥物、藥對, 闡明瞭治療該病以解肌散寒藥、補氣活血藥、祛風勝濕藥和温經通絡藥為主, 治法主要包括解肌舒筋、益氣活血和補益肝腎, 這一方面很清晰明瞭地展示了藥物使用頻率、藥物之間的聯繫, 證實其與很多古代經典中治療神經根型頸椎病的治則、治法及用藥規律是吻合的, 是臨牀用藥的積累和昇華, 可有效地指導臨牀並提高療效;另一方面也為中藥新藥的創制提供處方來源, 指導新藥研發[13]。

4 小結

數據挖掘技術作為一種新型的研究技術, 在神經根型頸椎病的治方研究中的運用相對於其他領域是偏少的, 並且基本上是研究文獻資料上出現的治方, 在對名老中醫個人治療經驗及用藥規律的總結是缺乏的, 因此研究範圍廣而缺乏針對性, 同時使用該技術的相關軟件種類往往是單一的。現在研究者在研究中醫方劑時往往採用傳統的研究方法, 這就導致在大數據的研究中耗時、耗力甚則無能為力, 同樣也難以精準地提取大數據背後的隱藏的潛在關係和規則及缺乏對未知情況的預測。產生這樣的現狀, 一方面是很多研究者尚未清楚該技術在方劑研究中的優勢所在, 思維模式尚未更新;另一方面是很多研究者尚未清楚該技術的操作技能及軟件種類及其應用範圍。故以後應向更多研究者普及該技術的軟件種類、其中的優勢及操作技能, 讓該技術在臨牀中使用更廣, 產生更大的效益。

參考文獻

[1]舒正渝.淺談數據挖掘技術及應用[J].中國西部科技, 2010, 9 (5) :38-39.

[2]曹毅, 季聰華.臨牀科研設計與分析[M].杭州:浙江科學技術出版社, 2015:189.

[3]王靜, 崔蒙.數據挖掘技術在中醫方劑學研究中的應用[J].中國中醫藥信息雜誌, 2008, 15 (3) :103-104.

[4]陳丈偉.數據倉庫與數據挖掘[M].北京:清華大學出版社, 2006:5.

[5]楊玉珠.數據挖掘技術綜述與應用[J].河南科技, 2014, 10 (19) :21.

[6]餘侃侃.數據挖掘技術在方劑配伍中的研究現狀及研究方法[J].中國醫藥指南, 2008, 6 (24) :310-312.

[7]趙睿曦.方證數據挖掘分析張氏骨傷對腰椎間盤突出症的辨證用藥規律[J].陝西中醫藥大學學報, 2016, 39 (6) :44-46.

[8]李曙明, 尹戰海, 王瑩.神經根型頸椎病的影像學特點和分型[J].中國矯形外科雜誌, 2013, 21 (1) :7-11.

[9]劉向前, 陳民, 黃廣平等.頸項肩臂痛內治古方常用藥物的統計分析[J].中華中醫藥學刊, 2012, 30 (9) :42-44.

[10]齊兵獻, 樊成虎, 李兆和.神經根型頸椎病中醫用藥規律的文獻研究[J].河南中醫, 2012, 32 (4) :518-519.

[11]陳元川, 王翔, 龐堅, 等.單純口服中藥治療神經根型頸椎病用藥分析[J].上海中醫藥雜誌, 2014, 48 (6) :78-80.

[12]謝輝, 劉軍, 潘建科, 等.基於數據挖掘方法的神經根型頸椎病用藥規律研究[J].世界中西醫結合雜誌, 2015, 10 (6) :849-852.

[13]唐仕歡, 楊洪軍.中醫組方用藥規律研究進展述評[J].中國實驗方劑學雜誌, 2013 (5) :359-363.

數據挖掘論文二：

題目：大數據挖掘在智遊應用中的探究

摘要：大數據和智遊都是當下的熱點, 沒有大數據的智遊無從談“智慧”, 數據挖掘是大數據應用於智遊的核心, 文章探究了在智遊應用中, 目前大數據挖掘存在的幾個問題。

關鍵詞：大數據; 智遊; 數據挖掘;

1引言

隨着人民生活水平的進一步提高, 旅遊消費的需求進一步上升, 在雲計算、互聯網、物聯網以及移動智能終端等信息通訊技術的飛速發展下, 智遊應運而生。大數據作為當下的熱點已經成了智遊發展的有力支撐, 沒有大數據提供的有利信息, 智遊無法變得“智慧”。

2大數據與智遊

旅遊業是信息密、綜合性強、信息依存度高的產業[1], 這讓其與大數據自然產生了交匯。2010年, 江蘇省鎮江市首先提出“智遊”的概念, 雖然至今國內外對於智遊還沒有一個統一的學術定義, 但在與大數據相關的描述中, 有學者從大數據挖掘在智遊中的作用出發, 把智遊描述為:通過充分收集和管理所有類型和來源的旅遊數據, 並深入挖掘這些數據的潛在重要價值信息, 然後利用這些信息為相關部門或對象提供服務[2]。這一定義充分肯定了在發展智遊中, 大數據挖掘所起的至關重要的作用, 指出了在智遊的過程中, 數據的收集、儲存、管理都是為數據挖掘服務, 智遊最終所需要的是利用挖掘所得的有用信息。

3大數據挖掘在智遊中存在的問題

2011年, 我國提出用十年時間基本實現智遊的目標[3], 過去幾年, 國家旅遊局的相關動作均為了實現這一目標。但是, 在藉助大數據推動智遊的可持續性發展中, 大數據所產生的價值卻亟待提高, 原因之一就是在收集、儲存了大量數據後, 對它們深入挖掘不夠, 沒有發掘出數據更多的價值。

3.1 信息化建設

智遊的發展離不開移動網絡、物聯網、雲平台。隨着大數據的不斷髮展, 國內許多景區已經實現Wi-Fi覆蓋, 部分景區也已實現人與人、人與物、人與景點之間的實時互動, 多省市已建有旅遊產業監測平台或旅遊大數據中心以及數據可視化平台, 從中進行數據統計、行為分析、監控預警、服務質量監督等。通過這些平台, 已基本能掌握跟遊客和景點相關的數據, 可以實現更好旅遊監控、產業宏觀監控, 對該地的旅遊管理和推廣都能發揮重要作用。

但從智慧化的發展來看, 我國的信息化建設還需加強。雖然通訊網絡已基本能保證, 但是大部分景區還無法實現對景區全面、透徹、及時的感知, 更為困難的是對平台的建設。在數據共享平台的建設上, 除了必備的硬件設施, 大數據實驗平台還涉及大量部門, 如政府管理部門、氣象部門、交通、電子商務、旅行社、旅遊網站等。如此多的部門相關聯, 要想建立一個完整全面的大數據實驗平台, 難度可想而知。

3.2 大數據挖掘方法

大數據時代缺的不是數據, 而是方法。大數據在旅遊行業的應用前景非常廣闊, 但是面對大量的數據, 不懂如何收集有用的數據、不懂如何對數據進行挖掘和利用, 那麼“大數據”猶如礦山之中的廢石。旅遊行業所涉及的結構化與非結構化數據, 通過雲計算技術, 對數據的收集、存儲都較為容易, 但對數據的挖掘分析則還在不斷探索中。大數據的挖掘常用的方法有關聯分析, 相似度分析, 距離分析, 聚類分析等等, 這些方法從不同的角度對數據進行挖掘。其中, 相關性分析方法通過關聯多個數據來源, 挖掘數據價值。但針對旅遊數據, 採用這些方法挖掘數據的價值信息, 難度也很大, 因為旅遊數據中宂餘數據很多, 數據存在形式很複雜。在旅遊非結構化數據中, 一張圖片、一個天氣變化、一次輿情評價等都將會對遊客的旅行計劃帶來影響。對這些數據完全挖掘分析, 對遊客“行前、行中、行後”大數據的實時性挖掘都是很大的挑戰。

3.3 數據安全

2017年, 數據安全事件屢見不鮮, 伴着大數據而來的數據安全問題日益凸顯出來。在大數據時代, 無處不在的數據收集技術使我們的個人信息在所關聯的數據中心留下痕跡, 如何保證這些信息被合法合理使用, 讓數據“可用不可見”[4], 這是亟待解決的問題。同時, 在大數據資源的開放性和共享性下, 個人隱私和公民權益受到嚴重威脅。這一矛盾的存在使數據共享程度與數據挖掘程度成反比。此外, 經過大數據技術的分析、挖掘, 個人隱私更易被發現和暴露, 從而可能引發一系列社會問題。

大數據背景下的旅遊數據當然也避免不了數據的安全問題。如果遊客“吃、住、行、遊、娛、購”的數據被放入數據庫, 被完全共享、挖掘、分析, 那遊客的人身財產安全將會受到嚴重影響, 最終降低旅遊體驗。所以, 數據的安全管理是進行大數據挖掘的前提。

3.4 大數據人才

大數據背景下的智遊離不開人才的創新活動及技術支持, 然而與專業相銜接的大數據人才培養未能及時跟上行業需求, 加之創新型人才的外流, 以及數據統計未來3~5年大數據行業將面臨全球性的人才荒, 國內智遊的構建還缺乏大量人才。

4解決思路

在信息化建設上, 加大政府投入, 加強基礎設施建設, 整合結構化數據, 抓取非結構化數據, 打通各數據壁壘, 建設旅遊大數據實驗平台;在挖掘方法上, 對旅遊大數據實時性數據的挖掘應該被放在重要位置;在數據安全上, 從加強大數據安全立法、監管執法及強化技術手段建設等幾個方面着手, 提升大數據環境下數據安全保護水平。加強人才的培養與引進, 加強產學研合作, 培養智遊大數據人才。

參考文獻

[1]翁凱.大數據在智遊中的應用研究[J].信息技術, 2015, 24:86-87.

[2]樑昌勇, 馬銀超, 路彩虹.大數據挖掘, 智遊的核心[J].開發研究, 2015, 5 (180) :134-139.

[3]張建濤, 王洋, 劉力剛.大數據背景下智遊應用模型體系構建[J].企業經濟, 2017, 5 (441) :116-123.

[4]王竹欣, 陳湉.保障大數據, 從哪裏入手?[N].人民郵電究, 2017-11-30.

數據挖掘論文三：

題目：檔案信息管理系統中的計算機數據挖掘技術探討

摘要：伴隨着計算機技術的不斷進步和發展, 數據挖掘技術成為數據處理工作中的重點技術, 能借助相關算法搜索相關信息, 在節省人力資本的同時, 提高數據檢索的實際效率, 基於此, 被廣泛應用在數據密集型行業中。筆者簡要分析了計算機數據挖掘技術, 並集中闡釋了檔案信息管理系統計算機數據倉庫的建立和技術實現過程, 以供參考。

關鍵詞：檔案信息管理系統; 計算機; 數據挖掘技術; 1 數據挖掘技術概述

數據挖掘技術就是指在大量隨機數據中提取隱含信息, 並且將其整合後應用在知識處理體系的技術過程。若是從技術層面判定數據挖掘技術, 則需要將其劃分在商業數據處理技術中, 整合商業數據提取和轉化機制, 並且建構更加系統化的分析模型和處理機制, 從根本上優化商業決策。藉助數據挖掘技術能建構完整的數據倉庫, 滿足集成性、時變性以及非易失性等需求, 整和數據處理和宂餘參數, 確保技術框架結構的完整性。

目前, 數據挖掘技術常用的工具, 如SAS企業的Enterprise Miner、IBM企業的Intellient Miner以及SPSS企業的Clementine等應用都十分廣泛。企業在實際工作過程中, 往往會利用數據源和數據預處理工具進行數據定型和更新管理, 並且應用聚類分析模塊、決策樹分析模塊以及關聯分析算法等, 藉助數據挖掘技術對相關數據進行處理。

2 檔案信息管理系統計算機數據倉庫的建立

2.1 客户需求單元

為了充分發揮檔案信息管理系統的優勢, 要結合客户的實際需求建立完整的處理框架體系。在數據庫體系建立中, 要適應迭代式處理特徵, 並且從用户需求出發整合數據模型, 保證其建立過程能按照整體規劃有序進行, 且能按照目標和分析框架參數完成操作。首先, 要確立基礎性的數據倉庫對象, 由於是檔案信息管理, 因此, 要集中劃分檔案數據分析的主題, 並且有效錄入檔案信息, 確保滿足檔案的數據分析需求。其次, 要對日常工作中的用户數據進行集中的挖掘處理, 從根本上提高數據倉庫分析的完整性。

(1) 確定數據倉庫的基礎性用户, 其中, 主要包括檔案工作人員和使用人員, 結合不同人員的工作需求建立相應的數據倉庫。

(2) 檔案工作要利用數據分析和檔案用户特徵分析進行分類描述。

(3) 確定檔案的基礎性分類主題, 一般而言, 要將文書檔案歸檔情況、卷數等基礎性信息作為分類依據。

2.2 數據庫設計單元

在設計過程中, 要針對不同維度建立相應的參數體系和組成結構, 並且有效整合組成事實表的主鍵項目, 建立框架結構。

第一, 建立事實表。事實表是數據模型的核心單元, 主要是記錄相關業務和統計數據的表, 能整合數據倉庫中的信息單元, 並且提升多維空間處理效果, 確保數據儲存過程切實有效。 (1) 檔案管理中文書檔案目錄卷數事實表:事實表主鍵, 字段類型Int, 字段為Id;文書歸檔年份, 字段類型Int, 字段為Gdyear_key;文書歸檔類型, 字段類型Int, 字段為Ajtm_key;文書歸檔單位, 字段類型Int, 字段為Gddw_key;文書檔案生成年份, 字段類型Int, 字段為Ajscsj_key, 以及文書檔案包括的文件數目。 (2) 檔案管理中文書檔案卷數事實表:事實表主鍵, 字段類型Int, 字段為Id;文書歸檔利用日期, 字段類型Int, 字段為Date_key;文書歸檔利用單位, 字段類型Int, 字段為Dw_key;文書歸檔利用類別, 字段類型Int, 字段為Dalb_key;文書歸檔利用年份, 字段類型Int, 字段為Dayear_key等[1]。

第二, 建立維度表, 在實際數據倉庫建立和運維工作中, 提高數據管理效果和水平, 確保建立循環和反饋的系統框架體系, 並且處理增長過程和完善過程, 有效實現數據庫模型設計以及相關維護操作。首先, 要對模式的基礎性維度進行分析並且製作相應的表, 主要包括檔案年度維表、利用方式維表等。其次, 要建構數據庫星型模型體系。最後, 要集中判定數據庫工具, 保證數據庫平台在客户管理工作方面具備一定的優勢, 集中制訂商務智能解決方案, 保證集成環境的穩定性和數據倉庫建模的效果, 真正提高數據抽取以及轉換工作的實際水平。需要注意的是, 在全面整合和分析處理數據的過程中, 要分離文書檔案中的數據, 相關操作如下:

from dag gd temp//刪除臨時表中的數據

Ch count=dag 1.importfile (dbo.u wswj) //將文書目錄中數據導出到數據窗口

Dag 1.() //將數據窗口中的數據保存到臨時表

相關技術人員要對數據進行有效處理, 以保證相關數據合併操作、連接操作以及條件性拆分操作等都能按照數據預處理管理要求合理化進行, 從根本上維護數據處理效果。

2.3 多維數據模型建立單元

在檔案多維數據模型建立的過程中, 相關技術人員要判定聯機分析處理項目和數據挖掘方案, 整合信息系統中的數據源、數據視圖、維度參數以及屬性參數等, 保證具體單元能發揮其實際作用, 並且真正發揮檔案維表的穩定性、安全性優勢。

第一, 檔案事實表中的數據穩定, 事實表是加載和處理檔案數據的基本模塊, 按照檔案目錄數據表和檔案利用情況表分析和判定其類別和歸檔時間, 從而提高數據獨立分析水平。一方面, 能追加有效的數據, 保證數據倉庫信息的基本質量, 也能追加時間判定標準, 能在實際操作中減少掃描整個表浪費的時間, 從根本上提高實際效率。另一方面, 能刪除數據, 實現數據更新, 檢索相關關鍵詞即可。並且也能同時修改數據, 維護檔案撤出和檔案追加的動態化處理效果。

第二, 檔案維表的安全性。在維表管理工作中, 檔案參數和數據的安全穩定性十分關鍵, 由於其不會隨着時間的推移出現變化, 因此, 要對其進行合理的處理和協調。維表本身的存儲空間較小, 儘管結構發生變化的概率不大, 但仍會對代表的對象產生影響, 這就會使得數據出現動態的變化。對於這種改變, 需要藉助新維生成的方式進行處理, 從而保證不同維表能有效連接, 整合正確數據的同時, 也能對事實表外鍵進行分析[2]。

3 檔案信息管理系統計算機數據倉庫的實現

3.1 描述需求

隨着互聯網技術和數據庫技術不斷進步, 要提高檔案數字化水平以及完善信息化整合機制, 加快數據庫管控體系的更新, 確保設備存儲以及網絡環境一體化水平能滿足需求, 尤其是在檔案資源重組和預測項目中, 只有從根本上落實數據挖掘體系, 才能為後續信息檔案管理項目升級奠定堅實基礎。另外, 在數據表和文書等基礎性數據結構模型建立的基礎上, 要按照規律制定具有個性化的主動性服務機制。

3.2 關聯計算

在實際檔案分析工作開展過程中, 關聯算法描述十分關鍵, 能對某些行為特徵進行統籌整合, 從而制定分析決策。在進行關聯規則強度分析時, 要結合支持度和置信度等系統化數據進行綜合衡量。例如, 檔案數據庫中有A和B兩個基礎項集合, 支持度為P (A∪B) , 則直接表述了A和B在同一時間出現的基礎性概率。若是兩者出現的概率並不大, 則證明兩者之間的關聯度較低。若是兩者出現的概率較大, 則説明兩者的關聯度較高。另外, 在分析置信度時, 利用Confidence (A→B) = (A|B) , 也能有效判定兩者之間的關係。在出現置信度A的情況下, B的出現概率則是整體參數關係的關鍵, 若是置信度的數值達到100%, 則直接證明A和B能同一時間出現。

3.3 神經網絡算法

除了要對檔案的實際內容進行數據分析和數據庫建構, 也要對其利用情況進行判定, 目前較為常見的利用率分析算法就是神經網絡算法, 其藉助數據分類系統判定和分析數據對象。值得注意的是, 在分類技術結構中, 要結合訓練數據集判定分類模型數據挖掘結構。神經網絡算法類似於人腦系統的運行結構, 能建立完整的信息處理單元, 並且能夠整合非線性交換結構, 確保能憑藉歷史數據對計算模型和分類體系展開深度分析[3]。

3.4 實現多元化應用

在檔案管理工作中應用計算機數據挖掘技術, 能對檔案分類管理予以分析, 保證信息需求分類總結工作的完整程度。尤其是檔案使用者在對檔案具體特徵進行差異化分析的過程中, 能結合不同的元素對具體問題展開深度調研。一方面, 計算機數據挖掘技術藉助決策樹算法處理規則化的檔案分析機制。在差異化訓練體系中, 要對數據集合中的數據進行系統化分析以及處理, 確保構建要求能適應數據挖掘的基本結構[4]。例如, 檔案管理人員藉助數據挖掘技術能整合檔案使用人員長期瀏覽與關注的信息, 並且能集中收集和彙總間隔時間、信息查詢停留時間等, 從而建構完整的數據分析機制, 有效向其推送或者是提供便捷化查詢服務, 保證檔案管理數字化水平的提高。另一方面, 在檔案收集管理工作中應用數據挖掘技術, 主要是對數據信息進行分析, 結合基本結果建立概念模型, 保證模型以及測試樣本之間的比較參數符合標準, 從而真正建立更加系統化的分類框架體系。

4 結語

總而言之, 在檔案管理工作中應用數據挖掘技術, 能在準確判定用户需求的同時, 維護數據處理效果, 並且減少檔案數字化的成本, 為後續工作的進一步優化奠定堅實基礎。並且, 數據庫的建立, 也能節省經費和設備維護成本, 真正實現數字化全面發展的目標, 促進檔案信息管理工作的長效進步。

參考文獻

[1]曾雪峯.計算機數據挖掘技術開發及其在檔案信息管理中的運用研究[J].科技創新與應用, 2016 (9) :285.

[2]王曉燕.數據挖掘技術在檔案信息管理中的應用[J].蘭台世界, 2014 (23) :25-26.

[3]韓吉義.基於數據挖掘技術的高校圖書館檔案信息管理平台的構築[J].山西檔案, 2015 (6) :61-63.

[4]哈立原.基於數據挖掘技術的高校圖書館檔案信息管理平台構建[J].山西檔案, 2016 (5) :105-107.

數據挖掘論文四：題目：機器學習算法在數據挖掘中的應用

摘要：隨着科學技術的快速發展, 各種新鮮的事物和理念得到了廣泛的應用。其中機器學習算法就是一則典型案例——作為一種新型的算法, 其廣泛應用於各行各業之中。本篇論文旨在探討機器學習算法在數據挖掘中的具體應用, 我們利用龐大的移動終端數據網絡, 加強了基於GSM網絡的户外終端定位, 從而提出了3個階段的定位算法, 有效提高了定位的精準度和速度。

關鍵詞：學習算法; GSM網絡; 定位; 數據;

移動終端定位技術由來已久, 其主要是利用各種科學技術手段定位移動物體的精準位置以及高度。目前, 移動終端定位技術主要應用於軍事定位、緊急救援、網絡優化、地圖導航等多個現代化的領域, 由於移動終端定位技術可以提供精準的位置服務信息, 所以其在市場上還是有較大的需求的, 這也為移動終端定位技術的優化和發展, 提供了推動力。隨着通信網絡普及, 移動終端定位技術的發展也得到了一些幫助, 使得其定位的精準度和速度都得到了全面的優化和提升。同時, 傳統的定位方法結合先進的算法來進行精準定位, 目前依舊還是有較大的進步空間。在工作中我選取機器學習算法結合數據挖掘技術對傳統定位技術加以改進, 取得了不錯的效果, 但也遇到了許多問題, 例如:使用機器學習算法來進行精準定位暫時無法滿足更大的區域要求, 還有想要利用較低的設備成本, 實現得到更多的精準定位的要求比較困難。所以本文對機器學習算法進行了深入的研究, 希望能夠幫助其更快速的定位、更精準的定位, 滿足市場的需要。

1 數據挖掘概述

數據挖掘又名數據探勘、信息挖掘。它是數據庫知識篩選中非常重要的一步。數據挖掘其實指的就是在大量的數據中通過算法找到有用信息的行為。一般情況下, 數據挖掘都會和計算機科學緊密聯繫在一起, 通過統計集合、在線剖析、檢索篩選、機器學習、參數識別等多種方法來實現最初的目標。統計算法和機器學習算法是數據挖掘算法裏面應用得比較廣泛的兩類。統計算法依賴於概率分析, 然後進行相關性判斷, 由此來執行運算。

而機器學習算法主要依靠人工智能科技, 通過大量的樣本收集、學習和訓練, 可以自動匹配運算所需的相關參數及模式。它綜合了數學、物理學、自動化和計算機科學等多種學習理論, 雖然能夠應用的領域和目標各不相同, 但是這些算法都可以被獨立使用運算, 當然也可以相互幫助, 綜合應用, 可以説是一種可以“因時而變”、“因事而變”的算法。在機器學習算法的領域, 人工神經網絡是比較重要和常見的一種。因為它的優秀的數據處理和演練、學習的能力較強。

而且對於問題數據還可以進行精準的識別與處理分析, 所以應用的頻次更多。人工神經網絡依賴於多種多樣的建模模型來進行工作, 由此來滿足不同的數據需求。綜合來看, 人工神經網絡的建模, 它的精準度比較高, 綜合表述能力優秀, 而且在應用的過程中, 不需要依賴專家的輔助力量, 雖然仍有缺陷, 比如在訓練數據的時候耗時較多, 知識的理解能力還沒有達到智能化的標準, 但是, 相對於其他方式而言, 人工神經網絡的優勢依舊是比較突出的。

2 以機器學習算法為基礎的GSM網絡定位

2.1 定位問題的建模

建模的過程主要是以支持向量機定位方式作為基礎, 把定位的位置柵格化, 面積較小的柵格位置就是獨立的一種類別, 在定位的位置內, 我們收集數目龐大的終端測量數據, 然後利用計算機對測量報告進行分析處理, 測量柵格的距離度量和精準度, 然後對移動終端柵格進行預估判斷, 最終利用機器學習進行分析求解。

2.2 採集數據和預處理

本次研究, 我們採用的模型對象是我國某一個周邊長達10千米的二線城市。在該城市區域內, 我們測量了四個不同時間段內的數據, 為了保證機器學習算法定位的精準性和有效性, 我們把其中的三批數據作為訓練數據, 最後一組數據作為定位數據, 然後把定位數據周邊十米內的前三組訓練數據的相關信息進行清除。一旦確定某一待定位數據, 就要在不同的時間內進行測量, 按照測量出的數據信息的經緯度和平均值, 再進行換算, 最終, 得到真實的數據量, 提升定位的速度以及有效程度。

2.3 以基站的經緯度為基礎的初步定位

用機器學習算法來進行移動終端定位, 其複雜性也是比較大的, 一旦區域面積增加, 那麼模型和分類也相應增加, 而且更加複雜, 所以, 利用機器學習算法來進行移動終端定位的過程, 會隨着定位區域面積的增大, 而耗費更多的時間。利用基站的經緯度作為基礎來進行早期的定位, 則需要以下幾個步驟:要將邊長為十千米的正方形分割成一千米的小柵格, 如果想要定位數據集內的相關信息, 就要選擇對邊長是一千米的小柵格進行計算, 而如果是想要獲得邊長一千米的大柵格, 就要對邊長是一千米的柵格精心計算。

2.4 以向量機為基礎的二次定位

在完成初步定位工作後, 要確定一個邊長為兩千米的正方形, 由於第一級支持向量機定位的區域是四百米, 定位輸出的是以一百米柵格作為中心點的經緯度數據信息, 相對於一級向量機的定位而言, 二級向量機在定位計算的時候難度是較低的`, 更加簡便。後期的預算主要依賴決策函數計算和樣本向量機計算。隨着柵格的變小, 定位的精準度將越來越高, 而由於增加分類的問題數量是上升的, 所以, 定位的複雜度也是相對增加的。

2.5 以K-近鄰法為基礎的三次定位

第一步要做的就是選定需要定位的區域面積, 在二次輸出之後, 確定其經緯度, 然後依賴經緯度來確定邊長面積, 這些都是進行區域定位的基礎性工作, 緊接着就是定位模型的訓練。以K-近鄰法為基礎的三次定位需要的是綜合訓練信息數據, 對於這些信息數據, 要以大小為選擇依據進行篩選和合並, 這樣就能夠減少計算的重複性。當然了, 選擇的區域面積越大, 其定位的速度和精準性也就越低。

3 結語

近年來, 隨着我國科學技術的不斷髮展和進步, 數據挖掘技術愈加重要。根據上面的研究, 我們證明了, 在數據挖掘的過程中, 應用機器學習算法具有舉足輕重的作用。作為一門多領域互相交叉的知識學科, 它能夠幫助我們提升定位的精準度以及定位速度, 可以被廣泛的應用於各行各業。所以, 對於機器學習算法, 相關人員要加以重視, 不斷的進行改良以及改善, 切實的發揮其有利的方面, 將其廣泛應用於智能定位的各個領域, 幫助我們解決關於户外移動終端的定位的問題。

參考文獻

[1]陳小燕, CHENXiaoyan.機器學習算法在數據挖掘中的應用[J].現代電子技術, 2015, v.38;No.451 (20) :11-14.

[2]李運.機器學習算法在數據挖掘中的應用[D].北京郵電大學, 2014.

[3]莫雪峯.機器學習算法在數據挖掘中的應用[J].科教文匯, 2016 (07) :175-178.

數據挖掘論文五：題目：軟件工程數據挖掘研究進展

摘要：數據挖掘是指在大數據中開發出有價值信息數據的過程。計算機技術的不斷進步, 通過人工的方式進行軟件的開發與維護難度較大。而數據挖掘能夠有效的提升軟件開發的效率, 並能夠在大量的數據中獲得有效的數據。文章主要探究軟件工程中數據挖掘技術的任務和存在的問題, 並重點論述軟件開發過程中出現的問題和相關的解決措施。

關鍵詞：軟件工程; 數據挖掘; 解決措施;

在軟件開發過程中, 為了能夠獲得更加準確的數據資源, 軟件的研發人員就需要蒐集和整理數據。但是在大數據時代, 人工獲取數據信息的難度極大。當前, 軟件工程中運用最多的就是數據挖掘技術。軟件挖掘技術是傳統數據挖掘技術在軟件工程方向的其中一部分。但是它具有自身的特徵, 體現在以下三個方面:

(1) 在軟件工程中, 對有效數據的挖掘和處理;

(2) 挖掘數據算法的選擇問題;

(3) 軟件的開發者該如何選擇數據。

1 在軟件工程中數據挖掘的主要任務

在數據挖掘技術中, 軟件工程數據挖掘是其中之一, 其挖掘的過程與傳統數據的挖掘無異。通常包括三個階段:第一階段, 數據的預處理;第二階段, 數據的挖掘;第三階段, 對結果的評估。第一階段的主要任務有對數據的分類、對異常數據的檢測以及整理和提取複雜信息等。雖然軟件工程的數據挖掘和傳統的數據挖掘存在相似性, 但是也存在一定的差異, 其主要體現在以下三個方面:

1.1 軟件工程的數據更加複雜

軟件工程數據主要包括兩種, 一種是軟件報告, 另外一種是軟件的版本信息。當然還包括一些軟件代碼和註釋在內的非結構化數據信息。這兩種軟件工程數據的算法是不同的, 但是兩者之間又有一定的聯繫, 這也是軟件工程數據挖掘複雜性的重要原因。

1.2 數據分析結果的表現更加特殊

傳統的數據挖掘結果可以通過很多種結果展示出來, 最常見的有報表和文字的方式。但是對於軟件工程的數據挖掘來講, 它最主要的職能是給軟件的研發人員提供更加精準的案例, 軟件漏洞的實際定位以及設計構造方面的信息, 同時也包括數據挖掘的統計結果。所以這就要求軟件工程的數據挖掘需要更加先進的結果提交方式和途徑。

1.3 對數據挖掘結果難以達成一致的評價

我國傳統的數據挖掘已經初步形成統一的評價標準, 而且評價體系相對成熟。但是軟件工程的數據挖掘過程中, 研發人員需要更多複雜而又具體的數據信息, 所以數據的表示方法也相對多樣化, 數據之間難以進行對比, 所以也就難以達成一致的評價標準和結果。不難看出, 軟件工程數據挖掘的關鍵在於對挖掘數據的預處理和對數據結果的表示方法。

2 軟件工程研發階段出現的問題和解決措施

軟件在研發階段主要的任務是對軟件運行程序的編寫。以下是軟件在編碼和結果的提交過程中出現的問題和相應的解決措施。

2.1 對軟件代碼的編寫過程

該過程需要軟件的研發人員能夠對自己需要編寫的代碼結構與功能有充分的瞭解和認識。並能夠依據自身掌握的信息, 在數據庫中搜集到可以使用的數據信息。通常情況下, 編程需要的數據信息可以分為三個方面:

(1) 軟件的研發人員能夠在已經存在的代碼中搜集可以重新使用的代碼;

(2) 軟件的研發人員可以搜尋可以重用的靜態規則, 比如繼承關係等。

(3) 軟件的開發人員搜尋可以重用的動態規則。

包括軟件的接口調用順序等。在尋找以上信息的過程中, 通常是利用軟件的幫助文檔、尋求外界幫助和蒐集代碼的方式實現, 但是以上方式在蒐集信息過程中往往會遇到較多的問題, 比如:幫助文檔的準確性較低, 同時不夠完整, 可利用的重用信息不多等。

2.2 對軟件代碼的重用

在對軟件代碼重用過程中, 最關鍵的問題是軟件的研發人員必須掌握需要的類或方法, 並能夠通過與之有聯繫的代碼實現代碼的重用。但是這種方式哦足跡信息將會耗費工作人員大量的精力。而通過關鍵詞在代碼庫中搜集可重用的軟件代碼, 同時按照代碼的相關度對蒐集到的代碼進行排序, 該過程使用的原理就是可重用的代碼必然模式基本類似, 最終所展現出來的搜索結果是以上下文結構的方式展現的。比如:類與類之間的聯繫。其實現的具體流程如下:

(1) 軟件的開發人員創建同時具備例程和上下文架構的代碼庫;

(2) 軟件的研發人員能夠向代碼庫提供類的相關信息, 然後對反饋的結果進行評估, 創建新型的代碼庫。

(3) 未來的研發人員在蒐集過程中能夠按照評估結果的高低排序, 便於查詢, 極大地縮減工作人員的任務量, 提升其工作效率。

2.3 對動態規則的重用

軟件工程領域內對動態規則重用的研究已經相對成熟, 通過在編譯器內安裝特定插件的方式檢驗代碼是否為動態規則最適用的, 並能夠將不適合的規則反饋給軟件的研發人員。其操作流程為:

(1) 軟件的研發人員能夠規定動態規則的順序, 主要表現在:使用某一函數是不能夠調用其他的函數。

(2) 實現對相關數據的保存, 可以通過隊列等簡單的數據結構完成。在利用編譯拓展中檢測其中的順序。

(3) 能夠將錯誤的信息反饋給軟件的研發人員。

3 結束語

在軟件工程的數據挖掘過程中, 數據挖掘的概念才逐步被定義, 但是所需要挖掘的數據是已經存在的。數據挖掘技術在軟件工程中的運用能夠降低研發人員的工作量, 同時軟件工程與數據挖掘的結合是計算機技術必然的發展方向。從數據挖掘的過程來講, 在其整個實施過程和週期中都包括軟件工程。而對數據挖掘的技術手段來講, 它在軟件工程中的運用更加普遍。在對數據挖掘技術的研究過程中可以發現, 該技術雖然已經獲得一定的效果, 但是還有更多未被挖掘的空間, 還需要進一步的研究和發現。

參考文獻

[1]王藝蓉.試析面向軟件工程數據挖掘的開發測試技術[J].電子技術與軟件工程, 2017 (18) :64.

[2]吳彥博.軟件工程中數據挖掘技術的運用探索[J].數字通信世界, 2017 (09) :187.

[3]周雨辰.數據挖掘技術在軟件工程中的應用研究[J].電腦迷, 2017 (08) :27-28.

[4]劉桂林.分析軟件工程中數據挖掘技術的應用方式[J].中國新通信, 2017, 19 (13) :119.

標籤：論文數據挖掘精選