當前位置:文書都 >

實用範文 >論文 >

基於大數據的統計分析模型設計論文

基於大數據的統計分析模型設計論文

統計是利用盡可能少的局部樣本數據來發現總體規律,處理對象往往數據規模小且數據結構單一。在大數據環境下,面臨海量數據的採集與統計,傳統方法已無法滿足大規模數據集處理。基於Hadoop系統,利用其分佈式存儲和並行處理機制,設計了大數據環境下的統計分析模型,從海量數據中提取出有用的信息特徵,實現數據資源共享,為相關部門決策提供信息服務。

基於大數據的統計分析模型設計論文

0引言

隨着統計數據規模的快速增長,數據特徵日趨複雜,數據收集渠道多樣,統計學相關領域研究已進入大數據時代。如何高效收集樣本數據、挖掘信息,從海量數據中提取有用的信息特徵,將信息及時提供給相關部門決策,成為當前統計學研究熱點之一。與國外相比,我國在統計分析工作中存在信息資源整合程度不高、數據共享匱乏、信息不完整等問題。隨着大數據時代的到來,對大數據分析與挖掘的研究和應用越來越重視,大數據的挖掘與分析將幫助統計部門在有效合理的時間內採集、處理、管理與分析海量數據。

目前政府部門間藉助政務平台可以實現數據資源共享,但是企業與政府間缺乏數據的分享平台,造成了信息隔離,對此,統計部門要構建起全方位的海量數據共享和分佈式存儲的安全統計分析平台,實現跨地區的統計信息交流,滿足海量信息數據的.實時分享和處理。

1大數據

大數據是一種大規模的數據集合,數據分析人員無法在一定時間內用一般軟件對其進行提取、處理、分析和管理。處理大數據的關鍵技術包括大規模數據集的並行處理技術、分佈式數據庫、分佈式文件存儲與處理系統、數據挖掘、雲計算等。大數據具有5V特點:Volume(體量浩大)、Variety(類型多樣)、Velocity(生成快速)、Veracity(真實性高)、Value(價值巨大)。

1.1雲計算

雲計算(Cloud Computing)是傳統信息技術發展融合的產物,基於效用計算(Utility Computing)、並行計算(Parallel Computing)、分佈式計算(Distributed Computing),它提供便捷的、可用的、按需付費的網絡訪問。雲計算平台可以提供IaaS(基礎設施即服務)、PaaS(平台即服務)、 SaaS(軟件即服務),同時負責數據安全、分佈式網絡存儲、虛擬化、負載均衡、熱備份宂餘等,用户在使用資源時不需考慮底層基礎架構。

大數據應用不在於掌握龐大的數據信息,而在於對獲取的數據進行專業化處理,以挖掘出數據的價值。大數據處理任務無法用單機串行計算方式處理,必須採用分佈式架構進行計算。其特點在於依託雲計算的分佈式處理、雲存儲、分佈式數據庫和虛擬化技術對海量數據進行挖掘。

1.2大數據處理技術

1.2.1大數據研究現狀

Science、Nature等國際頂級學術期刊出專刊探討了大數據處理與分析研究,介紹海量數據給社會生產和人們生活帶來的挑戰和機遇,學者們斷言:“數據將是未來舉足輕重的資源。在應用方面,目前已有很多企業開始做大數據處理的相關研究,IBM、谷歌、雅虎、亞馬遜等公司紛紛提出自己的大數據處理架構和計算模式。谷歌首先提出了分佈式存儲系統GFS文件系統、大型分佈式數據庫BigTable。2012年美國政府斥資2億美元啟動了大數據研究和發展計劃,大力發展數據信息化基礎設施建設。

1.2.2大數據處理關鍵技術

處理和分析大數據的關鍵在於具備分佈式存儲功能和強大的計算能力,數據處理的基礎在於數據存儲,數據分析的關鍵在於強勁的處理能力。 Hadoop是一個可擴展、可靠、開源的分佈式計算系統,該框架能夠實現在計算機集羣中用簡單的計算模式處理海量數據,同依賴高性能服務器相比,Hadoop擴展性較好,同時集羣中的節點都可以提供本地存儲和計算。

1.3基於大數據的統計分析研究

統計是一項數據處理工程,面對大數據集的處理,統計樣本變大、數據特徵複雜等使得統計工作也變得繁瑣,而數據挖掘是從大量數據中取得有用信息的過程,利用現代信息技術及挖掘算法,可以高效地對有用數據獲取與處理。不妨將數據挖掘理解為一個大數據狀態下精確處理數據的統計模型,對挖掘後的數據再引入統計學的思想進行相關數據處理與分析,將兩種方法有機結合起來。

圖1大數據環境下的統計工作基礎架構 Hadoop為統計分析工作提供了一個穩定可靠的分析系統和共享存儲,它包含兩個核心技術:MapReduce和HDFS。MapReduce實現數據的處理和分析,HDFS負責數據的共享存儲。如圖1所示,大數據環境下,統計工作的基本架構包含數據採集中心和統計分析處理中心。數據採集中心主要是通過部署在雲計算環境下的服務器集羣去完成數據採集工作,數據主要存放在HDFS分佈式數據庫中;統計管理部門設立總的服務器集羣,為保證系統的可擴展性,還可以將基層的服務器隨時納入該集羣中,利用MapReduce機制分配和處理計算任務;統計分析處理中心主要是智能算法池,通過算法的應用對採集到的數據進行分析。

2基於Hadoop的大數據統計分析模型構建

大數據環境下的統計分析系統以海量數據挖掘為基礎,傳統的統計分析系統採用定期對數據進行處理和分析的方式來更新模型。由於是定期被動更新,模型無法保持實時性,容易造成統計結果不連續。

系統的設計關鍵在於海量數據的實時採集獲取、統計分析處理和存儲,目的在於實現統計信息資源的共享。基於Hadoop的層次化統計分析模型如圖2所示,自上而下包括雲平台應用層、邏輯與接口層、計算層、文件系統管理層、物理資源層。

圖2基於Hadoop的層次化統計分析模型 物理資源層:負責管理平台的基礎設施,為平台提供物理設施,除包含分佈式集羣、數據採集終端、基礎網絡外,還包括圍繞應用相關的基礎組件。

文件系統管理層:主要用於存儲數據文件和日誌文件,同時具備高可用數據備份功能。該層主要採用HDFS分佈式存儲,提供很強的數據吞吐能力。針對不同的數據統計終端,該層設計使用不同的操作系統,以便於數據的統一性。

計算層是該統計模型的核心層,所有的運算機制和數據處理任務都在該層完成。其基礎框架是基於Hadoop MapReduce並行計算框架,採用對數據 “分而治之”的方法來完成並行化的大數據統計分析工作,用Map和Reduce函數提供兩個高層的並行編程抽象模型和接口,工作人員只需要實現這兩個基本接口即可快速完成並行化數據處理程序設計。此外該層還包含了Hadoop平台的流數據處理storm和實時處理spark,用於對數據源的實時分析處理和更新,以滿足統計部門的高效快速響應要求。

邏輯與接口層:該層主要功能是實現上層應用層的基礎管理功能,主要包含用户管理、安全身份認證、統計任務的分配以及連接各地統計部門的接口等,該層還負責整體功能的性能監控。

  • 文章版權屬於文章作者所有,轉載請註明 https://wenshudu.com/shiyongfanwen/lunwen/zp820o.html
專題