當前位置:文書都 >

實用範文 >論文 >

血緣關係數據的分析論文

血緣關係數據的分析論文

血緣關係數據的分析論文

1依託血緣分析的數據熵減

血緣關係數據的分析論文

對於使用數據的動機,除了對數據對象主體的認知識別之外,還有要對數據呈現的顯性和隱性規律進行發現,從自然語言上看,腦力活動對數據處理的第一步就是降低數據間的差異化,進行熵減的分析行為。哲學家維特根斯坦認為,對於哲學本質的界定都屬無法言説之物,應用到數據分析領域,數據存在一種由內而外的泛化慣性,不斷對原有數據形成新的描述,造成數據陣營的擴張,而其信息主體則是穩定的,對描述性數據和活動數據存在吸附力,屬於無法言説的本質最邊緣。立足於這種思想觀點,我們可以認為貌似鬆散無序的數據間存在一種牢固的血緣數據關係,因為所有數據都是基於信息主體泛化出的描述性和活動性數據,而這種熵減的動作其表現形式可以等同於對數據血緣關係的向上追溯,技術上則表現為一種尋找最大扇出的上層。這樣,熵減的技術實現就是通過建立血緣關係而去尋找最大扇出的上層,這種分析法易於在數據發現應用中,通過檢索建立模糊入口點去組織發現數據,其與扇出或扇入點的血緣關係越近,入口點對其的吸附力越強、權重越高。但這樣會出現另一個無法迴避的問題,即通過活動在最外界的數據從體量上看相當可觀,由外到內追溯扇出上層的勞動比較沉重,從而會理所當然地採取抽樣的方式進行,此項活動的進行必須假定數據世界觀上層的有限集合認定上,堅信必定會將血緣關係歸集到某幾個關鍵數據表達之上,這樣才會使本項活動的實施行為具備基本的意義和價值。從效果上看,對數據進行熵減有利於我們甄別數據關係隱含的內在規律,也有利於我們建立具有良好適應性的數據生態模型,為更好地認識和利用數據打下基礎。可以合理暢想一下,當我們就一個焦點議題開展討論後,熵減讓我們迅速聚焦到議題的內核,甚至直面議題背後隱含的現象實質,不必糾纏於不必要的信息干擾,對討論內核進行強化呈現,智力活動所崇尚的方式也可以在計算活動中得以體現。熵減在某種意義上不是對某一類數據分析所採取的手段,而是對數據認識的宏觀行為,其在計算領域內的呈現方式,與我們對事物自然認知而採取的抽象和引申別無二致,如此深入下來,對熵減策略的研究更重要於對熵減活動的歸納,通過對策略模型的推演,可以有效地發揮機器學習的能力,如果在策略模型的'研究上實施開展,將會極大降低加工難度。

2建立標籤關係的反向工程

當我們框定了熵減的方法體系後,在數據間建立血緣關係則顯得尤為重要,由於數據生長動力呈現由內而外的泛化驅動,但是本身這種泛化在信息化過程中很多是無組織的行為,缺少邏輯上預先定義,所以數據生成後,大量的數據關係被衰減掉,從正向渠道難以對數據關係建立血緣,工程極其浩瀚複雜。由於血緣關係無法完全在數據生長中自然形成,正向人工干預又存在操作難度,所以反其道而行之則是唯一通道。數據加工的反向性,優勢首先體現在由微觀到宏觀的加工難度大幅下降,因為其工作處於抽象的最底層,使採用眾包模式加工成為可能。其次,這種加工模式,可以在有效建立一種數據關係的閉環管理的同時,不會抑制數據生長的空間和速率,不會因加工效率低而凝固數據資產化的進程。在反向加工的過程中,需要通過標籤聯結數據關係,這時候我們要關注標籤的質量和複用度,由於標籤定義存在難度,所以要鬆綁標籤定義來促成數據加工的快速實施,解決的重點則遷移到標籤在後期管理中的智能化上。首先,可以通過標籤在關係聯結中的重複出現進行跟蹤,識別是標籤二義性還是加工者的活動差異。活動差異標籤最基本的處理方法是進行聚合,形成知識歸納;二義標籤則需要改進表達。其次,依賴血緣關係建立可視化圖譜,從數據結構工程裏可以有效識別關係路徑的黏合點,即發現重複路徑中出現的一個以上的標籤,消除由知識結構差異造成的人為誤會,對標籤進行合併。這樣,通過標籤的智能化後期管理就可以將加工難度上移,建立分層加工的工廠模式。這種加工存在基本準則,並要建立基本的衡量尺度來保證標籤有效性,加工工藝可以從標籤質量、使用度、命中率等指標進行測量。其中,質量有賴於標籤本身定義成分的內涵,要確認其被受眾廣泛理解;使用度是在加工活動中的使用次數,是否被數據關係廣泛應用,使用度較低的標籤要確認其存在價值,通過標籤間同時出現概率決定其含義表達是否具備唯一性;命中率則建立在使用者的自然需要基礎上,如果某一標籤絕少被使用者利用或調度,與整體觀測結果是否存在數值上的明顯差異。整體上看,通過這些基本準則建立標籤管理的異常檢測分析,來保證加工質量的方式具備技術的可行性,但同時更需要對後期的數據運行建立領域指標模型來校驗。

3利用詞條原子化推導入口點

擺脱了數據關係組織有效到達的困境,就面臨着人機操作中難度所在的入口點識別問題。不可迴避的是,在數據發現和信息提取過程中,存在根深蒂固的操作者對自然認知的表達差異,同樣的數據訴求在不同操作者中提供的信息接口是多樣化的。先從系統方向看,數據在延伸過程中越到生長關係的末端,越體現其高度領域化的特徵,而處於頂端的數據則呈現出樸素原始的特徵。再從操作者方向上看,對數據發現的訴求來源於操作者對訴求數據產生的邏輯意識活動結果與其位置的可能性預期,從而出現輸入信息的參差不齊,呈現或概括、或空泛、或簡單、或專業的表現形式。而作為人機交互這種兩個世界的重要對話,應儘量保持其信息輸入兩界的對稱性,做出邏輯處理相應的努力。由上所述,系統邊界的數據宏觀上呈領域和樸素這種兩極分佈,與之相映成趣的操作者邊界也是這樣,在某種程度上,分析模型建立就是要對操作者和系統間達成高度一致。另外,信息輸入詞條的原子化,重要依賴途徑是詞庫的建設,詞庫的豐歉決定了原子化能力和詞條準度,很難想象一個低級詞庫在操作者允許其機器學習前的表現,其應用體驗是不堪一擊的。作為人機交互的擺渡機制,詞庫建設必須承擔相應的任務,依賴人機邊界的極化特徵建立基礎和專業的極化詞庫。同時,不能將詞庫建設看做是畢其功於一役的建設模式,要充分利用在血緣關係中數據加工活動形成的知識歸納,建立基於血緣關係的分析模型運行生態。有鑑於此,努力嘗試建立的數據分析方法,其實也是提升對混沌數據的認識能力,數據在運行週期內存在某一臨界點,存在急速生長的非線性事件,使得數據急劇膨脹,血緣數據關係的建立,則在另一維度上對數據體量的不穩定進行調和,使其在關係譜圖上存在規律和一定的容積,可以允許我們進行更具效率的水平觀測和定位能力。這樣的話,數據生長的臨界水平在血緣關係維度上轉而呈現線性,不會使得該種數據分析方法在臨界點出現隨機事件,造成大量的數據擁堵和執行效率低下,防止系統坍塌。從信息安全角度,我們也可以有效剝離關係模型和數據實體,使得基於關係認識上的分析模型脱離數據集本身,防止數據對上層模型的浸透,有效緩解了數據開放性過強帶來的安全隱患。從數據組織能力角度,我們可以預設定量的數據關係,從IT架構上去考慮其數據的關聯性,從信號源、操作者等特性組織數據,建立基本的關係圖譜來保障數據在其生態環境中的基本生態地位。

作者:姜振華 張曉磊 單位:浪潮軟件股份有限公司

  • 文章版權屬於文章作者所有,轉載請註明 https://wenshudu.com/shiyongfanwen/lunwen/887jkw.html
專題