第286章 快跑

第286章 快跑

數據是指對客觀事件進行記錄並可以鑒別的符號Y

是對客觀事物的性質狀態以及相互關係等進行記

載的物理符號或這些物理符號的組合Y是可識別的

抽象的符號

?數據和信息是兩個不同的概念Y信息是較為宏觀

的概念Y它由數據的有序排列組合而成Y傳達給讀

者某個概念方法等Y而數據則是構成信息的基本單

位Y離散的數據沒有任何實用價值。

數據也被稱為「未來的石油」

涉及到國家安全等方面。

計算機系統中的數據組織形式主要有兩種Y即文件和

資料庫

?

1?文件X計算機系統中的很多數據都是以文件形式

存在的Y比如一個WORD文件一個文本文件一個

網頁文件一個圖片文件等等

?

2?資料庫X計算機系統中另一種非常重要的數據組

織形式就是資料庫Y資料庫已經成為計算機軟體開發

的基礎和核心。

過去X一旦數據的基本用途實現了Y往往就會被

刪除Y一方面是由於過去的存儲技術落後Y人們

需要刪除舊數據來存儲新數據Y另一方面則是人

們沒有認識到數據的潛在價值

現在X數據的價值不會因為不斷被使用而削減Y

反而會因為不斷重組而產生更大的價值

將來X各類收集來的數據都應當被儘可能長時間

地保存下來Y同時也應當在一定條件下與全社會

分享Y併產生價值。

人類進入信息社會以後Y數據以自然方式增長Y其產生不以人

的意志為轉移

從1986年開始到2010年的20年時間裡Y全球數據的數量增長

了100倍Y今後的數據量增長速度將更快Y我們正生活在一個

數據爆炸的時代。

數據分析過程包括X數據採集與預處理數據存儲與管理數據處理與

分析數據可視化等

?

1?數據採集與預處理X採用各種技術手段把外部各種數據源產生的數

據實時或非實時地採集預處理並加以利用

?

2?數據存儲與管理X利用計算機硬體和軟體技術對數據進行有效的存

儲和應用的過程Y其目的在於充分有效地發揮數據的作用

?

3?數據處理與分析X數據分析是指用適當的分析方法?來自統計學

機器學習和數據挖掘等領域?Y對收集來的數據進行分析Y提取有用信

息和形成結論的過程

?

4?數據可視化X將數據集中的數據以圖形圖像形式表示Y並利用數據

分析和開發工具發現其中未知信息的處理過程。

數據採集與預處理包含了數據採集和數據預處理兩大任務

數據採集是指從感測器和智能設備企業在線系統企業離線

系統社交網路和互聯網平台等獲取數據的過程需要採集的

數據包括RFID數據感測器數據用戶行為數據社交網路交

互數據及移動互聯網數據等各種類型的結構化半結構化及非

結構化的海量數據

數據採集技術是大數據技術的重要組成部分Y已經廣泛應用於

國民經濟各個領域Y隨著大數據技術的發展和普及Y大數據采

集技術會迎來更加廣闊的發展前景。

數據預處理目標是為後續的數據分析工作提供可靠和高質量的

數據Y減少數據集規模Y提高數據抽象程度和數據分析效率

數據預處理任務主要包括數據清洗數據集成數據轉換和數

據脫敏等經過這些步驟Y我們可以從大量的數據屬性中提取

出一部分對目標輸出有重要影響的屬性Y降低源數據的維數Y

去除雜訊Y為數據分析演算法提供乾淨準確且有針對性的數據Y

減少數據分析演算法的數據處理量Y改進數據質量Y提高分析效

率。

數據採集Y又稱數據獲取

Y是數據分析的入口Y也是數據分

析過程中相當重要的一個環節Y它通過各種技術手段把外部各

種數據源產生的數據實時或非實時地採集並加以利用。

感測器是一種檢測裝置Y能感受到被測量的信息Y並能將感受到的信息Y

按一定規律變換成為電信號或其他所需形式的信息輸出Y以滿足信息的傳

輸處理存儲顯示記錄和控制等要求在工作現場Y我們會安裝很

多的各種類型的感測器Y如壓力感測器溫度感測器流量感測器聲音

感測器電參數感測器等等

?感測器對環境的適應能力很強Y可以應對各種惡劣的工作環境在日常

生活中Y如溫度計麥克風DV錄像手機拍照功能等都屬於感測器數據

採集的一部分Y支持圖片音頻視頻等文件或附件的採集工作。

互聯網數據的採集通常是藉助於網路爬蟲來完成的所謂網路爬蟲

Y就

小主,這個章節後面還有哦,請點擊下一頁繼續閱讀,後面更精彩!

是一個在網上到處或定向抓取網頁數據的程序抓取網頁的一般方法是Y

定義一個入口頁面Y然後一般一個頁面中會包含指向其他頁面的URLY於

是從當前頁面獲取到這些網址加入到爬蟲的抓取隊列中Y然後進入到新頁

面后再遞歸地進行上述的操作爬蟲數據採集方法可以將非結構化數據從

網頁中抽取出來Y將其存儲為統一的本地數據文件Y並以結構化的方式存

儲它支持圖片音頻視頻等文件或附件的採集Y附件與正文可以自動

關聯。

許多公司的業務平台每天都會產生大量的日誌文件日誌文件數據一般由數

據源系統產生Y用於記錄數據源的執行的各種操作活動Y比如網路監控的流

量管理金融應用的股票記賬和Web伺服器記錄的用戶訪問行為對於這些

日誌信息Y我們可以得到出很多有價值的數據通過對這些日誌信息進行采

集Y然後進行數據分析Y就可以從公司業務平台日誌數據中挖掘得到具有潛

在價值的信息Y為公司決策和公司後台伺服器平台性能評估提供可靠的數據

保證系統日誌採集系統做的事情就是收集日誌數據提供離線和在線的實時

分析使用很多互聯網企業都有自己的海量數據採集工具Y多用於系統日誌

採集Y如Hadoop的ChukwaYCloudera的FlumeYFacebook的Scribe等Y

這些工具均採用分散式架構Y能滿足每秒數百MB的日誌數據採集和傳輸需

求。

一些企業會使用傳統的關係型資料庫MySQL和Oracle等來存儲業務系統數

據Y除此之外YRedis和MongoDB這樣的NoSQL資料庫也常用於數據的

存儲企業每時每刻產生的業務數據Y以資料庫一行記錄形式被直接寫入

到資料庫中企業可以藉助於ETL?

Extract-Transform-Load?工具Y把

分散在企業不同位置的業務系統的數據Y抽取轉換載入到企業數據倉

庫中Y以供後續的商務智能分析使用通過採集不同業務系統的數據並統

一保存到一個數據倉庫中Y就可以為分散在企業不同地方的商務數據提供

一個統一的視圖Y滿足企業的各種商務決策分析需求。

數據採集是數據系統必不可少的關鍵部分Y也是數據

平台的根基根據不同的應用環境及採集對象Y有多

種不同的數據採集方法Y包括X

?系統日誌採集

?分散式消息訂閱分發

?ETL

?網路數據採集。

Flume是Cloudera提供的一個高可用的Y高可靠的Y分散式的海量日誌採集聚合

和傳輸的系統YFlume支持在日誌系統中定製各類數據發送方Y用於收集數據]同

時YFlume提供對數據進行簡單處理Y並寫到各種數據接受方?可定製?的能力。

上一章書籍頁下一章

離語

···
加入書架
上一章
首頁 台言古言 離語
上一章下一章

第286章 快跑

%