中國專業IT外包服務

加入收藏??

公司微博

網站地圖??

IT外包價格計算器

您當前位置：主頁 > IT服務 > 服務器服務 >

Hadoop大數據應用情況

2013-09-23 09:58 作者：ly 瀏覽量：

　　我們很少把搜索引擎稱為大數據應用，但它確實是一個典型的大數據應用。其中的關鍵在于服務器維護，用相對廉價的X86服務器，對海量低價值密度的非結構化數據進行存儲和處理。從橫向擴展性來看，其存儲和處理能力接近無限，只需要不斷添加服務器就可以了。至于存儲，可以依賴服務器自帶的磁盤，也可以理解用磁盤陣列。從Hadoop的角度，采用多副本的策略，數據可靠性已經有所保證，如此也大大降低了對RAID、快照、復制/備份技術的依賴和要求，進一步降低了成本。

　　有關大數據，“奧巴馬連任總統和大數據、2009年谷歌在甲型H1N1流感爆發前幾周成功預測，公共衛生部門震驚、美國折扣店零售商塔吉特與懷孕預測、UPS快遞最佳行車路線和汽車修理預測、亞馬遜大數據書評推薦下調戰勝專家團……”這樣幾個案例耳熟能詳，管中窺豹，我們可以大數據應用的價值，但我們的盲點在于不知道它們是如何做的，大數據應用是如何實現的。

　　有人說“大數據不是Hadoop;Hadoop也不代表大數據”，不知說的人什么目的，但在我看來，如今業內對大數據認知尚不深刻的情況下，過多糾纏于概念無助于大數據應用。在我看來，如果強調“Hadoop就是大數據”利多弊少。

　　應該承認，沒有Hadoop+X86服務器這種廉價的手段，就不會有大數據應用。正是因為有了這種廉價的手段，我們才能夠對海量的非結構化數據的全局進行分析。而在著名的《大數據時代》一書中，特別強到“不是隨機抽樣，而是全體數據”，這是大數據應用的核心特征，對全體數據進行分析的結果，會讓我們迅速了解事情的結果。至于所采用的手段，叫不叫Hadoop、NFS、Map/Reduce，這并不知道，但核心思路和思想一定會延續，從這個意義上，將Hadoop稱為大數據應用又有什么不可以呢?!至少我是這么看的。

　　從這個意義上說，了解Hadoop就非常有意義。它可以幫助我們了解什么是大數據，以及如何進行大數據的應用。Hadoop，分布式數據庫，僅從字面上還是很難了解其作用和價值。對此不妨看一個簡單的實例，看看搜索引擎是如何進行大數據應用的。首先，搜索引擎通過網絡爬蟲自動獲取網頁內容，按照一定算法對內容建立索引，這些索引和原始的數據用Hadoop存儲起來，并根據規則制作副本(通常是3副本)。當用戶發起檢索需求，搜索引擎就將Map為多個并行操作，對Hadoop數據庫中的索引進行檢索，其結果經過Reduce，聚合為一個結果，提交給發起請求的終端。這就是搜索引擎大致一個工作過程。

　　所以，把大數據理解Hadoop沒有什么不好，至少我們知道了分布式組織和存儲數據、多副本、NFS、Map/Reduce，這很好，至少我們不會為BI、ETL與大數據應用的關系而糾結，兩者各有適合應用的場景，雖有交叉，但更多是相互補充。

　　艾銻無限是國內領先IT外包服務商，專業為企業提供IT運維外包、電腦維護、網絡維護、辦公設備維護、服務器維護、數據備份恢復、門禁監控、網站建設等多項IT外包服務。聯系人：南彥軍服務熱線：400-650-7820 聯系電話：010-82536242 咨詢QQ：2488237107 地址：北京海淀區海淀大街38號銀科大廈用心服務每一天，為企業的發展提升更高的效率，創造更大的價值，更多的IT外包信息盡在艾銻無限 http://www.whgoodly.com