大數(shù)據(jù)平臺的總體目標是構建統(tǒng)一的數(shù)據(jù)采集、存儲、挖掘與分析處理能力。平臺必須支持海量異構數(shù)據(jù)源的采集,包括運營商內(nèi)部的結(jié)構化、半結(jié)構化、非結(jié)構化數(shù)據(jù)和外部第三方數(shù)據(jù),并解決數(shù)據(jù)量暴增所帶來的存儲與計算性能問題。
大數(shù)據(jù)平臺選用目前主流的Hadoop分布式系統(tǒng)。基于Hadoop的大數(shù)據(jù)平臺不僅是底層分散的各種數(shù)據(jù)源的匯聚平臺,更重要的是要在數(shù)據(jù)匯聚基礎上對數(shù)據(jù)進行有效跨域整合,并基于強大的數(shù)據(jù)挖掘分析模型,對上層應用提供各種跨域數(shù)據(jù)分析能力,從而使應用能專注于自身的業(yè)務邏輯,快速創(chuàng)新,促進上層業(yè)務應用百花齊放。大數(shù)據(jù)平臺的關鍵特點如下:
一、基于Hadoop的x86服務器集群,支持強大的可擴展能力,可以隨數(shù)據(jù)量增長而平滑擴容;將Hadoop與虛擬化云技術結(jié)合,可以實現(xiàn)更靈活的分布式資源管理能力;基于Hadoop流處理技術,提供實時數(shù)據(jù)分布式處理能力。
二、數(shù)據(jù)統(tǒng)一采集、存儲、整合、共享?;跀?shù)據(jù)透明訪問模塊提供數(shù)據(jù)統(tǒng)一訪問管理,實現(xiàn)應用與數(shù)據(jù)解耦,同時增強數(shù)據(jù)安全管控能力,提升用戶隱私保護能力。
三、整合數(shù)據(jù)挖掘模型,構建運營商統(tǒng)一的商業(yè)洞察與網(wǎng)絡洞察組建或模型庫,提供統(tǒng)一的能力服務,快速部署應用。
基于Hadoop的大數(shù)據(jù)平臺系統(tǒng)架構功能邏輯上主要包括三大塊:數(shù)據(jù)層、能力層、管理域、具體介紹如下:
數(shù)據(jù)層主要包括分布式ETL模塊、數(shù)據(jù)庫、數(shù)據(jù)透明訪問模塊。
能力層主要包括大數(shù)據(jù)挖掘建?;A能力組建、商業(yè)洞察組建、網(wǎng)絡洞察組建、能力總線等模塊。其中,大數(shù)挖掘建?;A能力組建是大數(shù)據(jù)的加速器,主要提供數(shù)據(jù)擬合、聚類、機器學習等核心算法庫,用于尋找數(shù)據(jù)間的關系;也包括文本分析、語音分析、視頻分析、圖分析、自然語言處理、搜索引擎等各種類型的數(shù)據(jù)分析處理技術;還包括數(shù)據(jù)分析集成開發(fā)環(huán)境。能力層使整個大數(shù)據(jù)的核心,使大數(shù)據(jù)平臺區(qū)別于傳統(tǒng)數(shù)據(jù)平臺,真正具備數(shù)據(jù)智能。
管理域主要包括系統(tǒng)管理與數(shù)據(jù)治理,系統(tǒng)管理主要管理軟硬件資源,提供簡單易用的系統(tǒng)操作維護界面,包括集群安裝、部署管理、軟件升級管理、節(jié)點管理、服務管理、任務管理、配置管理、集群監(jiān)控、告警管理、日志管理等功能;數(shù)據(jù)治理主要管理系統(tǒng)內(nèi)存儲的數(shù)據(jù),包括元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)生命周期管理、數(shù)據(jù)安全管理等。