時(shí)間:2022-12-17 12:44:36
引言:易發(fā)表網(wǎng)憑借豐富的文秘實(shí)踐,為您精心挑選了九篇大數(shù)據(jù)技術(shù)范例。如需獲取更多原創(chuàng)內(nèi)容,可隨時(shí)聯(lián)系我們的客服老師。

關(guān)鍵詞: 大數(shù)據(jù); 4V特征; Hadoop; 云計(jì)算
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2015)01-13-02
Overview on big data technology
Yang Jing
(Department of Computer Science, Yunyang Teachers' College, Shiyan, Hubei 442000, China)
Abstract: Big data is a new technical wave after the network of things and cloud computing. To understand big data technology, the definition and 4V characteristics, the key technologies and main application fields are systematically analyzed in the paper. Through the introduction of the basic conception, characteristics, the main application fields with typical cases are summarized. The core technologies, key strategies of cloud computing, hadoop and data backup are analyzed. The potential information safety risks are pointed out. The countermeasures are given to provide some suggestions and references for wider application and study in the future.
Key words: big data; 4V characteristics; Hadoop; cloud computing
0 引言
物聯(lián)網(wǎng)、云計(jì)算等新興技術(shù)的迅速發(fā)展開啟了大數(shù)據(jù)時(shí)代的帷幕。大數(shù)據(jù)技術(shù)是指從各種各樣的海量數(shù)據(jù)中,快速獲取有價(jià)值信息的技術(shù),大數(shù)據(jù)的核心問(wèn)題就是大數(shù)據(jù)技術(shù)。目前所說(shuō)的“大數(shù)據(jù)”不僅指數(shù)據(jù)本身的規(guī)模大,還包括采集數(shù)據(jù)的工具、平臺(tái)和數(shù)據(jù)分析系統(tǒng)復(fù)雜程度大。大數(shù)據(jù)的研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,解決實(shí)際生產(chǎn)、生活中的各種問(wèn)題,從而推動(dòng)信息技術(shù)健康地可持續(xù)發(fā)展。
1 大數(shù)據(jù)的定義及主要特征
與其他新興學(xué)科一樣,目前大數(shù)據(jù)沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)和定義。一般認(rèn)為:大數(shù)據(jù)是由大量異構(gòu)數(shù)據(jù)組成的數(shù)據(jù)集合,可以應(yīng)用合理的數(shù)學(xué)算法或工具從中找出有價(jià)值的信息,并為人們帶來(lái)經(jīng)濟(jì)及社會(huì)效益的一門新興學(xué)科。大數(shù)據(jù)又被稱為海量數(shù)據(jù)、大資料、巨量數(shù)據(jù)等,指的是所涉及的數(shù)據(jù)量規(guī)模巨大,以至于無(wú)法在合理時(shí)間內(nèi)通過(guò)人工攫取、管理、處理并整理成為人類所能解讀的信息。這些數(shù)據(jù)來(lái)自方方面面,比如社交網(wǎng)絡(luò)、傳感器采集、安防監(jiān)控視頻、購(gòu)物交易記錄等。盡管尚無(wú)統(tǒng)一定義,但這些無(wú)比龐大的數(shù)據(jù)被稱為大數(shù)據(jù)。大數(shù)據(jù)具有如下4V特性[1]:
⑴ 體量Volume,是指數(shù)據(jù)存儲(chǔ)量大,計(jì)算量大;
⑵ 多樣Variety,是指大數(shù)據(jù)的異構(gòu)和多樣性,比如數(shù)據(jù)來(lái)源豐富,數(shù)據(jù)格式包括多種不同形式,如網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等;
⑶ 價(jià)值Value,是指大數(shù)據(jù)價(jià)值密度相對(duì)較低,信息海量,但是要挖掘出真正有價(jià)值的數(shù)據(jù)難度較大,浪里淘沙卻又彌足珍貴;
⑷ 速度Velocity,是指數(shù)據(jù)增長(zhǎng)速度快,處理速度要求快。
2 大數(shù)據(jù)技術(shù)的應(yīng)用領(lǐng)域
通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行采集、分析與處理,挖掘出潛藏在數(shù)據(jù)海洋里的稀疏但卻彌足珍貴的信息,大數(shù)據(jù)技術(shù)正在對(duì)經(jīng)濟(jì)建設(shè)、醫(yī)療教育、科學(xué)研究等領(lǐng)域產(chǎn)生著革命性的影響,其所帶來(lái)的巨大使用價(jià)值正逐漸被各行各業(yè)的人們所感知。
2.1 金融領(lǐng)域
大數(shù)據(jù)的火熱應(yīng)用突出體現(xiàn)在金融業(yè),各大互聯(lián)網(wǎng)企業(yè)(谷歌、阿里巴巴等)紛紛掘金大數(shù)據(jù),開創(chuàng)了新的互聯(lián)網(wǎng)金融模式。目前阿里巴巴的互聯(lián)網(wǎng)金融做得如火如荼:基金、小額信貸、余額寶和理財(cái)保險(xiǎn)產(chǎn)品等等,阿里巴巴之所以能夠做火金融服務(wù),其主要原因就在于阿里的大數(shù)據(jù),阿里巴巴的電商平臺(tái)存儲(chǔ)了大量微小企業(yè)客戶及數(shù)以億計(jì)的個(gè)人用戶行為信息、交易記錄、身份數(shù)據(jù)等,擁有最好、最全的數(shù)據(jù)以及最完整的產(chǎn)業(yè)鏈,做P2P及個(gè)人小額信貸,具有最大優(yōu)勢(shì)[2]。相反,傳統(tǒng)商業(yè)銀行早期就已推出的小額信貸業(yè)務(wù),開展得并不十分順利。
2.2 市場(chǎng)營(yíng)銷
今天的數(shù)字化營(yíng)銷與傳統(tǒng)市場(chǎng)營(yíng)銷最大的區(qū)別就在于精準(zhǔn)定位及個(gè)性化。如今企業(yè)與客戶的交流渠道發(fā)生了革命性的變化,從過(guò)去的電話及郵件,發(fā)展到今天的博客、論壇、社交媒體賬戶等,從這些五花八門的渠道里跟蹤客戶,將他們的每一次點(diǎn)擊、加好友、收藏、轉(zhuǎn)發(fā)、分享等行為納入到企業(yè)的銷售漏斗中并轉(zhuǎn)化成一項(xiàng)巨大的潛在價(jià)值,就是所謂的360度客戶視角。例如谷歌的銷售策略主要著眼于在線的免費(fèi)軟件,用戶使用這些軟件時(shí),無(wú)形中就把個(gè)人的喜好、消費(fèi)習(xí)慣等重要信息提交給了谷歌,因此谷歌的產(chǎn)品線越豐富,他們對(duì)用戶的理解就越深入,其廣告定位就越精準(zhǔn),廣告所攫取的價(jià)值就越高,這是正向的循環(huán)。
2.3 公眾服務(wù)
大數(shù)據(jù)的另一大應(yīng)用領(lǐng)域是公眾服務(wù)。如今數(shù)據(jù)挖掘已經(jīng)能夠預(yù)測(cè)海嘯、地震、疾病暴發(fā),理解交通模型并改善醫(yī)療和教育等。例如,可采用神經(jīng)網(wǎng)絡(luò)和基于地震時(shí)間序列的支持向量機(jī)方法來(lái)預(yù)測(cè)地震的大概方位、時(shí)間、震級(jí)大小等重要信息,為通用地震模擬程序提供關(guān)鍵的數(shù)據(jù),從而對(duì)地震進(jìn)行早期預(yù)警,以使防震抗災(zāi)部門可以提前做好應(yīng)對(duì)措施,避免大量的人員傷亡及財(cái)產(chǎn)損失;再如,將各個(gè)省市的城鎮(zhèn)醫(yī)療系統(tǒng)、新農(nóng)村合作醫(yī)療系統(tǒng)等全部整合起來(lái),建立通用的電子病歷等基礎(chǔ)數(shù)據(jù)庫(kù),實(shí)現(xiàn)醫(yī)院之間對(duì)病患信息的共享,提高患者就醫(yī)效率[3];電力管理系統(tǒng)通過(guò)記錄人們的用電行為信息(做飯、照明、取暖等),大數(shù)據(jù)智能電網(wǎng)就能實(shí)現(xiàn)優(yōu)化電的生產(chǎn)、分配及電網(wǎng)安全檢測(cè)與控制,包括大災(zāi)難預(yù)警與處理、供電與電力調(diào)度決策支持和更準(zhǔn)確的用電量預(yù)測(cè)等,并通過(guò)數(shù)據(jù)挖掘技術(shù)找出可行的節(jié)能降耗措施,以實(shí)現(xiàn)更科學(xué)的電力需求分配管理。
2.4 安防領(lǐng)域
安防領(lǐng)域中最重要的就是視頻監(jiān)控系統(tǒng),從早期看得見到現(xiàn)在看得遠(yuǎn)、看得清,視頻監(jiān)控是典型的數(shù)據(jù)依賴型業(yè)務(wù),依賴數(shù)據(jù)說(shuō)話。尤其是高清、超高清監(jiān)控時(shí)代的到來(lái),會(huì)產(chǎn)生巨量的視頻數(shù)據(jù)。這些巨量視頻監(jiān)控?cái)?shù)據(jù)中,多數(shù)是冗余無(wú)用的,只有少數(shù)是關(guān)鍵數(shù)據(jù),如何剔除這些無(wú)用數(shù)據(jù),一直是人們研究問(wèn)題的焦點(diǎn)。在大數(shù)據(jù)技術(shù)的支撐下,通過(guò)對(duì)巨量視頻數(shù)據(jù)的分析與處理,可實(shí)現(xiàn)模糊查詢、精準(zhǔn)定位、快速檢索等,能夠?qū)Ω咔灞O(jiān)控視頻畫質(zhì)進(jìn)行細(xì)節(jié)分析,智能挖掘出類似行為及特征的數(shù)據(jù),從而為業(yè)務(wù)分析和事件決策判斷提供精準(zhǔn)依據(jù)。
3 大數(shù)據(jù)處理關(guān)鍵技術(shù)
3.1 數(shù)據(jù)備份技術(shù)
在大數(shù)據(jù)時(shí)代,如何做好數(shù)據(jù)的安全備份至關(guān)重要。數(shù)據(jù)備份是數(shù)據(jù)容災(zāi)的前提,具體是指當(dāng)出現(xiàn)某種突發(fā)狀況導(dǎo)致存儲(chǔ)系統(tǒng)中的文件、數(shù)據(jù)、片段丟失或者嚴(yán)重?fù)p壞時(shí),系統(tǒng)可準(zhǔn)確而快速地將數(shù)據(jù)進(jìn)行恢復(fù)的技術(shù)。數(shù)據(jù)容災(zāi)備份是為防止偶發(fā)事件而采取的一種數(shù)據(jù)保護(hù)手段,其核心工作是數(shù)據(jù)恢復(fù),根本目的是數(shù)據(jù)資源再利用。
3.2 Hadoop
大數(shù)據(jù)時(shí)代對(duì)于數(shù)據(jù)分析、管理等都提出了更高層次的要求,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)和數(shù)據(jù)分析處理技術(shù)已經(jīng)不能滿足大數(shù)據(jù)橫向擴(kuò)展的需求。為了給大數(shù)據(jù)處理、分析提供一個(gè)性能更好、可靠性更高的平臺(tái),Apache基金會(huì)開發(fā)了一個(gè)開源平臺(tái)Hadoop[4],該平臺(tái)用Java語(yǔ)言編寫,可移植性強(qiáng),現(xiàn)在Hadoop已經(jīng)發(fā)展為一個(gè)包括HDFS(分布式文件系統(tǒng) )、HBase(分布式數(shù)據(jù)庫(kù))等功能模塊在內(nèi)的完整生態(tài)系統(tǒng),成為目前主流的大數(shù)據(jù)應(yīng)用平臺(tái)。
3.3 云計(jì)算
如果把各種各樣的大數(shù)據(jù)應(yīng)用比作在公路上行駛的各種汽車,那么支撐這些汽車快速運(yùn)行的高速公路就是云計(jì)算,云計(jì)算是大數(shù)據(jù)分析處理技術(shù)的核心。正是由于云計(jì)算在海量信息存儲(chǔ)、分析及管理方面的技術(shù)支持,大數(shù)據(jù)才有了如此廣闊的用武之地。谷歌的各種大數(shù)據(jù)處理技術(shù)和應(yīng)用平臺(tái)都是基于云計(jì)算,最典型的就是以UFS(UIT云存儲(chǔ)系統(tǒng))、MapReduce(批處理技術(shù))、BigTable(分布式數(shù)據(jù)庫(kù))為代表的大數(shù)據(jù)處理技術(shù)以及在此基礎(chǔ)上產(chǎn)生的開源數(shù)據(jù)處理平臺(tái)Hadoop[5]。
4 大數(shù)據(jù)應(yīng)用帶來(lái)的信息安全隱患及應(yīng)對(duì)策略
大數(shù)據(jù)時(shí)代,海量數(shù)據(jù)通常存儲(chǔ)在大規(guī)模分布式的網(wǎng)絡(luò)節(jié)點(diǎn)中,管理相對(duì)分散,而且系統(tǒng)也無(wú)法控制用戶進(jìn)行數(shù)據(jù)交易的場(chǎng)所,因此很難辨別用戶的身份(合法及非法用戶),容易導(dǎo)致不合法用戶篡改或竊取信息;此外,大數(shù)據(jù)存儲(chǔ)系統(tǒng)中包含了海量的個(gè)人用戶隱私數(shù)據(jù)及各種行為的記錄信息,如何在大數(shù)據(jù)的挖掘利用中確定一個(gè)信息保護(hù)和開放的尺度, 是大數(shù)據(jù)面臨的又一難題。為了合理利用大數(shù)據(jù)并有效規(guī)避風(fēng)險(xiǎn),我們提出以下四點(diǎn)建議:
⑴ 國(guó)家出臺(tái)相關(guān)政策,加強(qiáng)頂層設(shè)計(jì),保障數(shù)據(jù)存儲(chǔ)安全;
⑵ 增強(qiáng)網(wǎng)絡(luò)安全防護(hù)能力,抵御網(wǎng)絡(luò)犯罪,確保網(wǎng)絡(luò)信息安全;
⑶ 提高警惕積極探索,加大個(gè)人隱私數(shù)據(jù)保護(hù)力度;
⑷ 深化云計(jì)算安全領(lǐng)域研究,保障云端數(shù)據(jù)安全。
5 結(jié)束語(yǔ)
在當(dāng)今信息知識(shí)爆炸的時(shí)代,大數(shù)據(jù)技術(shù)已經(jīng)被廣泛應(yīng)用于商業(yè)金融、電力醫(yī)療、教育科研等領(lǐng)域。隨著數(shù)據(jù)挖掘技術(shù)的不斷進(jìn)步,相關(guān)信息行業(yè)競(jìng)相從規(guī)模龐大、結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)海洋中攫取更多有價(jià)值的數(shù)據(jù)信息用于分析、解決現(xiàn)實(shí)生活中的各種實(shí)際問(wèn)題,從而實(shí)現(xiàn)信息技術(shù)的快速健康發(fā)展。本文梳理了大數(shù)據(jù)的基本概念及4V特征,總結(jié)歸納了大數(shù)據(jù)技術(shù)的四大熱門應(yīng)用領(lǐng)域及三大核心處理技術(shù),分析了大數(shù)據(jù)技術(shù)帶來(lái)的諸如信息竊取及篡改、個(gè)人隱私數(shù)據(jù)泄露等信息安全隱患,并提出了相應(yīng)的解決措施及建議。當(dāng)然,目前大數(shù)據(jù)技術(shù)的研究尚處在起步階段,還有許多深層次的問(wèn)題亟待解決,如大數(shù)據(jù)的存儲(chǔ)管理是通過(guò)硬件的簡(jiǎn)單升級(jí)還是通過(guò)系統(tǒng)的重新設(shè)計(jì)來(lái)解決,大數(shù)據(jù)4V特征中起關(guān)鍵作用的是什么,大數(shù)據(jù)技術(shù)的應(yīng)用前景是什么,等等。就目前來(lái)看,未來(lái)大數(shù)據(jù)技術(shù)的研究之路還很長(zhǎng),需要我們用更加敏銳的洞察力來(lái)分析和研究。
參考文獻(xiàn):
[1] BARWICK H. The "four Vs" of big data. Implementing Information
Infrastructure Symposium[EB/OL]. [2012-10-02]. http://.au/article/396198/iiis_four_vs_big_data/.
[2] 韋雪瓊,楊嘩,史超.大數(shù)據(jù)發(fā)展下的金融市場(chǎng)新生態(tài)[Jl.時(shí)代金融,
2012.7:173-174
[3] 張敬誼,佘盼,肖筱華.基于云計(jì)算的區(qū)域醫(yī)療信息化服務(wù)平臺(tái)的研
究[J].計(jì)算機(jī)科學(xué),2013.40(10):360-365
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)庫(kù)集群技術(shù);分布集群
一、分布集群數(shù)據(jù)庫(kù)在大數(shù)據(jù)中的應(yīng)用
目前,許多數(shù)據(jù)增長(zhǎng)率很高的大型數(shù)據(jù)庫(kù)系統(tǒng)正被用于改善全球人類活動(dòng),如通信、社交網(wǎng)絡(luò)、交易、銀行等,分布集群數(shù)據(jù)庫(kù)已成為提高數(shù)據(jù)訪問(wèn)速度的解決方案之一。為多種類型的用戶在多個(gè)存儲(chǔ)中組織數(shù)據(jù)訪問(wèn),分布集群數(shù)據(jù)庫(kù)的問(wèn)題不僅在于如何管理大量的數(shù)據(jù),而且在于如何組織分布式存儲(chǔ)中的數(shù)據(jù)模式。智能數(shù)據(jù)組織是提高檢索速度、減少磁盤I/O數(shù)量、縮短查詢響應(yīng)時(shí)間的最佳方法之一。基于規(guī)則的聚類是提供數(shù)據(jù)庫(kù)自動(dòng)聚類和數(shù)據(jù)存儲(chǔ)模式解釋的解決方案之一,基于規(guī)則的集群通過(guò)分析屬性和記錄上的數(shù)據(jù)庫(kù)結(jié)構(gòu),將數(shù)據(jù)模式表示為規(guī)則。使用不同規(guī)則池分區(qū)的每個(gè)集群,每個(gè)規(guī)則與內(nèi)部集群中的規(guī)則相似,與外部集群中的規(guī)則不同。分布集群數(shù)據(jù)庫(kù)是一種有向圖結(jié)構(gòu)的進(jìn)化優(yōu)化技術(shù),用于數(shù)據(jù)分類,在緊湊的程序中具有顯著的表示能力,這源于節(jié)點(diǎn)的可重用性,而節(jié)點(diǎn)本身就是圖形結(jié)構(gòu)的功能。為了實(shí)現(xiàn)基于規(guī)則的集群,分布集群數(shù)據(jù)庫(kù)可以通過(guò)分析記錄來(lái)處理數(shù)據(jù)集的規(guī)則提取。分布集群數(shù)據(jù)庫(kù)的圖形結(jié)構(gòu)由三種節(jié)點(diǎn)組成:起始節(jié)點(diǎn)、判斷節(jié)點(diǎn)和處理節(jié)點(diǎn)。開始節(jié)點(diǎn)表示節(jié)點(diǎn)轉(zhuǎn)換的開始位置;判斷節(jié)點(diǎn)表示要在數(shù)據(jù)庫(kù)中檢查的屬性。分布集群數(shù)據(jù)庫(kù)規(guī)則提取的節(jié)點(diǎn)準(zhǔn)備包括兩個(gè)階段:節(jié)點(diǎn)定義和節(jié)點(diǎn)排列。節(jié)點(diǎn)定義的目的是準(zhǔn)備創(chuàng)建規(guī)則,節(jié)點(diǎn)排列是選擇重要的節(jié)點(diǎn),以便高效地提取大量規(guī)則。節(jié)點(diǎn)排列由以下兩個(gè)順序過(guò)程執(zhí)行,第一個(gè)過(guò)程是查找模板規(guī)則,第二個(gè)過(guò)程是結(jié)合第一個(gè)過(guò)程中創(chuàng)建的模板生成規(guī)則。提取模板以獲得數(shù)據(jù)集中經(jīng)常發(fā)生的屬性組合。在模板提取過(guò)程中,分布集群數(shù)據(jù)庫(kù)規(guī)則提取中只使用了少數(shù)幾個(gè)屬性,它旨在增加獲得高支持模板的可能性。與沒有模板規(guī)則的方法相比,該節(jié)點(diǎn)排列方法具有更好的聚類結(jié)果,這兩個(gè)過(guò)程中的規(guī)則生成都是通過(guò)圖結(jié)構(gòu)的演化來(lái)實(shí)現(xiàn)。
二、在線規(guī)則更新系統(tǒng)的應(yīng)用
在線規(guī)則更新系統(tǒng)用于通過(guò)分析所有記錄從數(shù)據(jù)集中提取規(guī)則,在大數(shù)據(jù)應(yīng)用中,每個(gè)節(jié)點(diǎn)都有自己的節(jié)點(diǎn)號(hào),描述每個(gè)節(jié)點(diǎn)號(hào)的節(jié)點(diǎn)信息。程序大小取決于節(jié)點(diǎn)的數(shù)量,這會(huì)影響程序創(chuàng)建的規(guī)則的數(shù)量。起始節(jié)點(diǎn)表示根據(jù)連接順序執(zhí)行的判斷節(jié)點(diǎn)序列的起始點(diǎn),開始節(jié)點(diǎn)的多個(gè)位置將允許一個(gè)人提取各種規(guī)則。判斷節(jié)點(diǎn)表示數(shù)據(jù)集的屬性,顯示屬性索引。在大數(shù)據(jù)應(yīng)用環(huán)節(jié),從每個(gè)起始節(jié)點(diǎn)開始的節(jié)點(diǎn)序列用虛線a、b和c表示,節(jié)點(diǎn)序列流動(dòng),直到支持判斷節(jié)點(diǎn)的下一個(gè)組合不滿足閾值。在節(jié)點(diǎn)序列中,如果具有已出現(xiàn)在上一個(gè)節(jié)點(diǎn)序列,將跳過(guò)這些節(jié)點(diǎn)。在更新每個(gè)集群中的規(guī)則時(shí),重要的是要找到與最新數(shù)據(jù)不匹配的屬性。因此,規(guī)則更新中要考慮的屬性由以下過(guò)程確定。當(dāng)計(jì)算集群中每個(gè)屬性和數(shù)據(jù)之間的輪廓值時(shí),閾值設(shè)置為0.85,只有輪廓值低于0.85的屬性。將為規(guī)則更新過(guò)程中的判斷節(jié)點(diǎn)的屬性選擇。一些數(shù)據(jù)的庫(kù)存值和權(quán)重值低于0.85,因此這些值不包括在國(guó)民生產(chǎn)總值的規(guī)則更新中。在線規(guī)則更新系統(tǒng)中包含用于更新規(guī)則的屬性,每個(gè)集群都具有屬性的主要值,這些屬性是集群質(zhì)量的錨定點(diǎn),進(jìn)而影響輪廓值。在線規(guī)則更新系統(tǒng)應(yīng)用中,完成主要的規(guī)則提取過(guò)程,這是一個(gè)標(biāo)準(zhǔn)的規(guī)則提取,在線規(guī)則更新系統(tǒng)考慮到數(shù)據(jù)集中的所有屬性。執(zhí)行該過(guò)程,對(duì)初始數(shù)據(jù)集進(jìn)行初始集群;改善規(guī)則更新過(guò)程,僅對(duì)輪廓值低于閾值的數(shù)據(jù)執(zhí)行。
三、大規(guī)模并行處理技術(shù)的應(yīng)用
大規(guī)模并行處理技術(shù)主要用于編寫和調(diào)試現(xiàn)代處理器的程序,而不是本地匯編程序,所有的書面代碼都是從C/C++語(yǔ)言翻譯成一個(gè)低級(jí)的核心匯編程序。在大數(shù)據(jù)應(yīng)用中,會(huì)產(chǎn)生很多數(shù)據(jù),在數(shù)據(jù)的分析和計(jì)算中,應(yīng)該結(jié)合編程技術(shù),標(biāo)準(zhǔn)語(yǔ)言是面向傳統(tǒng)體系結(jié)構(gòu)的,這就是為什么編譯器不能使用所有可能的DSP體系結(jié)構(gòu)以最佳效率生成代碼的原因。為了獲得一個(gè)良好的優(yōu)化代碼,有必要直接在低級(jí)匯編語(yǔ)言上編寫代碼。為了簡(jiǎn)化編寫程序的任務(wù),可以在某個(gè)處理器上使用面向代碼生成器。使用一個(gè)專門的匯編代碼生成器,使用并行結(jié)構(gòu)化的編程語(yǔ)言可以獲得比在C/C++中翻譯的應(yīng)用程序更高效的代碼,生成高效的匯編代碼,該代碼積極利用DSP內(nèi)核的并行性和其他特性。低級(jí)匯編代碼是由所有編譯器生成的,但是它們與傳統(tǒng)的基于文本的語(yǔ)言(如C/C++)一起工作。大數(shù)據(jù)應(yīng)用環(huán)節(jié),在數(shù)據(jù)分類和計(jì)算中,當(dāng)兩個(gè)計(jì)算操作在不同的操作單元上執(zhí)行時(shí),才能在一個(gè)dsp核心的vliw命令中并行執(zhí)行兩個(gè)計(jì)算操作。根據(jù)運(yùn)算執(zhí)行單元的不同,計(jì)算運(yùn)算可分為op1和op2兩種類型。屬于不同組使得在一個(gè)命令中執(zhí)行兩個(gè)操作成為可能。第一種類型包括由算術(shù)和邏輯單元執(zhí)行的操作,第二種類型包括由乘法器、移位器ms執(zhí)行的操作。在模板中,標(biāo)記“1”表示第一種類型的標(biāo)識(shí),標(biāo)記“2”分別表示第二種類型。如果兩個(gè)操作具有不同的類型并且沒有數(shù)據(jù)依賴關(guān)系,則可以進(jìn)行并行化,DSP核心的并行性是通過(guò)在一個(gè)核心中存在多個(gè)操作單元來(lái)保證的。在大數(shù)據(jù)計(jì)算和分析中,如果有足夠多的通用寄存器來(lái)執(zhí)行這兩個(gè)操作,并且它們可以并行執(zhí)行,代碼就會(huì)并行化,提升數(shù)據(jù)計(jì)算的效率。
本文首先對(duì)大數(shù)據(jù)時(shí)代的特點(diǎn)進(jìn)行了介紹,其次對(duì)常用的數(shù)據(jù)挖掘方法進(jìn)行了闡述,最后提出了展望。
【關(guān)鍵詞】大數(shù)據(jù) 數(shù)據(jù)挖掘 分類 聚類
大數(shù)據(jù)(Big Data),也稱為海量數(shù)據(jù),是隨著計(jì)算機(jī)技術(shù)及互聯(lián)網(wǎng)技術(shù)的高速發(fā)展而產(chǎn)生的獨(dú)特?cái)?shù)據(jù)現(xiàn)象。現(xiàn)代社會(huì)正以不可想象的速度產(chǎn)生大量數(shù)據(jù),如網(wǎng)絡(luò)訪問(wèn),微博微信,視頻圖片,手機(jī)通信,網(wǎng)上購(gòu)物……等等都在不斷產(chǎn)生大量的數(shù)據(jù)。如何更好的利用和分析產(chǎn)生的數(shù)據(jù),從而為人類使用,這是非常重要的科學(xué)研究。在大數(shù)據(jù)時(shí)代,更好的利用云計(jì)算以及數(shù)據(jù)挖掘,顯得尤為重要。
1 大數(shù)據(jù)的概念
大數(shù)據(jù),是指無(wú)法在一定時(shí)間內(nèi)用常規(guī)機(jī)器和軟硬件對(duì)其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。IBM將大數(shù)據(jù)的特點(diǎn)總結(jié)為三個(gè)V,即大量化(Volume)、多樣化(Variety)和快速化(Velocity)。
即產(chǎn)生的數(shù)據(jù)容量大。數(shù)據(jù)主要來(lái)源如:E-mail、搜索引擎的搜索、圖片、音頻、視頻、社交網(wǎng)站、微博微信、各種應(yīng)用軟件和app、電子商務(wù)以及電子通信等等。在實(shí)際生活中,電子商務(wù)的購(gòu)物平臺(tái)數(shù)量和種類越來(lái)越多,社交網(wǎng)站的典型facebook的數(shù)據(jù)量大的驚人,以PB計(jì)量都不夠。數(shù)據(jù)存儲(chǔ)的單位不僅僅是MB、GB等,而是使用了表示更大容量的TB、PB、EB、ZB和YB等,每個(gè)單位的關(guān)系為后者是前者的1024倍,如1PB=1024TB。同時(shí)大數(shù)據(jù)的增長(zhǎng)速度是越來(lái)越快,如手機(jī)相機(jī)的像素?cái)?shù)隨著新款手機(jī)的出現(xiàn)而成倍的增長(zhǎng)。
1.2 多樣化
從數(shù)據(jù)組織形式的角度將數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù),具有一定的規(guī)律,可以使用二維表結(jié)構(gòu)來(lái)表示,并存儲(chǔ)在數(shù)據(jù)庫(kù)中,如高校的教務(wù)管理系統(tǒng)的數(shù)據(jù)、銀行交易產(chǎn)生的數(shù)據(jù)。而非結(jié)構(gòu)化數(shù)據(jù)是無(wú)法通過(guò)預(yù)先定義的數(shù)據(jù)模型表達(dá)并存儲(chǔ)在數(shù)據(jù)庫(kù)中的數(shù)據(jù),如聲音、視頻和圖片等等。當(dāng)前非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)速度遠(yuǎn)遠(yuǎn)超過(guò)結(jié)構(gòu)化數(shù)據(jù)。
1.3 快速化
在當(dāng)前商業(yè)競(jìng)爭(zhēng)激烈的時(shí)代,對(duì)實(shí)時(shí)的數(shù)據(jù)進(jìn)行分析和處理,挖掘有用的數(shù)據(jù)信息,并用于商業(yè)運(yùn)作,對(duì)于企業(yè)和組織來(lái)說(shuō)非常重要。如現(xiàn)在網(wǎng)絡(luò)購(gòu)物會(huì)依據(jù)多數(shù)人的購(gòu)物組合,分析出大部分人在購(gòu)買一件物品的同時(shí)會(huì)同時(shí)購(gòu)買其他的物品,從而在購(gòu)物選擇時(shí)給予方便,提高網(wǎng)購(gòu)的效率,提高效益。
隨著互聯(lián)網(wǎng)技術(shù)和計(jì)算機(jī)技術(shù)的快速發(fā)展,在產(chǎn)生大數(shù)據(jù)的同時(shí),人們要能夠?qū)@些數(shù)據(jù)加以利用,得到有用的信息,才是最重要的。為了讓海量規(guī)模的數(shù)據(jù)能夠真正發(fā)揮巨大的作用,需要將這些數(shù)據(jù)轉(zhuǎn)換為有用的信息和知識(shí),即從傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)向數(shù)據(jù)挖掘和分析進(jìn)行轉(zhuǎn)換。比如沃爾瑪超市能夠從男人購(gòu)物時(shí)買啤酒的同時(shí)會(huì)購(gòu)買小孩的紙尿褲這種關(guān)聯(lián),并在實(shí)際物品擺放時(shí)將這兩種物品放置在一起,方便用戶購(gòu)物。
2 數(shù)據(jù)挖掘
隨著信息技術(shù)應(yīng)用的廣泛,大量的數(shù)據(jù)產(chǎn)生并存儲(chǔ)各個(gè)領(lǐng)域的信息系統(tǒng)中,數(shù)據(jù)呈現(xiàn)了爆炸式的增長(zhǎng)。數(shù)據(jù)挖掘在這種“數(shù)據(jù)爆炸,知識(shí)匱乏”的情況下出現(xiàn)的。數(shù)據(jù)挖掘(Data mining)是一個(gè)多學(xué)科交叉的研究領(lǐng)域,它融合了數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)、人工智能、知識(shí)工程和統(tǒng)計(jì)學(xué)等學(xué)科領(lǐng)域。數(shù)據(jù)挖掘在很多領(lǐng)域尤其是電信、銀行、交通、保險(xiǎn)和零售等商業(yè)領(lǐng)域得到廣泛的應(yīng)用。
數(shù)據(jù)挖掘也稱為從數(shù)據(jù)中發(fā)現(xiàn)知識(shí),具體來(lái)講就是從大規(guī)模海量數(shù)據(jù)中抽取人們所感興趣的非平凡的、隱含的、事先未知的和具有潛在用途的模式或者知識(shí)。
3 數(shù)據(jù)挖掘的主要研究?jī)?nèi)容
數(shù)據(jù)挖掘的任務(wù)是發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式,其模式分為兩大類:描述型模式和預(yù)測(cè)型模式。描述型模式是對(duì)當(dāng)前數(shù)據(jù)中存在的事實(shí)做規(guī)范描述,刻畫當(dāng)前數(shù)據(jù)的一般特性。預(yù)測(cè)型模式則是以時(shí)間為主要關(guān)鍵參數(shù),對(duì)于時(shí)間序列型數(shù)據(jù),根據(jù)其歷史和當(dāng)前的值去預(yù)測(cè)其未來(lái)的值。常使用的算法有:
3.1 聚類分析
聚類是將數(shù)據(jù)劃分成群組的過(guò)程,根據(jù)數(shù)量本身的自然分布性質(zhì),數(shù)據(jù)變量之間存在的程度不同的相似性(親疏關(guān)系),按照一定的準(zhǔn)則將最相似的數(shù)據(jù)聚集成簇。主要包括劃分聚類算法,層次聚類算法和密度聚類算法等。經(jīng)典算法有K-Means、K-Medoids。
3.2 特性選擇
特性選擇是指為特定的應(yīng)用在不失去數(shù)據(jù)原有價(jià)值的基礎(chǔ)上選擇最小的屬性子集,去除不相關(guān)和冗余的屬性。特性選擇用于在建立分類模型前,或者預(yù)測(cè)模型之前,對(duì)原始數(shù)據(jù)庫(kù)進(jìn)行預(yù)處理。常用的算法有最小描述長(zhǎng)度法。
3.3 特征抽取
特征抽取式數(shù)據(jù)挖掘技術(shù)的常用方法,是一個(gè)屬性降維的過(guò)程,實(shí)際為變換屬性,經(jīng)變換了的屬性或者特性,是原來(lái)屬性集的線性合并,出現(xiàn)更小更精的一組屬性。常用算法如主成分分析法、因子分析法和非負(fù)矩陣因子法等。
3.4 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘領(lǐng)域中研究最為廣泛和和活躍的方法之一。最初的研究動(dòng)機(jī)是針對(duì)購(gòu)物籃分析問(wèn)題提出的,目的是為了解決發(fā)現(xiàn)交易數(shù)據(jù)庫(kù)中不同商品之間的聯(lián)系規(guī)則。關(guān)聯(lián)規(guī)則是指大量數(shù)據(jù)中項(xiàng)集之間的有趣關(guān)聯(lián)或相關(guān)關(guān)系。常用的算法有Apriori算法。
3.5 分類和預(yù)測(cè)
分類是應(yīng)用已知的一些屬性數(shù)據(jù)去推測(cè)一個(gè)未知的離散型的屬性數(shù)據(jù),而這個(gè)被推測(cè)的屬性數(shù)據(jù)的可取值是預(yù)先定義的。要很好的實(shí)現(xiàn)推測(cè),需要事先定義一個(gè)分類模型。可用于分類的算法有決策樹、樸素貝葉斯分類、神經(jīng)網(wǎng)絡(luò)、logistic回歸和支持向量機(jī)等。
4 結(jié)論
隨著時(shí)代的進(jìn)步,數(shù)據(jù)也發(fā)生變化,具有各種各樣的復(fù)雜形式。很多研究機(jī)構(gòu)和個(gè)人在對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的同時(shí),也展開了對(duì)空間數(shù)據(jù)、多媒體數(shù)據(jù)、時(shí)序數(shù)據(jù)和序列數(shù)據(jù)、文本和Web等數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和分析。同時(shí)大數(shù)據(jù)的發(fā)展促進(jìn)了云計(jì)算的產(chǎn)生,基于云計(jì)算的數(shù)據(jù)挖掘也在迅速崛起。
參考文獻(xiàn)
[1]劉軍.大數(shù)據(jù)處理[M].北京:人民郵電出版社,2013(09).
[2]王元卓等.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013(06).
[3]申彥.大規(guī)模數(shù)據(jù)集高效數(shù)據(jù)挖掘算法研究[D].江蘇大學(xué),2013(06).
[4](加)洪松林.數(shù)據(jù)挖掘技術(shù)與工程實(shí)踐[M].北京:機(jī)械工業(yè)出版社,2014.
[5]賀瑤等.基于云計(jì)算的海量數(shù)據(jù)挖掘研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013(02).
作者簡(jiǎn)介
許凡(1996-),男,江蘇省南京市人。現(xiàn)就讀三江學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院計(jì)算機(jī)軟件工程專業(yè)本科。
孫勤紅(1979-),女,山東省臨沂市人。碩士研究生學(xué)歷。現(xiàn)為三江學(xué)院計(jì)算機(jī)科學(xué)與工程學(xué)院講師、指導(dǎo)教師。主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘。
1、大數(shù)據(jù)技術(shù)是指大數(shù)據(jù)的應(yīng)用技術(shù),涵蓋各類大數(shù)據(jù)平臺(tái)、大數(shù)據(jù)指數(shù)體系等大數(shù)據(jù)應(yīng)用技術(shù)。
2、大數(shù)據(jù)是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
3、隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)也吸引了越來(lái)越多的關(guān)注。分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)通常用來(lái)形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí)會(huì)花費(fèi)過(guò)多時(shí)間和金錢。
4、大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
(來(lái)源:文章屋網(wǎng) )
“大數(shù)據(jù)時(shí)代的預(yù)言家”維克托近日在北京面對(duì)一萬(wàn)多名技術(shù)信徒再次預(yù)言。
顯然,這三大經(jīng)典的技術(shù)信條在大數(shù)據(jù)時(shí)代面臨動(dòng)搖,
技術(shù)信徒的思維模式也即將發(fā)生顛覆。
那么,大數(shù)據(jù)對(duì)技術(shù)信徒意味著什么?
他們又將如何面對(duì)這一顛覆性的變革?
“技術(shù)匯成一條大河,一波推動(dòng)另外一波。”IBM中國(guó)開發(fā)中心首席技術(shù)官兼新技術(shù)研發(fā)中心總經(jīng)理毛新生帶著對(duì)技術(shù)的滿腔癡迷這樣形容道。
一波未平一波又起,移動(dòng)、社交商務(wù)、云計(jì)算、大數(shù)據(jù)等先后涌現(xiàn)的新趨勢(shì)正在融合成一股巨大的潮流,將所有的行業(yè)IT化,進(jìn)而推動(dòng)商業(yè)和社會(huì)的演進(jìn)。這也就意味著“科技是第一生產(chǎn)力”在當(dāng)下有了更深層次的涵義——“IBM認(rèn)為,在由新一代技術(shù)組成的智慧運(yùn)算時(shí)代,中國(guó)的企業(yè)家們需要更為戰(zhàn)略地思考信息科技的定位,將其運(yùn)用到自身的變革轉(zhuǎn)型之中。” IBM全球副總裁兼大中華區(qū)軟件集團(tuán)總經(jīng)理胡世忠為企業(yè)新發(fā)展出謀獻(xiàn)策。
由2012年的“軟件技術(shù)峰會(huì)”改名為2013年的“技術(shù)峰會(huì)”,在這么一個(gè)盛會(huì)上,IBM試圖展示的內(nèi)容涵蓋范圍更為廣泛——移動(dòng)應(yīng)用、大數(shù)據(jù)、云計(jì)算、DevOps軟件持續(xù)交付、應(yīng)用整合、社交商務(wù)、專家集成系統(tǒng)等熱議話題,上百場(chǎng)技術(shù)主題演講、28場(chǎng)分論壇、22場(chǎng)動(dòng)手實(shí)驗(yàn)室和80個(gè)未來(lái)產(chǎn)品的現(xiàn)場(chǎng)演示,再加上被譽(yù)為“大數(shù)據(jù)時(shí)代的預(yù)言家”的《大數(shù)據(jù)時(shí)代》作者維克托·邁爾-舍恩伯格以及數(shù)十位來(lái)自IBM的院士、杰出工程師、相關(guān)領(lǐng)域的全球首席技術(shù)官和首席架構(gòu)師的現(xiàn)場(chǎng)分享,IBM 2013技術(shù)峰會(huì)再次成為技術(shù)精英們關(guān)注的焦點(diǎn)。 大數(shù)據(jù)的新信條
《大數(shù)據(jù)時(shí)代》作者、牛津大學(xué)網(wǎng)絡(luò)學(xué)院互聯(lián)網(wǎng)治理與監(jiān)管專業(yè)教授維克托·邁爾-舍恩伯格的出現(xiàn)著實(shí)讓場(chǎng)內(nèi)數(shù)以萬(wàn)計(jì)的技術(shù)信徒激動(dòng)了一把。作為深刻洞察大數(shù)據(jù)給人類生活、工作和思維帶來(lái)的大變革的第一人,維克托以價(jià)格預(yù)測(cè)網(wǎng)站的例子作為開場(chǎng)白,論證了大數(shù)據(jù)已經(jīng)悄然在大眾的身邊出現(xiàn)并給他們的生活帶來(lái)改變。
“全體性、混雜性和相關(guān)性是大數(shù)據(jù)的三個(gè)主要特點(diǎn),而且這三個(gè)特點(diǎn)是互相加強(qiáng)的。”維克托歸納出了大數(shù)據(jù)對(duì)應(yīng)的思維變革。收集和分析更多的數(shù)據(jù)才能獲取足夠的數(shù)據(jù)隱含的細(xì)節(jié),這些細(xì)節(jié)恰恰是隨機(jī)抽樣所錯(cuò)失的。“干凈”的、高質(zhì)量的數(shù)據(jù)不再是標(biāo)的,大數(shù)據(jù)需要我們摒棄對(duì)宏觀上精確性的追求,轉(zhuǎn)而獲得微觀上的準(zhǔn)確性,即接受混雜的數(shù)據(jù)。最重要的是,人們不再沉迷于追尋數(shù)據(jù)之間的因果關(guān)系,即不再糾結(jié)于為什么,而是直接獲得“是什么”的答案,并通過(guò)應(yīng)用相關(guān)關(guān)系,更好地捕捉現(xiàn)在和預(yù)測(cè)未來(lái)——抽樣因錯(cuò)失細(xì)節(jié)得不償失,盲目追求精確性已經(jīng)過(guò)時(shí),執(zhí)著于因果關(guān)系喪失機(jī)遇。
如何在大數(shù)據(jù)時(shí)代生存?維克托指出了兩個(gè)關(guān)鍵點(diǎn):一是意識(shí)到技術(shù)或者規(guī)模并不是成功的充分條件。遺忘規(guī)模經(jīng)濟(jì),因?yàn)樗男б鏁?huì)逐漸淡化。20年前,一個(gè)公司只有擁有上十萬(wàn)臺(tái)的服務(wù)器才能提供搜索服務(wù),但在大數(shù)據(jù)時(shí)代,由于云計(jì)算的便利性,不擁有實(shí)體服務(wù)器的公司,如前文提到的,它只有30個(gè)員工,但它有能力為其上10億的用戶提供數(shù)據(jù)分析。二是為了在大數(shù)據(jù)時(shí)代獲得勝利,大數(shù)據(jù)的思維模式不可或缺,工具的力量不容小視,分析能力是必要的。藍(lán)色被谷歌選為搜索窗口的色彩,但藍(lán)色實(shí)際上有51種,而且這51種藍(lán)色人依靠裸眼無(wú)法明確區(qū)分,卻能在心理層面給人帶來(lái)不同的感受。經(jīng)過(guò)大數(shù)據(jù)分析,谷歌發(fā)現(xiàn)原本由人工選出來(lái)的藍(lán)色會(huì)導(dǎo)致谷歌損失200億~300億美元的收入,因?yàn)檫@一種藍(lán)色并不最具備誘惑力,無(wú)法激起人們點(diǎn)擊的欲望。
大數(shù)據(jù)的力量需要具備大數(shù)據(jù)的思維模式,并有效利用大數(shù)據(jù)的工具去發(fā)掘。IBM杰出工程師、InfoSphere Stream高級(jí)開發(fā)經(jīng)理James R Giles闡述了IBM對(duì)大數(shù)據(jù)的看法:“我們正一步步走到了一個(gè)新紀(jì)元——大數(shù)據(jù)時(shí)代。如同對(duì)待自然資源一樣,我們需要開掘、轉(zhuǎn)變、銷售、保護(hù)大數(shù)據(jù)資源;不同的是,大數(shù)據(jù)資源是無(wú)窮無(wú)盡的,我們不能任由大數(shù)據(jù)淹沒自己,而應(yīng)該在獲得洞察需求的驅(qū)使下獲得價(jià)值。”
大數(shù)據(jù)的類型廣義而言有移動(dòng)數(shù)據(jù)和靜態(tài)數(shù)據(jù),還有結(jié)構(gòu)性數(shù)據(jù)和非結(jié)構(gòu)性數(shù)據(jù),這對(duì)應(yīng)著不同的處理方式。“技術(shù)人員的責(zé)任是,能夠去管理這些數(shù)據(jù),能夠理解這些從不同的數(shù)據(jù)源而來(lái)、不同類型的數(shù)據(jù),能夠分析這些數(shù)據(jù),得出結(jié)論,讓其提供決策支持,為企業(yè)擁抱新的大數(shù)據(jù)時(shí)代提供技術(shù)支撐,以保證管理、安全、商業(yè)的持續(xù)性。” James R Giles號(hào)召技術(shù)人員積極行動(dòng),以大數(shù)據(jù)的思維模式展現(xiàn)技術(shù)的價(jià)值和魅力。
找到內(nèi)在聯(lián)系
技術(shù)的趨勢(shì)總是融合,也只有有機(jī)融合才能形成合力,發(fā)揮更大的威力,而實(shí)現(xiàn)這一合力的前提是明確各個(gè)趨勢(shì)之間的內(nèi)在聯(lián)系。
“實(shí)際上,社交商務(wù)、移動(dòng)、大數(shù)據(jù)、云計(jì)算是一體化的。”毛新生建議技術(shù)人員用一個(gè)全面的、融合的范式來(lái)沉著看待和應(yīng)對(duì)紛繁的熱點(diǎn)技術(shù),理解這些熱點(diǎn)會(huì)如何影響整個(gè)IT的走向,進(jìn)而明晰IT如何可以很好地支持各行各業(yè)的業(yè)務(wù)轉(zhuǎn)型和創(chuàng)新,“讓每個(gè)行業(yè)都可以從新的技術(shù)轉(zhuǎn)型當(dāng)中獲得足夠的原動(dòng)力”。
從貼近最終用戶的角度來(lái)看,移動(dòng)技術(shù)、社交技術(shù)改變了商業(yè)機(jī)構(gòu)與其雇員、客戶進(jìn)行互動(dòng)的方式。“就我個(gè)人的經(jīng)歷而言,航空公司的移動(dòng)應(yīng)用可以提供更好的客戶交互。我是西北航空公司的粉絲,因?yàn)樗业囊苿?dòng)應(yīng)用服務(wù)很貼心,比如查詢航班信息、根據(jù)我的喜好預(yù)留位置、定制化地進(jìn)行社交推薦等。”毛新生以一個(gè)普通消費(fèi)者的感受證明了企業(yè)通過(guò)移動(dòng)應(yīng)用收集并利用用戶行為數(shù)據(jù)所帶來(lái)的服務(wù)質(zhì)量的提升。
移動(dòng)催生了“一種嶄新的服務(wù)交付端點(diǎn)”,即為用戶提供了更多樣化的服務(wù)體驗(yàn)點(diǎn),讓用戶隨時(shí)隨地可以利用碎片化的時(shí)間去獲得業(yè)務(wù)服務(wù),也為企業(yè)帶來(lái)了全新的服務(wù)交付渠道。移動(dòng)這個(gè)渠道提供了更為豐富的全樣性數(shù)據(jù),在此基礎(chǔ)上,大數(shù)據(jù)分析就更可信。“移動(dòng)所具備的碎片化特點(diǎn)會(huì)帶來(lái)更大量的用戶行為信息。當(dāng)把所有的人的行為結(jié)合在一起,就可以做群體的社會(huì)性分析。社會(huì)性分析會(huì)得到比較準(zhǔn)確的群體特征。而群體特征足以獲得很好的交叉銷售與線上銷售機(jī)會(huì)。”毛新生認(rèn)為移動(dòng)與大數(shù)據(jù)結(jié)合給企業(yè)提供了新的商業(yè)機(jī)會(huì)。
移動(dòng)的設(shè)備無(wú)處不在。人、汽車,甚至建筑物、道路、橋梁,它們無(wú)時(shí)無(wú)刻不在提供數(shù)據(jù),這就是新的數(shù)據(jù)源,是它們引領(lǐng)我們來(lái)到維克托所描述的更為廣闊的大數(shù)據(jù)世界。
移動(dòng)和社交商務(wù)的便捷性使得企業(yè)的整個(gè)業(yè)務(wù)流程變得非常自動(dòng)化,用戶可以享受自助服務(wù),對(duì)應(yīng)到企業(yè)端就意味著業(yè)務(wù)流程對(duì)前端的需求要反應(yīng)得更為迅速,也意味著各個(gè)業(yè)務(wù)系統(tǒng)之間無(wú)縫連接,否則沒有辦法支撐以最終用戶為中心的服務(wù)體驗(yàn),但跨部門和跨應(yīng)用的整合實(shí)屬不易。進(jìn)一步延伸開來(lái),對(duì)用戶體驗(yàn)的追求是無(wú)止境的,合作伙伴的API和服務(wù)可以作為補(bǔ)充,這即是“跨企業(yè)邊界”的行為。這種行為必然導(dǎo)致大規(guī)模的用戶訪問(wèn)。這些整合和外部拓展都需要云計(jì)算提供靈活有效的基礎(chǔ)。沒有云計(jì)算,移動(dòng)前端的體驗(yàn)、大數(shù)據(jù)分析的效果都會(huì)大打折扣。“云的基礎(chǔ)設(shè)施使大規(guī)模互動(dòng)、大規(guī)模數(shù)據(jù)處理、大規(guī)模應(yīng)用可以更好地服務(wù)我們。”毛新生指出。
環(huán)境變化加速,競(jìng)爭(zhēng)更加激烈,要求企業(yè)的反應(yīng)速度越來(lái)越快,應(yīng)用以及端到端解決方案快速改變。毛新生饒有興致地介紹道:“這個(gè)改變有多快呢?我們有的客戶嘗試以天為周期去改變,這意味著應(yīng)用和業(yè)務(wù)流程的設(shè)計(jì)、開發(fā)、部署、測(cè)試、維護(hù)的整個(gè)過(guò)程要大大加快,也就是所謂的DevOps。只有把敏捷的開發(fā)和運(yùn)維結(jié)合起來(lái),生命周期變得以天為周期,才能響應(yīng)新的商業(yè)環(huán)境。”
“移動(dòng)、云計(jì)算、大數(shù)據(jù)、社交商務(wù)之間的緊密聯(lián)系讓我們應(yīng)該以整體的眼光來(lái)審視它們。”胡世忠堅(jiān)信,它們的組合可以創(chuàng)造可持續(xù)的競(jìng)爭(zhēng)優(yōu)勢(shì),可以迸發(fā)變革的力量。
至于一個(gè)企業(yè)應(yīng)該從哪里下手來(lái)實(shí)現(xiàn)這一幅宏偉藍(lán)圖?毛新生給出的答案是:“每一個(gè)企業(yè),因?yàn)樗幍男袠I(yè)或者特定的情況而擁有不同的切入點(diǎn),有一些企業(yè)需要從移動(dòng)開始,有一些企業(yè)需要從云計(jì)算開始,有一些企業(yè)需要從大數(shù)據(jù)開始,但是它們是不可分割的整體,只有綜合地運(yùn)用它們,找到適合自己的切入點(diǎn),一步一步腳踏實(shí)地,才能掌握先機(jī),打造競(jìng)爭(zhēng)力。在這個(gè)過(guò)程中,要擁有正確的思維,改變既有思維,理解趨勢(shì),制定策略。”
例如,銀行、保險(xiǎn)、零售業(yè)這一類和最終消費(fèi)者打交道的服務(wù)業(yè)在很大概率上需要先從移動(dòng)、社交商務(wù)入手,從而使其有機(jī)會(huì)改善和用戶交互的過(guò)程。而以數(shù)據(jù)為生的行業(yè)會(huì)琢磨如何將自己的內(nèi)容和資源數(shù)據(jù)增值,而傳統(tǒng)的運(yùn)營(yíng)基礎(chǔ)設(shè)施的重資產(chǎn)企業(yè),會(huì)追求將資產(chǎn)數(shù)字化,得到數(shù)據(jù)并進(jìn)行分析,以優(yōu)化資產(chǎn)的生命周期管理來(lái)預(yù)防性地降低維護(hù)成本,這些企業(yè)是以大數(shù)據(jù)作為切入點(diǎn)的。還有一些企業(yè)希望跨行業(yè)整合進(jìn)行業(yè)務(wù)創(chuàng)新,背后牽扯到它們自身現(xiàn)有的業(yè)務(wù)模式和新業(yè)務(wù)模式的整合,這種情況下需要以云的方式構(gòu)建新的應(yīng)用、服務(wù)、商業(yè)流程。
毛新生認(rèn)為切入點(diǎn)不同只是表象,每一種場(chǎng)景到最后都是綜合性的運(yùn)用,要把這幾個(gè)技術(shù)綜合運(yùn)用起來(lái)。從前端開始,首先是利用移動(dòng),并借助社交渠道交流,很快這些渠道會(huì)得到新的數(shù)據(jù),這些新的數(shù)據(jù)和原有的交易數(shù)據(jù)和積累的數(shù)據(jù)結(jié)合起來(lái)做進(jìn)一步的數(shù)據(jù)分析,這就是大數(shù)據(jù)分析。大數(shù)據(jù)分析以后可以做社交推薦、關(guān)聯(lián)推薦了。隨后,能不能跨界再實(shí)現(xiàn)更廣泛的銷售?跟別的價(jià)值鏈上的合作伙伴合作,那么引入云是解決之道。數(shù)據(jù)量增大,用戶數(shù)增多,云的基礎(chǔ)設(shè)施可以讓成本更合理。“所以說(shuō),到最后都是綜合性的應(yīng)用,盡管起點(diǎn)不一樣”,毛新生說(shuō)。
對(duì)技術(shù)人員而言,IT就是交付業(yè)務(wù)流程的基礎(chǔ),是信息化的工具。它的目標(biāo)無(wú)非是優(yōu)化業(yè)務(wù)流程或者創(chuàng)新業(yè)務(wù)流程。創(chuàng)新到達(dá)一定程度后,業(yè)務(wù)流程的量變會(huì)導(dǎo)致質(zhì)變。“這就解釋了為何全球越來(lái)越多的CEO將技術(shù)視為驅(qū)動(dòng)企業(yè)發(fā)展的首要因素。” IBM軟件集團(tuán)大中華區(qū)中間件集團(tuán)總經(jīng)理李紅焰強(qiáng)調(diào),技術(shù)人員有能力,也有責(zé)任將“看不見的技術(shù)轉(zhuǎn)變?yōu)榭吹靡姷南硎堋薄?/p>
移動(dòng)開發(fā)的轉(zhuǎn)變
在大數(shù)據(jù)的帶領(lǐng)下我們進(jìn)入移動(dòng)時(shí)代,企業(yè)有了新機(jī)遇,技術(shù)人員卻有了新挑戰(zhàn)。為什么移動(dòng)開發(fā)和之前不一樣呢?有什么不一樣呢?這成為了縈繞在技術(shù)人員腦子里最主要的兩個(gè)問(wèn)題。
IBM杰出工程師及IBM移動(dòng)平臺(tái)首席架構(gòu)師Greg Truty解答了這兩個(gè)疑問(wèn)。他認(rèn)為,很多企業(yè)現(xiàn)在所做的事情與在移動(dòng)的狀態(tài)下做的事情是不一樣的,移動(dòng)狀態(tài)下的任務(wù)和規(guī)劃更具有戰(zhàn)略性。移動(dòng)應(yīng)用是在不穩(wěn)定的網(wǎng)絡(luò)上運(yùn)行的,所占用的資源更少。用戶在移動(dòng)設(shè)備上和非移動(dòng)設(shè)備上的體驗(yàn)是完全不一樣的,他們會(huì)希望在不穩(wěn)定的網(wǎng)絡(luò)上仍然能夠獲得良好的體驗(yàn)。企業(yè)現(xiàn)在需要思考的是,怎么樣把大量數(shù)據(jù)、大量體驗(yàn)變成一些有意義的體驗(yàn)。同時(shí),移動(dòng)管理的需求也不一樣了,開發(fā)的特性也不一樣了。比如對(duì)一個(gè)企業(yè)來(lái)說(shuō),移動(dòng)開發(fā)周期更短,有更多設(shè)備需要支持,有更多開發(fā)方法可供選擇,也有更多的工具和庫(kù)可供選擇,這時(shí)候企業(yè)就需要仔細(xì)斟酌,哪些開發(fā)方法和工具是自己需要的。
自然而然,對(duì)于設(shè)備的管理也有了變化,因?yàn)閼?yīng)用變化了。“一直以來(lái),客戶端服務(wù)器的應(yīng)用架構(gòu)是企業(yè)在使用的。你需要協(xié)調(diào)在服務(wù)器端的服務(wù)以及在客戶端的服務(wù),挑戰(zhàn)非常大。你不可能強(qiáng)迫客戶運(yùn)行你的應(yīng)用,而必須能協(xié)調(diào)和兼容原有的系統(tǒng)。這是非常關(guān)鍵的一點(diǎn)。” Greg Truty強(qiáng)調(diào)了設(shè)備管理的重要性。
此外,產(chǎn)品種類也非常多,新應(yīng)用層出不窮。Greg Truty 認(rèn)為多而新的局面下更需要冷靜處理:“我們會(huì)把應(yīng)用和數(shù)據(jù)結(jié)合起來(lái),移動(dòng)和社交網(wǎng)絡(luò)結(jié)合起來(lái),這樣做會(huì)創(chuàng)造一些新的得到數(shù)據(jù)的機(jī)會(huì),需要進(jìn)行管理。新的機(jī)會(huì)、新的技術(shù),給整個(gè)IT組織帶來(lái)了更多的挑戰(zhàn)。”
關(guān)鍵詞:云計(jì)算;云存儲(chǔ)
1 什么是云存儲(chǔ)
云存儲(chǔ)是在云計(jì)算概念上延伸和發(fā)展的一個(gè)新的概念,是指通過(guò)集群應(yīng)用、網(wǎng)絡(luò)技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過(guò)應(yīng)用軟件集合起來(lái)協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問(wèn)功能的一個(gè)系統(tǒng)。當(dāng)云計(jì)算系統(tǒng)運(yùn)算和處理的核心是大量數(shù)據(jù)的存儲(chǔ)管理時(shí),云計(jì)算系統(tǒng)中就需要配置大量的存儲(chǔ)設(shè)備,那么,云計(jì)算系統(tǒng)就轉(zhuǎn)變成為一個(gè)云存儲(chǔ)系統(tǒng),所以云存儲(chǔ)是一個(gè)以數(shù)據(jù)存儲(chǔ)和管理為核心的云計(jì)算系統(tǒng)。
2 云存儲(chǔ)分類
按照服務(wù)對(duì)象可以把云存儲(chǔ)分類如下:
(1) 公共云存儲(chǔ)。公共云存儲(chǔ)可以以低成本提供大量的文件存儲(chǔ)。供應(yīng)商可以保持每個(gè)客戶的存儲(chǔ)、應(yīng)用都是獨(dú)立的、私有的,公共云存儲(chǔ)可以劃出一部分來(lái)用作私有云存儲(chǔ)。
(2) 私有云存儲(chǔ)。通過(guò)私有云存儲(chǔ),一個(gè)公司可以擁有或控制基礎(chǔ)架構(gòu),以及應(yīng)用的部署。私有云存儲(chǔ)可以部署在企業(yè)數(shù)據(jù)中心或相同地點(diǎn)的設(shè)施上。私有云可以由公司自己的IT部門管理,也可以由服務(wù)供應(yīng)商管理。
相比傳統(tǒng)存儲(chǔ)模式,云存儲(chǔ)的租購(gòu)模式顯得更加靈活方便,其實(shí),企業(yè)自己構(gòu)建一個(gè)數(shù)據(jù)中心需要購(gòu)買硬件等必備設(shè)施及復(fù)雜多變的維護(hù)管理。
(3) 混合云存儲(chǔ)。這種云存儲(chǔ)把公共云和私有云結(jié)合在一起。主要用于按客戶要求的訪問(wèn),特別是需要臨時(shí)配置容量的時(shí)候。
從公共云上劃出一部分容量配置一種私有云,可以幫助公司面對(duì)迅速增長(zhǎng)的負(fù)載波動(dòng)或高峰時(shí)很有幫助。
盡管如此,混合云存儲(chǔ)帶來(lái)了跨公共云和私有云分配應(yīng)用的復(fù)雜性。
3 云存儲(chǔ)具有的優(yōu)勢(shì)
作為大數(shù)據(jù)時(shí)代的云存儲(chǔ)技術(shù),與傳統(tǒng)存儲(chǔ)技術(shù)相比,具有如下明顯優(yōu)勢(shì):
(1) 靈活方便。對(duì)于中小企業(yè)或個(gè)人用戶,完全可以將數(shù)據(jù)的創(chuàng)建與維護(hù)委托給云服務(wù)提供商,而只是租用云服務(wù)提供商的服務(wù)即可,用戶不必考慮存儲(chǔ)容量、存儲(chǔ)設(shè)備類型、數(shù)據(jù)存儲(chǔ)位置,以及更多的關(guān)于數(shù)據(jù)的可用性、可靠性和安全性等繁雜的技術(shù)層面。避免了購(gòu)買硬件設(shè)備及技術(shù)維護(hù)而投入的精力,節(jié)省下來(lái)的大量時(shí)間可以用于更多的工作業(yè)務(wù)發(fā)展。
(2) 成本低廉。就目前來(lái)說(shuō),企業(yè)在數(shù)據(jù)存儲(chǔ)上所付出的成本相當(dāng)大,因?yàn)槠髽I(yè)要建立一套存儲(chǔ)系統(tǒng)不僅需要購(gòu)買硬件等基礎(chǔ)設(shè)施,同時(shí),系統(tǒng)維護(hù)還需要專門的人員,企業(yè)的存儲(chǔ)空間及管理費(fèi)用都面臨巨大挑戰(zhàn),企業(yè)必須更新或增加各種數(shù)據(jù)存儲(chǔ)和管理設(shè)備,而且還要負(fù)擔(dān)逐漸高漲的管理成本。
為了減少這種成本壓力,好多企業(yè)將大部分?jǐn)?shù)據(jù)遷移至云存儲(chǔ)上,所有的升級(jí)、維護(hù)等管理任務(wù)均由云存儲(chǔ)服務(wù)提供商來(lái)完成。因此,可以將數(shù)據(jù)存儲(chǔ)與管理的成本降到最低,同時(shí),還能獲得最優(yōu)良的數(shù)據(jù)存儲(chǔ)服務(wù)。
(3) 量身定制。隨著大數(shù)據(jù)的到來(lái),傳統(tǒng)的存儲(chǔ)模式已不再適用企業(yè)的數(shù)據(jù)存儲(chǔ),企業(yè)急需一種新的存儲(chǔ)方式來(lái)滿足企業(yè)數(shù)據(jù)存儲(chǔ)的個(gè)性化需求。
私有云即可滿足企業(yè)這一個(gè)性化需求。云服務(wù)提供商可以專門為企業(yè)客戶提供一種量身定制的云存儲(chǔ)服務(wù)解決方案,也可以由企業(yè)自己的IT機(jī)構(gòu)部署一套私有云服務(wù)架構(gòu)。企業(yè)不僅可以得到最優(yōu)質(zhì)的個(gè)性化服務(wù),還能在一定程度上降低安全風(fēng)險(xiǎn)。
4 云存儲(chǔ)發(fā)展需要考慮的主要問(wèn)題
由于云存儲(chǔ)具有傳統(tǒng)數(shù)據(jù)存儲(chǔ)模式不具備的諸多優(yōu)勢(shì),越來(lái)越多的中小企業(yè)正在將自己的數(shù)據(jù)中心逐漸轉(zhuǎn)移至云端。而大型企業(yè)除了租用公共云存儲(chǔ)服務(wù)以外,也開始著手建立自己的私有云存儲(chǔ)數(shù)據(jù)中心。但是,云存儲(chǔ)仍處于快速發(fā)展階段,云存儲(chǔ)要想得到廣泛應(yīng)用,還有待進(jìn)一步完善和改進(jìn)。
(1) 安全問(wèn)題。數(shù)據(jù)存儲(chǔ)在云計(jì)算中心,安全問(wèn)題始終是用戶最為關(guān)注的問(wèn)題。
用戶的敏感信息和個(gè)人隱私數(shù)據(jù)如何才能保證其具有安全性和私密性,云存儲(chǔ)服務(wù)提供商應(yīng)根據(jù)分布式文件中可能存在的安全威脅和安全需求,來(lái)制定相應(yīng)的安全策略,以便在計(jì)算機(jī)中實(shí)施相應(yīng)的保護(hù)機(jī)制,確保用戶數(shù)據(jù)避免丟失或被竊。
(2) 可靠性問(wèn)題。可靠性是數(shù)據(jù)存儲(chǔ)系統(tǒng)最基本也是最關(guān)鍵的一項(xiàng)指標(biāo)。
數(shù)據(jù)的備份復(fù)制是云存儲(chǔ)管理中心必須考慮的問(wèn)題,而且數(shù)據(jù)的備份復(fù)制可以大大提高云存儲(chǔ)系統(tǒng)的可靠性和性能,同時(shí)能夠增強(qiáng)系統(tǒng)的容錯(cuò)能力。如果云存儲(chǔ)數(shù)據(jù)遭到破壞,云存儲(chǔ)服務(wù)提供商應(yīng)該能夠快速全面地恢復(fù)數(shù)據(jù),確保用戶數(shù)據(jù)的完整性。
5 結(jié)束語(yǔ)
云存儲(chǔ)不僅僅是存儲(chǔ),更多的是應(yīng)用,是云計(jì)算時(shí)代的一場(chǎng)存儲(chǔ)革命,隨著云存儲(chǔ)的安全性、可靠性、實(shí)用性等存儲(chǔ)技術(shù)的不斷成熟,人們對(duì)存儲(chǔ)技術(shù)的認(rèn)識(shí)不斷提高,云存儲(chǔ)成本的不斷降低,一定會(huì)形成一個(gè)安全可靠、實(shí)用快速的云數(shù)據(jù)存儲(chǔ)與訪問(wèn)系統(tǒng)。云存儲(chǔ)必將廣泛應(yīng)用于各行各業(yè),云存儲(chǔ)必然是未來(lái)數(shù)據(jù)存儲(chǔ)的發(fā)展趨勢(shì)。
參考文獻(xiàn)
[1]互動(dòng)百科./wiki/云存儲(chǔ).
[2]百度百科. / view /
關(guān)鍵詞:大數(shù)據(jù);計(jì)算機(jī);數(shù)據(jù)備份;安全保障
中圖分類號(hào):TP311
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2017)10-0025-01
數(shù)據(jù)信息作為時(shí)代的信息管理標(biāo)志其安全性必須收到更大的重視,數(shù)據(jù)信息的安全存儲(chǔ)系統(tǒng)尤為重要,防止信息數(shù)據(jù)的丟失的管理備份系統(tǒng)更為重要。因此能夠?qū)?shù)據(jù)信息妥善管理,保證其正常工作的技術(shù)相當(dāng)重要,但當(dāng)數(shù)據(jù)真正丟失或不可避免地出現(xiàn)問(wèn)題以后能夠盡快地將其找回或者是在有效的時(shí)間內(nèi)將其完整地恢復(fù),以確保整個(gè)計(jì)算機(jī)系統(tǒng)能夠正常工作的技術(shù)更是必不可少的。
1.數(shù)據(jù)備份概念及其特點(diǎn)
數(shù)據(jù)備份指的是將計(jì)算機(jī)系統(tǒng)的所有數(shù)據(jù)或者是部分重要數(shù)據(jù)借助某一種或多種手段從計(jì)算機(jī)一個(gè)系統(tǒng)復(fù)制到另一個(gè)系統(tǒng),或者是從本地計(jì)算機(jī)存儲(chǔ)系統(tǒng)中復(fù)制到其他的存儲(chǔ)系統(tǒng)中。其目的就是保障系統(tǒng)可用或者是數(shù)據(jù)安全。防止由于人為的失誤或者是系統(tǒng)故障問(wèn)題亦或是自然災(zāi)害等方面的原因造成系統(tǒng)數(shù)據(jù)的安全性無(wú)法保障的問(wèn)題。數(shù)據(jù)備份更重要的原因是數(shù)據(jù)信息的多重保存以備不時(shí)之需。
數(shù)據(jù)備份按照備份的實(shí)現(xiàn)方式可以分為單機(jī)和網(wǎng)絡(luò)兩種備份方式,傳統(tǒng)的備份就是單機(jī)備份針對(duì)計(jì)算機(jī)本身將數(shù)據(jù)進(jìn)行異地存儲(chǔ),現(xiàn)代比較流行的就是網(wǎng)絡(luò)備份。這是針對(duì)整個(gè)網(wǎng)絡(luò)而言的,這種方式的備份較為復(fù)雜,是通過(guò)網(wǎng)絡(luò)備份軟件對(duì)存儲(chǔ)介質(zhì)和基礎(chǔ)硬件存儲(chǔ)設(shè)備的數(shù)據(jù)進(jìn)行保存和管理。由于網(wǎng)絡(luò)備份是在網(wǎng)絡(luò)中進(jìn)行數(shù)據(jù)備份的,因此也就不同于普通的傳統(tǒng)單機(jī)備份,是包含需要備份的文件數(shù)據(jù)和網(wǎng)絡(luò)系統(tǒng)中使用到的應(yīng)用程序以及系統(tǒng)參數(shù)和數(shù)據(jù)庫(kù)等內(nèi)容的。
數(shù)據(jù)備份的作用在于:一方面,在數(shù)據(jù)受到損害時(shí)對(duì)數(shù)據(jù)進(jìn)行還原和恢復(fù);另一方面,數(shù)據(jù)信息的歷史性、長(zhǎng)久保存,方便數(shù)據(jù)的歸檔。
2.數(shù)據(jù)備份存儲(chǔ)技術(shù)
備份換言之就是數(shù)據(jù)的再存儲(chǔ),因此備份技術(shù)是存儲(chǔ)技術(shù)的重要內(nèi)容之一,但是數(shù)據(jù)備份存儲(chǔ)作為計(jì)算機(jī)系統(tǒng)技術(shù)與簡(jiǎn)單的備份區(qū)別很大。計(jì)算機(jī)數(shù)據(jù)備份存儲(chǔ)技術(shù)時(shí)更為全面、完整、穩(wěn)定安全的數(shù)據(jù)信息的備份,是網(wǎng)絡(luò)系統(tǒng)高效數(shù)據(jù)存儲(chǔ)的,也是安全性較高的網(wǎng)絡(luò)備份。
文件存儲(chǔ)作為最基礎(chǔ)的數(shù)據(jù)類型是隨機(jī)存儲(chǔ)在硬盤上的數(shù)據(jù)片段和文檔資料,這些存儲(chǔ)的數(shù)據(jù)文檔、報(bào)表甚至是作為數(shù)據(jù)庫(kù)文件的應(yīng)用程序等等在存儲(chǔ)一定的量就會(huì)出現(xiàn)超出容量的情況因此對(duì)其的整合是必要的。這樣的整合是將存儲(chǔ)的各類數(shù)據(jù)或者是數(shù)據(jù)庫(kù)以一個(gè)順序和程序的形式出現(xiàn),幫助人們解決備份存儲(chǔ)的空間問(wèn)題,技術(shù)問(wèn)題以及成本問(wèn)題。更能將工作人員的連續(xù)數(shù)據(jù)維護(hù)和監(jiān)控從繁重的工作中解放出來(lái)。
3.保障計(jì)算機(jī)數(shù)據(jù)網(wǎng)絡(luò)備份的安全性策略
通過(guò)網(wǎng)絡(luò)傳輸?shù)膫浞輸?shù)據(jù)在傳輸過(guò)程和傳輸路徑方面必須確保數(shù)據(jù)的安全性。若不能保證數(shù)據(jù)的安全那么一些企業(yè)的關(guān)鍵數(shù)據(jù)和重要應(yīng)用程序就會(huì)受損,甚至是失去了備份的意義。因此相比單機(jī)備份而言網(wǎng)絡(luò)備份更要確保安全傳輸和安全存儲(chǔ)。
首先確保備份數(shù)據(jù)的機(jī)密性。數(shù)據(jù)信息的網(wǎng)絡(luò)備份不能被非法用戶隨意獲得,因此在數(shù)據(jù)備份過(guò)程和傳輸過(guò)程中必須防止數(shù)據(jù)的機(jī)密性被破壞。一般數(shù)據(jù)備份常用的方法是加密。必須保證是數(shù)據(jù)擁有者才能使用這些數(shù)據(jù)信息,關(guān)鍵的數(shù)據(jù)信息的加密工作相比更加嚴(yán)格。數(shù)據(jù)內(nèi)容不容有失,甚至是數(shù)據(jù)的相關(guān)名稱和代碼等也不能隨便被非法進(jìn)入系統(tǒng)的人獲得才是最能保障數(shù)據(jù)安全的方式。
此外,在數(shù)據(jù)網(wǎng)絡(luò)傳輸存儲(chǔ)之前一定要確認(rèn)接受信息一方的真實(shí)性,核實(shí)雙方信息是否匹配,一定要在雙方身份確認(rèn)之后才能對(duì)網(wǎng)絡(luò)的數(shù)據(jù)信息進(jìn)行發(fā)送和接受,這樣既避免了欺詐行為又確保了網(wǎng)絡(luò)中間不可信的因素存在使數(shù)據(jù)信息遭到破壞。
其次。確保備份數(shù)據(jù)的完整性。數(shù)據(jù)備份存儲(chǔ)不是一個(gè)簡(jiǎn)單的過(guò)程,數(shù)據(jù)信息是通過(guò)設(shè)備和網(wǎng)絡(luò)之間傳輸來(lái)完成備份數(shù)據(jù)存儲(chǔ)的。這一個(gè)成必須要保障所傳輸?shù)男畔⑼暾乇簧蟼鞫疫@些數(shù)據(jù)信息不能被其他方攔截和篡改,以破壞備份數(shù)據(jù)信息的內(nèi)容和屬性等。此外在存儲(chǔ)時(shí)也要保障數(shù)據(jù)信息的正確無(wú)誤完整保存。
再次,備份存儲(chǔ)的數(shù)據(jù)可用性。數(shù)據(jù)存儲(chǔ)必須是可用的,而且是計(jì)算機(jī)資源用戶合理合法的使用。對(duì)于網(wǎng)絡(luò)備份系統(tǒng)的信息和信息用戶系統(tǒng)的信息是完全一致的,是可用的。備份數(shù)據(jù)資料必須在合法用戶需要時(shí)可以隨時(shí)安全使用。這是網(wǎng)絡(luò)數(shù)據(jù)備份存儲(chǔ)必須保證的。
關(guān)鍵詞:煙草;數(shù)據(jù)中心;大數(shù)據(jù);Hadoop;Impala
1.大數(shù)據(jù)技術(shù)現(xiàn)狀
當(dāng)前許多企業(yè)都已基本實(shí)現(xiàn)了信息化建設(shè),企業(yè)積累了海量數(shù)據(jù)。同時(shí)企業(yè)間的競(jìng)爭(zhēng)日益加劇,企業(yè)為了生存及發(fā)展需要保證自身能夠更加準(zhǔn)確、快速和個(gè)性化地為客戶提品及服務(wù)。而大數(shù)據(jù)技術(shù)能夠從海量的數(shù)據(jù)中獲取傳統(tǒng)數(shù)據(jù)分析手段無(wú)法獲知的價(jià)值和模式,幫助企業(yè)更加迅速、科學(xué)、準(zhǔn)確地進(jìn)行決策和預(yù)測(cè)。
1.1大數(shù)據(jù)技術(shù)現(xiàn)狀
廣大企業(yè)的迫切需求反之也促進(jìn)了大數(shù)據(jù)技術(shù)的飛速發(fā)展,涌現(xiàn)出了諸如Hadoop、Spark等實(shí)用的架構(gòu)平臺(tái)。其中,目前最主流的就是Hadoop。Hadoop的分布式處理架構(gòu)支持大規(guī)模的集群,允許使用簡(jiǎn)單的編程模型進(jìn)行跨計(jì)算機(jī)集群的分布式大數(shù)據(jù)處理。通過(guò)使用專門為分布式計(jì)算設(shè)計(jì)的文件系統(tǒng)HDFS,計(jì)算的時(shí)候只需要將計(jì)算代碼推送到存儲(chǔ)節(jié)點(diǎn)上,即可在存儲(chǔ)節(jié)點(diǎn)上完成數(shù)據(jù)本地化計(jì)算。因此,Hadoop實(shí)現(xiàn)了高可靠性、高可拓展性、高容錯(cuò)性和高效性,可以輕松應(yīng)對(duì)PB級(jí)別的數(shù)據(jù)處理。
1.2大數(shù)據(jù)技術(shù)對(duì)煙草數(shù)據(jù)中心建設(shè)的影響
當(dāng)前,煙草企業(yè)基于多年的信息化建設(shè)已經(jīng)積累了海量數(shù)據(jù),同時(shí)每天還不斷有新的各種數(shù)據(jù)產(chǎn)生。在高并發(fā)、大體量的情況下,需要在數(shù)據(jù)采集、存儲(chǔ)和運(yùn)算方面采用與以往完全不同的計(jì)算存儲(chǔ)模式,這就不可避免地需要采用大數(shù)據(jù)技術(shù)。同時(shí),除了購(gòu)進(jìn)單、卷煙交易數(shù)據(jù)、貨源投放數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù)外,還產(chǎn)生越來(lái)越多的非結(jié)構(gòu)化數(shù)據(jù),利用大數(shù)據(jù)技術(shù),對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行預(yù)處理,可為人工判斷和機(jī)器學(xué)縮減范圍。對(duì)海量數(shù)據(jù)以及非結(jié)構(gòu)化的信息進(jìn)行分析統(tǒng)計(jì),僅僅依靠傳統(tǒng)的技術(shù)手段很難實(shí)現(xiàn),只有引入大數(shù)據(jù)技術(shù)才能充分的將所有的數(shù)據(jù)資源利用起來(lái),成為企業(yè)決策的助力。
2.江蘇煙草數(shù)據(jù)中心應(yīng)用現(xiàn)狀
2.1江蘇煙草數(shù)據(jù)中心體系架構(gòu)
目前江蘇煙草數(shù)據(jù)中心以一體化數(shù)據(jù)中心、一體化數(shù)據(jù)管理和一體化數(shù)據(jù)分析三個(gè)部分為核心,構(gòu)建了一套完整的數(shù)據(jù)中心架構(gòu)。一體化數(shù)據(jù)中心是整個(gè)數(shù)據(jù)中心最核心的部分。通過(guò)數(shù)據(jù)倉(cāng)庫(kù)模型、數(shù)據(jù)存儲(chǔ)、ETL工具等組成部分,構(gòu)建了業(yè)務(wù)數(shù)據(jù)的收集、加工、存儲(chǔ)、分發(fā)的總體架構(gòu)。建立了按ODS(SODS、UODS)、DW、DM三層結(jié)構(gòu)設(shè)計(jì)建設(shè)的數(shù)據(jù)倉(cāng)庫(kù)。一體化數(shù)據(jù)管理通過(guò)主數(shù)據(jù)管理、信息代碼管理、ESB平臺(tái)構(gòu)建了企業(yè)主數(shù)據(jù)收集、標(biāo)準(zhǔn)化、同步分發(fā)過(guò)程。結(jié)合指標(biāo)管理,全面管控企業(yè)的公用基礎(chǔ)信息。通過(guò)數(shù)據(jù)質(zhì)量管理,全面有效管控?cái)?shù)據(jù)質(zhì)量。通過(guò)數(shù)據(jù)服務(wù)管理,有效提升數(shù)據(jù)中心的對(duì)外服務(wù)能力與水平。通過(guò)元數(shù)據(jù)管理來(lái)管理數(shù)據(jù)中心元數(shù)據(jù)。一體化數(shù)據(jù)分析通過(guò)構(gòu)建移動(dòng)信息、業(yè)務(wù)分析、數(shù)據(jù)挖掘三大模塊,針對(duì)性解決當(dāng)前不同人員的決策、管理以及操作需求,發(fā)揮數(shù)據(jù)中心的數(shù)據(jù)、技術(shù)、平臺(tái)優(yōu)勢(shì)。通過(guò)移動(dòng)信息模塊為各級(jí)領(lǐng)導(dǎo)提供決策支持;通過(guò)業(yè)務(wù)分析模塊為業(yè)務(wù)人員的日常工作提供支撐;通過(guò)數(shù)據(jù)挖掘模塊,發(fā)掘數(shù)據(jù)所蘊(yùn)含的隱性價(jià)值。基于上述一整套架構(gòu)的支撐,目前數(shù)據(jù)中心構(gòu)建了全省范圍的數(shù)據(jù)集成、交換體系,一方面提升了全省基礎(chǔ)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)的規(guī)范化程度和數(shù)據(jù)質(zhì)量,另一方面為在建業(yè)務(wù)系統(tǒng)的實(shí)施、已有系統(tǒng)的改造提供了標(biāo)準(zhǔn)化的高質(zhì)量數(shù)據(jù)保障。
2.2大數(shù)據(jù)技術(shù)的應(yīng)用場(chǎng)景分析
隨著江蘇數(shù)據(jù)中心的不斷運(yùn)行,一些基于傳統(tǒng)技術(shù)架構(gòu)的功能逐漸暴露出種種問(wèn)題。其中較為突出的問(wèn)題有:一是使用者對(duì)于大數(shù)據(jù)量數(shù)據(jù)的查詢需求。基于傳統(tǒng)技術(shù)架構(gòu)的查詢功能響應(yīng)較慢;二是分析支持靈活性的不足。傳統(tǒng)統(tǒng)計(jì)分析應(yīng)用的數(shù)據(jù)結(jié)構(gòu)大多是預(yù)先定義好的,面對(duì)靈活的非傳統(tǒng)的統(tǒng)計(jì)查詢需求難以支撐,需要進(jìn)行額外的加工處理。江蘇煙草數(shù)據(jù)中心結(jié)合互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)特性,引入Hadoop平臺(tái)以及Impala等工具,搭建基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái),以補(bǔ)充基于傳統(tǒng)技術(shù)架構(gòu)的功能不足,并為未來(lái)進(jìn)一步發(fā)展建設(shè)基于大數(shù)據(jù)技術(shù)和云環(huán)境的數(shù)據(jù)中心做好準(zhǔn)備。
3.基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái)實(shí)現(xiàn)
3.1設(shè)計(jì)思路及架構(gòu)
基于大數(shù)據(jù)的自定義數(shù)據(jù)查詢平臺(tái)是在現(xiàn)有數(shù)據(jù)中心的建設(shè)成果之上,以數(shù)據(jù)中心的數(shù)據(jù)存儲(chǔ)為基礎(chǔ),以Hadoop、Hive、Impala等大數(shù)據(jù)技術(shù)工具為手段,以簡(jiǎn)單靈活、快速高效的查詢展現(xiàn)為目標(biāo),建立的數(shù)據(jù)查詢分析支持平臺(tái)。
3.2技術(shù)方案
自定義數(shù)據(jù)查詢平臺(tái)的建設(shè)主要涉及數(shù)據(jù)存儲(chǔ)架構(gòu)、后臺(tái)數(shù)據(jù)加工準(zhǔn)備、前端展現(xiàn)三塊內(nèi)容。自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)存儲(chǔ)分為兩部分。一部分為KETTLE、Impala等工具以及自定義查詢相關(guān)的元數(shù)據(jù)存儲(chǔ),另一部分則是查詢所需的各種統(tǒng)計(jì)數(shù)據(jù)的存儲(chǔ)。元數(shù)據(jù)的存儲(chǔ)根據(jù)元數(shù)據(jù)庫(kù)的不同主要分為兩部分。第一部分為基于Mysql數(shù)據(jù)庫(kù)的元數(shù)據(jù)存儲(chǔ)。這部分元數(shù)據(jù)主要包括有ETL工具KETTLE的元數(shù)據(jù),以及前端自定義查詢需要定義的權(quán)限、數(shù)據(jù)源、表、列和表列關(guān)系等信息。第二部分為基于Hive的元數(shù)據(jù)存儲(chǔ)。這部分存儲(chǔ)的是前端查詢需要使用的Impala工具的元數(shù)據(jù)。統(tǒng)計(jì)數(shù)據(jù)的存儲(chǔ)則是使用Hadoop的HDFS實(shí)現(xiàn)的。根據(jù)Hadoop平臺(tái)架構(gòu),自定義數(shù)據(jù)查詢平臺(tái)的HDFS建立在6臺(tái)虛擬主機(jī)構(gòu)建的集群上的。其中:2臺(tái)虛擬主機(jī)作為NameNode,一臺(tái)為主節(jié)點(diǎn),另一臺(tái)為備份節(jié)點(diǎn);其余4臺(tái)虛擬主機(jī)都作為DataNode用于存儲(chǔ)數(shù)據(jù)。所有數(shù)據(jù)將會(huì)統(tǒng)一分塊自動(dòng)分配存儲(chǔ)到4個(gè)DataNode上。自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)加工,是通過(guò)開源ETL工具KETTLE實(shí)現(xiàn)的。通過(guò)KETTLE從數(shù)據(jù)中心現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)集市中讀取需要的數(shù)據(jù),根據(jù)自定義數(shù)據(jù)查詢平臺(tái)的數(shù)據(jù)模型定義對(duì)數(shù)據(jù)進(jìn)行處理,最終加載到Hadoop的HDFS文件系統(tǒng)中。自定義數(shù)據(jù)查詢平臺(tái)的前端展現(xiàn)功能,主要是基于JSP技術(shù)實(shí)現(xiàn)頁(yè)面開發(fā),通過(guò)JDBC或者ODBC對(duì)后臺(tái)Mysql數(shù)據(jù)庫(kù)進(jìn)行訪問(wèn)。使用者在查詢頁(yè)面中組織定義查詢的內(nèi)容,查詢服務(wù)自動(dòng)根據(jù)獲取的元數(shù)據(jù)信息將定義的查詢內(nèi)容拼接轉(zhuǎn)換成為查詢SQL,之后通過(guò)Impala執(zhí)行查詢SQL對(duì)HDFS文件系統(tǒng)中的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行查詢。
3.3系統(tǒng)實(shí)現(xiàn)效果
利用大數(shù)據(jù)技術(shù),自定義數(shù)據(jù)查詢平臺(tái)較好地解決了目前數(shù)據(jù)中心所面對(duì)的問(wèn)題,滿足了使用人員對(duì)于大數(shù)據(jù)量以及分析靈活性的需求。面對(duì)使用人員層出不窮的查詢需求,自定義數(shù)據(jù)查詢平臺(tái)通過(guò)預(yù)先梳理、分類定義各種維度以及統(tǒng)計(jì)指標(biāo)。使用者可以自由的根據(jù)實(shí)際需求選擇分析所需的維度及統(tǒng)計(jì)指標(biāo),同時(shí)還可以基于這些基礎(chǔ)的內(nèi)容更進(jìn)一步自定義過(guò)濾條件以及計(jì)算公式,并指定其展現(xiàn)形式。在大數(shù)據(jù)量查詢效率方面,自定義查詢平臺(tái)相比傳統(tǒng)架構(gòu)的查詢功能有了較大提升。
4.結(jié)束語(yǔ)
大數(shù)據(jù)技術(shù)的發(fā)展方興未艾,應(yīng)用前景無(wú)比廣闊,對(duì)各行各業(yè)的巨大作用正在逐步展現(xiàn)。江蘇煙草數(shù)據(jù)中心的建設(shè)既要看到大數(shù)據(jù)技術(shù)未來(lái)的前景,更需要明確地認(rèn)識(shí)到大數(shù)據(jù)平臺(tái)的建設(shè)并非一朝一夕,需要有明確而長(zhǎng)遠(yuǎn)的規(guī)劃,不斷完善數(shù)據(jù)環(huán)境建設(shè)、云計(jì)算環(huán)境的構(gòu)建以及數(shù)據(jù)服務(wù)的擴(kuò)展。
參考文獻(xiàn)
[1]陳鵬.大數(shù)據(jù)時(shí)代下的信息安全問(wèn)題研究[J].電子制,2015,18:48
[2]劉憶魯,劉長(zhǎng)銀,侯艷權(quán).大數(shù)據(jù)時(shí)代下的信息安全問(wèn)題論述[J].信息通信.2016,181-182
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)庫(kù)技術(shù);數(shù)據(jù)標(biāo)簽
1引言
數(shù)據(jù)庫(kù)技術(shù)主要是通過(guò)相關(guān)的技術(shù)措施對(duì)信息數(shù)據(jù)進(jìn)行有效的存儲(chǔ)管理、優(yōu)化數(shù)據(jù)結(jié)構(gòu)、設(shè)計(jì)數(shù)據(jù)管理模式等。另外,數(shù)據(jù)庫(kù)技術(shù)還可以對(duì)庫(kù)里的數(shù)據(jù)進(jìn)行科學(xué)合理的整合分析,挖掘數(shù)據(jù)的真實(shí)性和實(shí)用性,找出不同數(shù)據(jù)之間的聯(lián)系,這也是當(dāng)前社會(huì)發(fā)展的實(shí)際需求,對(duì)于現(xiàn)代信息技術(shù)的發(fā)展起著十分重要的作用和意義。
2數(shù)據(jù)庫(kù)技術(shù)簡(jiǎn)介
隨著大數(shù)據(jù)技術(shù)的不斷改革完善,作為近年來(lái)興起的新型技術(shù),它在一定程度上是隨著云計(jì)算的出現(xiàn)而發(fā)展的。立足于云計(jì)算的相關(guān)技術(shù),對(duì)人們生活和工作中產(chǎn)生的大量數(shù)據(jù)進(jìn)行綜合處理,結(jié)合計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)通信技術(shù)、數(shù)據(jù)庫(kù)技術(shù)等,有效推動(dòng)社會(huì)經(jīng)濟(jì)的穩(wěn)步發(fā)展。數(shù)據(jù)庫(kù)技術(shù)在推廣和普及過(guò)程中,主要是以計(jì)算機(jī)信息技術(shù)為載體,充分結(jié)合傳統(tǒng)數(shù)據(jù)信息處理技術(shù)和互聯(lián)網(wǎng)技術(shù),對(duì)社會(huì)中的生產(chǎn)要素和業(yè)務(wù)要素進(jìn)行及時(shí)有效的分析和更新,調(diào)整社會(huì)中現(xiàn)有的業(yè)務(wù)結(jié)構(gòu)和發(fā)展模式,從而有效實(shí)現(xiàn)經(jīng)濟(jì)轉(zhuǎn)型。
3大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)庫(kù)技術(shù)的應(yīng)用現(xiàn)狀
3.1構(gòu)建與面向?qū)ο髮?shí)際需求相結(jié)合的數(shù)據(jù)庫(kù)
在進(jìn)行數(shù)據(jù)庫(kù)的開發(fā)和利用過(guò)程中,應(yīng)當(dāng)充分立足于用戶的實(shí)際需求,有效結(jié)合面向?qū)ο蠓椒ǎ鶕?jù)數(shù)據(jù)庫(kù)的分析情況,充分了解用戶的需求,為用戶提供更為全面和細(xì)致的服務(wù)。從一定意義上來(lái)講,不僅可以體現(xiàn)出個(gè)性化服務(wù),還能保障數(shù)據(jù)傳輸過(guò)程中的安全性和實(shí)效性[1]。根據(jù)相關(guān)調(diào)查研究可以看出,當(dāng)前我國(guó)數(shù)據(jù)庫(kù)技術(shù)仍處于不斷發(fā)展和創(chuàng)新時(shí)期,面向?qū)ο蟠罱ǔ龈咝У臄?shù)據(jù)庫(kù),并且根據(jù)用戶需求不斷進(jìn)行調(diào)整優(yōu)化。
3.2構(gòu)建與多媒體技術(shù)相結(jié)合的數(shù)據(jù)庫(kù)
一方面,對(duì)大多數(shù)群體來(lái)說(shuō),多媒體數(shù)據(jù)庫(kù)中所存儲(chǔ)的資料數(shù)據(jù)更多,界面的設(shè)置也更加多元化,能夠在第一時(shí)間吸引人們的注意力,從而更好地滿足人們的個(gè)性化需求,實(shí)現(xiàn)技術(shù)的多元化發(fā)展。另一方面,數(shù)據(jù)庫(kù)的安全問(wèn)題一直是人們最為關(guān)注的問(wèn)題,安全隱患一直是制約數(shù)據(jù)庫(kù)技術(shù)發(fā)展的重要因素,通過(guò)有效融合數(shù)據(jù)庫(kù)技術(shù)與多媒體,可以在一定程度上提高數(shù)據(jù)庫(kù)的安全性能和穩(wěn)定性能。在實(shí)際工作過(guò)程中,為了充分推動(dòng)數(shù)據(jù)庫(kù)的發(fā)展和多媒體技術(shù)的有效融合,相關(guān)工作人員應(yīng)當(dāng)解決以下幾個(gè)問(wèn)題。第一,多媒體數(shù)據(jù)庫(kù)在實(shí)際使用過(guò)程中必將涉及到用戶的個(gè)性化需求,在進(jìn)行設(shè)計(jì)時(shí)應(yīng)當(dāng)有針對(duì)性的融入相關(guān)數(shù)字?jǐn)?shù)據(jù),實(shí)現(xiàn)多媒體數(shù)據(jù)的有效管理和存儲(chǔ),已成為了技術(shù)節(jié)點(diǎn)搭建的重要模塊。第二,數(shù)據(jù)庫(kù)技術(shù)與多媒體技術(shù)要實(shí)現(xiàn)有效結(jié)合必將涉及到系統(tǒng)的兼容性,這不僅是數(shù)據(jù)之間的融合,還是數(shù)據(jù)交叉使用的重要內(nèi)容,如何充分進(jìn)行二者的融合和兼容,是全面深入實(shí)現(xiàn)多媒體數(shù)據(jù)庫(kù)面臨的主要問(wèn)題[2]。
4大數(shù)據(jù)時(shí)代背景下的數(shù)據(jù)庫(kù)技術(shù)特點(diǎn)
4.1統(tǒng)一性
受傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)搭建模式內(nèi)容的影響,不同類型的數(shù)據(jù)庫(kù)在使用中仍存在不兼容的情況。因此,無(wú)法充分利用數(shù)據(jù)庫(kù)中的信息資源,造成了資源的閑置或浪費(fèi),無(wú)法充分滿足用戶的實(shí)際需求。大數(shù)據(jù)時(shí)代背景下的數(shù)據(jù)庫(kù)技術(shù)可以有效解決這一問(wèn)題,針對(duì)不同類型的數(shù)據(jù)庫(kù)進(jìn)行有效統(tǒng)一的數(shù)據(jù)庫(kù)建設(shè),不斷完善數(shù)據(jù)信息資源的檢索功能,從而提高用戶的滿意程度和工作效率,簡(jiǎn)化操作流程[3]。
4.2共享性
數(shù)據(jù)庫(kù)技術(shù)的有效實(shí)現(xiàn)和價(jià)值體現(xiàn),在一定程度上取決于數(shù)據(jù)信息資源的共享性。人們可以通過(guò)方便快捷的方式方法獲取資源,不斷提高信息的使用效率。在實(shí)踐應(yīng)用過(guò)程中,相關(guān)工作人員可以根據(jù)虛擬數(shù)據(jù)的實(shí)際情況對(duì)各個(gè)數(shù)據(jù)庫(kù)中的子節(jié)點(diǎn)進(jìn)行科學(xué)合理的搭建,逐漸實(shí)現(xiàn)功能的多元化發(fā)展和信息資源的共享。隨著我國(guó)信息技術(shù)的不斷發(fā)展,數(shù)據(jù)庫(kù)技術(shù)的逐漸拓展和信息資源的共享,在一定程度上實(shí)現(xiàn)了信息資源的方便快捷,不斷滿足用戶的多元化需求,從而充分體現(xiàn)出數(shù)據(jù)庫(kù)的價(jià)值和作用。
5大數(shù)據(jù)時(shí)代背景下數(shù)據(jù)庫(kù)技術(shù)的應(yīng)用對(duì)策和手段
5.1數(shù)據(jù)標(biāo)簽
數(shù)據(jù)標(biāo)簽是大數(shù)據(jù)時(shí)代背景下使用數(shù)據(jù)庫(kù)技術(shù)的基礎(chǔ),能夠充分實(shí)現(xiàn)數(shù)據(jù)的查詢和有效定位。在進(jìn)行數(shù)據(jù)庫(kù)的有效搭建和完善過(guò)程中,相關(guān)技術(shù)人員應(yīng)當(dāng)有針對(duì)性地凸顯出數(shù)據(jù)庫(kù)中相關(guān)資源的特殊性,充分立足于社會(huì)發(fā)展的實(shí)際需求,科學(xué)合理的設(shè)置相應(yīng)字符長(zhǎng)度,不斷提高數(shù)據(jù)標(biāo)簽的科學(xué)性和合理性。
5.2節(jié)點(diǎn)建設(shè)
在使用數(shù)據(jù)庫(kù)時(shí),節(jié)點(diǎn)建設(shè)應(yīng)當(dāng)是建設(shè)的核心和關(guān)鍵,各個(gè)要素之間的有效搭建能夠充分滿足用戶的實(shí)際需求,體現(xiàn)出個(gè)性化發(fā)展目標(biāo)。根據(jù)實(shí)際情況可以看出,當(dāng)前我國(guó)在節(jié)點(diǎn)建設(shè)中仍存在一定的問(wèn)題,比如過(guò)于注重其標(biāo)準(zhǔn)性,采用固定的某種模式進(jìn)行搭建,沒有充分考慮到實(shí)際需求,使得節(jié)點(diǎn)建設(shè)脫離實(shí)際,無(wú)法充分發(fā)揮數(shù)據(jù)庫(kù)技術(shù)的作用和功能。基于此,相關(guān)技術(shù)人員應(yīng)當(dāng)在原有數(shù)據(jù)庫(kù)技術(shù)基礎(chǔ)上進(jìn)行優(yōu)化完善,結(jié)合原有的地址內(nèi)容和關(guān)鍵詞檢索信息,對(duì)整個(gè)數(shù)據(jù)信息資源進(jìn)行重新整合,從而提高數(shù)據(jù)庫(kù)的有效性。
5.3虛擬大數(shù)據(jù)系統(tǒng)
在數(shù)據(jù)庫(kù)中靈活有效搭建出虛擬大數(shù)據(jù)技術(shù)可以更好地實(shí)現(xiàn)數(shù)據(jù)的海量管理,對(duì)數(shù)據(jù)庫(kù)綜合性能的提升和創(chuàng)新改革服務(wù)內(nèi)容等都有著極其重要的作用和意義。虛擬大數(shù)據(jù)系統(tǒng)為數(shù)據(jù)群的前臺(tái),其功能的實(shí)現(xiàn)直接影響了數(shù)據(jù)庫(kù)和節(jié)點(diǎn)信息資源的收集交匯,合理分配任務(wù)。虛擬大數(shù)據(jù)系統(tǒng)應(yīng)當(dāng)是整個(gè)虛擬數(shù)據(jù)中的關(guān)鍵所在,只有確保其正常高效運(yùn)行,才能為用戶提供更為更全面的服務(wù)[4]。
5.4信息獲取
我國(guó)現(xiàn)有的數(shù)據(jù)庫(kù)技術(shù)更為注重?cái)?shù)據(jù)信息資源獲取渠道和機(jī)制的創(chuàng)新完善,通過(guò)交互式管理模式,不斷進(jìn)行信息的重組和創(chuàng)新。一方面,對(duì)于信息的獲取應(yīng)當(dāng)充分考慮到用戶的實(shí)際需求,搭建出由上而下的健全數(shù)據(jù)信息獲取途徑,使得用戶獲得更為全面系統(tǒng)的數(shù)據(jù)信息,確保信息的真實(shí)性和可靠性。另一方面,在獲取元數(shù)據(jù)時(shí),技術(shù)人員應(yīng)當(dāng)充分運(yùn)用虛擬大數(shù)據(jù)技術(shù),對(duì)數(shù)據(jù)進(jìn)行有效獲取。
預(yù)計(jì)1個(gè)月內(nèi)審稿 統(tǒng)計(jì)源期刊
工業(yè)和信息化部主辦
預(yù)計(jì)1個(gè)月內(nèi)審稿 省級(jí)期刊
貴州出版集團(tuán)公司主辦
預(yù)計(jì)1個(gè)月內(nèi)審稿 省級(jí)期刊
貴州電網(wǎng)有限責(zé)任公司主辦
預(yù)計(jì)1-3個(gè)月審稿 統(tǒng)計(jì)源期刊
中華人民共和國(guó)農(nóng)業(yè)農(nóng)村部主辦
預(yù)計(jì)1個(gè)月內(nèi)審稿 省級(jí)期刊
南方出版?zhèn)髅焦煞萦邢薰局鬓k
預(yù)計(jì)1個(gè)月內(nèi)審稿 省級(jí)期刊
宜昌三峽融媒體中心主辦