近日,主要來自各大互聯(lián)網(wǎng)企業(yè)的300多位工程師匯聚百度技術(shù)沙龍,與中科院、百度、58同城的技術(shù)專家圍繞海量數(shù)據(jù)分析的技術(shù)趨勢(shì)與應(yīng)對(duì)進(jìn)行了深入的研討交流。由于吸引了眾多一線的大數(shù)據(jù)處理專家參與,本期沙龍被業(yè)界謂之“大數(shù)據(jù)處理技術(shù)群英匯”。百度通過沙龍,向業(yè)界分享了自己領(lǐng)先的海量數(shù)據(jù)處理技術(shù)。
正視海量數(shù)據(jù)所蘊(yùn)藏的價(jià)值金礦
在互聯(lián)網(wǎng)的世界,每個(gè)人的行為不再是“人似秋鴻有來信,事如春夢(mèng)了無痕”,任何行為都有前兆,任何行為也都將對(duì)后續(xù)產(chǎn)生影響。對(duì)于互聯(lián)網(wǎng)大數(shù)據(jù)的分析,某種程度上將讓人類擁有預(yù)知并影響未來的能力。而這也正是大數(shù)據(jù)的魅力所在。每個(gè)企業(yè)和機(jī)構(gòu)都應(yīng)正視海量數(shù)據(jù)所蘊(yùn)藏的價(jià)值金礦。
百度對(duì)于大數(shù)據(jù)的管理與價(jià)值發(fā)掘能力處于絕對(duì)領(lǐng)先的地位。作為全球最大的中文搜索引擎,百度每天響應(yīng)來自138個(gè)國家和地區(qū)的數(shù)十億次請(qǐng)求,要處理超過100PB(1PB=1024TB)的數(shù)據(jù),從浩如煙海的信息中精確抓取約10億網(wǎng)頁,同時(shí)索引庫還擁有千億級(jí)在線索引能力,以幫助用戶完成搜索過程。過去10年,百度網(wǎng)頁搜索庫已從500萬猛增到了500億。
遵循開放、分享的互聯(lián)網(wǎng)精神,百度希望把自身對(duì)于大數(shù)據(jù)處理的能力和技術(shù)積累向業(yè)界開放,分享自身領(lǐng)先的技術(shù)理念和實(shí)踐,幫助所有置身于海量數(shù)據(jù)之中的企業(yè)和技術(shù)人員,共同促動(dòng)行業(yè)進(jìn)步。
事實(shí)上,大數(shù)據(jù)在生活中無處不在。街上的汽車、路上的行人、天上的衛(wèi)星等幾乎所有的東西每分鐘都在生成大量的數(shù)據(jù),并通過各類終端進(jìn)入互聯(lián)網(wǎng)。從商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域到國家的決策行為,海量數(shù)據(jù)分析都在日益發(fā)揮著積極而重要的作用。奧巴馬政府宣布投資2億美元,啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”。當(dāng)前,海量數(shù)據(jù)分析與處理技術(shù)已成為各界熱切關(guān)注的焦點(diǎn)。
海量數(shù)據(jù)處理技術(shù),成就百度毫秒級(jí)搜索響應(yīng)
中科院計(jì)算所副研究員查禮博士在沙龍上指出:百度毫秒級(jí)的搜索響應(yīng)速度源于海量數(shù)據(jù)分析技術(shù)。大數(shù)據(jù)發(fā)展分為三個(gè)階段,第一個(gè)就是大,通過分布式系統(tǒng)架構(gòu)Hadoop來編輯出大量的數(shù)據(jù),這個(gè)階段現(xiàn)在已經(jīng)完成。第二個(gè)就是快,在解決大量問題、調(diào)用大量數(shù)據(jù)的同時(shí),盡可能縮短時(shí)間,是現(xiàn)階段需要解決的問題!耙詴r(shí)間換空間”是現(xiàn)在主流的解決方法。第三個(gè)就是準(zhǔn),在使用搜索引擎的時(shí)候,根據(jù)每個(gè)人的使用習(xí)慣和需求方式的不同,來獲得更準(zhǔn)確的答案,是大數(shù)據(jù)未來的發(fā)展目標(biāo)。
據(jù)百度分布式高級(jí)研發(fā)工程師楊棟介紹,從“快”到“準(zhǔn)”也正是百度目前的課題。現(xiàn)階段百度將100毫秒定為搜索響應(yīng)速度標(biāo)準(zhǔn),并通過去重算法和云存儲(chǔ)等創(chuàng)新技術(shù),在內(nèi)存、高可用、讀寫等方面做出革新,不斷縮減這個(gè)數(shù)值,達(dá)到更快的響應(yīng)速度。此外,百度還采用了hypertable(開源分布式存儲(chǔ)系統(tǒng))與hadoop系統(tǒng)結(jié)合的方式,更好地完成存儲(chǔ),節(jié)約成本及降低能耗。
“準(zhǔn)”作為海量數(shù)據(jù)技術(shù)的未來發(fā)展趨勢(shì),已在百度初現(xiàn)端倪。百度新首頁的“推薦引擎”技術(shù)就已經(jīng)部分實(shí)現(xiàn)“不搜即得”的智能應(yīng)用推薦,即基于用戶以往的使用習(xí)慣分析,直接將用戶需要的信息推送至用戶個(gè)人首頁。
毫無疑問,海量數(shù)據(jù)時(shí)代已經(jīng)到來,從“快”到“準(zhǔn)”的大數(shù)據(jù)處理技術(shù),將讓每一個(gè)網(wǎng)民受益,享受到更便捷貼心的網(wǎng)絡(luò)體驗(yàn)。
據(jù)了解,百度技術(shù)沙龍系由百度與技術(shù)社區(qū)合作舉辦,至今已經(jīng)成功舉辦了25期。經(jīng)過兩年多的積累,百度技術(shù)沙龍?jiān)诨ヂ?lián)網(wǎng)業(yè)內(nèi)已成為公認(rèn)最權(quán)威、最受技術(shù)人員歡迎的技術(shù)交流平臺(tái)。

標(biāo)簽Tags:
百度
技術(shù)
關(guān)鍵字:
百度數(shù)據(jù)處理技術(shù)
|