Cloudera [Web site link]

Posted in Big Data on April 2nd, 2014 by Banbanli

http://www.cloudera.com/content/cloudera/en/about/what-is-hadoop.html

 

What is Hadoop?

Thumbnail

Make Big Data the Lifeblood of Your Enterprise

With data growing so rapidly and the unstructured variety accounting for 90% of it today, the time has come for you to re-evaluate your approach to data storage, management, and analytics.

Legacy systems, while fine for certain workloads, simply were not engineered with the needs of Big Data in mind, and are far too expensive for today’s largest data sets. Instead, these systems should now complement the use of Apache Hadoop – letting you optimize data management by putting the right Big Data workloads in the right systems.

In fact, the need for Hadoop is no longer a question — the only question now is how to take advantage of it best, and the enterprise-proven answer is: “with Cloudera.” Read more »

[轉貼] Intel 進軍Big Data, 入股Cloudera

Posted in Big Data on April 2nd, 2014 by Banbanli

英特爾上週宣布投資矽谷新創公司 Cloudera,最新資料披露,在這樁交易中,英特爾投資總額達7.4億美元,持股比重來到18%,一躍成為 Cloudera 的最大股東。

 

Cloudera成立於2008年,是一家 Big Data 分析服務公司,市值推估達 41 億美元。透過 Cloudera 提供的 Hadoop 分散式運算軟體,企業可大幅降低巨量資料分析的門檻。

除了英特爾之外,Cloudera 還自其他投資者募得1.6億美元,使得募資總額達9億美元。

華爾街日報報導,這是英特爾旗下數據中心集團迄今最大宗的投資案。Cloudera 財務長 Jim Frankola 表示,新募資金將用以加速擴展在歐洲、大陸與其它亞洲國家的業務。

[轉貼]雲端運算平台—Hadoop

Posted in Big Data on April 2nd, 2014 by Banbanli

http://www.cc.ntu.edu.tw/chinese/epaper/0011/20091220_1106.htm

 

作者:周秉誼 / 臺灣大學計算機及資訊網路中心作業管理組碩士後研究人員


雲端運算是資料中心因應網路上資訊暴增而提出的服務及管理思維,資訊服務提供者投入資源進行雲端運算的服務及架構開發,Google可說是最大量使用雲端 運算的組織之一。Hadoop就是由Google雲端架構得到啟發而開始的開放原始碼計劃,目前有許多組織參與Hadoop的研究開發,並以Hadoop 做為雲端運算的平台。

前言
隨著網際網路 (Internet) 的發展,及web2.0概念被提出,網路使用者的行為也由單純的瀏覽轉變為創作與分享;另外,行動式的資訊設備也越來越多,為了方便分享及取用,使用者們把資料從個人的電腦中轉移到web服務提供者的資料中心 (Data Center);而服務提供者為了提供更穩定更迅速的服務,也需要一個新的服務架構,將運算資源及儲存空間更有效率的利用,同時提供服務開發人員更便利的開發環境。 Read more »

[轉貼]Google 為什麼能在 0.15 秒找到數十萬筆資料?認識搜尋霸主的核心技術

Posted in Big Data on April 2nd, 2014 by Banbanli

http://techorange.com/2013/05/07/meet-google-search-engines-technique/

 

當你在瀏覽器上輸入想要搜尋的字串時,Google 會檢視數十億個網頁,並依據索引值從中找出內容相符合的網頁,再依據相關的規則列出先後次序,而搜尋引擎會將結果以最快的時間回傳。

但是,網路上的資料量不但龐大,而且內容隨時都在變化,甚至同一個網頁的內容都會一天數變,因此,Google 就必須時時進行更新的動作,這個動作叫「爬行」(Crawling),而執行爬行動作的程式一般俗稱「爬蟲」(Crawler)或「網路蜘蛛」 (Spider),除了搜尋引擎之外,常見的應用還有比價系統,像是 FindPrice、背包客棧國際訂房中心比價等都是。

而 Google 之所以能成為其中的霸主,當然是有其過人之處。本篇文章就跟各位讀者簡單地分享一下 Google 所開發的三個核心技術:GFS、BigTable 與 MapReduce 演算法。 Read more »

[轉貼]Google 大神在 Big Data 應用上的技術與論文介紹,好神!

Posted in Big Data on April 2nd, 2014 by Banbanli

http://techorange.com/2013/05/14/big-data-beyond-mapreduce/

 

目前 Big Data 的相關應用有不少都是從 MapReduce 衍生而出的,但,若把焦點移到即時資料(Real-Time Data)的需求上時就會發現它的不足之處。

因此,本篇文章將與各位讀者分享,從 Google 發佈 GFS、Big Data 與 MapReduce 這些技術開始,到這些技術發展的現況與其所遭遇到的瓶頸,以及 Google 為了解決這些問題提出了哪些因應的技術。

  • MapReduce,GFS 與 Bigtable,帶動了 Big Data 應用技術的發展

Google 在 2003 年發表了第一篇論文 〈The Google File System〉。 文中敘述,GFS(Google File System)是一個分散式檔案系統,由數百個叢集(Cluster)所組成。簡單來說,儲存在 GFS 的檔案會被切割成  64 MB 左右的資料塊(Chunk),其利用重複的方式(Redundant Fashion)儲存在叢集中。 Read more »

[轉貼]Big Data 時代,我們需要有超越 Hadoop 和 MapReduce 的殺手級技術

Posted in Big Data on April 2nd, 2014 by Banbanli

http://techorange.com/2013/05/02/beyond-hadoop-next-generation-big-data-architectures/

 

過去 25 年來,位居主流地位的關聯式資料庫(Relational Databases),在雲端計算與 Big Data 的發展中突顯了其不足之處,所以在最近幾年受到了「NoSQL」發展的挑釁與威脅。

像 Facebook、Google、Twitter 等大型網路企業,為了解決大量的資料存取問題,紛紛捨棄了關聯式資料庫技術,改以其它的相關技術,如「NoSQL」或是「Not Only SQL」等技術,以提升處理資料的效能與擴充的彈性。

而在此變遷中,Hadoop 逐漸成為一個關鍵的重要角色。Hadoop 是 Apache 軟體基金會所發展的雲端計算技術,使用 Java 撰寫並免費開放原始碼,優點在於有良好的擴充性,程式部署快速等,同時能有效地分散系統的負荷。 Read more »

[轉貼]Hadoop 不是萬能,破除七大迷思讓你做好 Big Data/Cloud Analysis

Posted in Big Data on April 2nd, 2014 by Banbanli

http://techorange.com/2013/06/04/7-myths-on-big-data-avoiding-bad-hadoop-and-cloud-analytics-decisions/

Hadoop 是 Apache 軟體基金會(Apache Software Foundation)因應 Cloud Computing 與 Big Data 發展所開發出來的技術,Hadoop 使用 Java 撰寫,並免費開放原始碼,在此背景之下,就足以讓 Hadoop 在資訊技術發展史上占有一席之地。

像 Yahoo 就利用 Hadoop Framework 的技術,建立網頁索引資料庫的計算,同時使用 1 萬個 Linux 平台的處理器核心,處理 1 兆個網頁連結,從 4PB 的資料,運算得出 300TB 的索引數據。

然而,盛名之下必有所累 -- 關於 Hadoop 的應用迷思也隨之而起。而這些迷思可能會導致企業的資訊部門決策者一廂情願/過於樂觀地制定相關決策。 Read more »