[轉貼]雲端運算平台—Hadoop

Posted in Big Data on April 2nd, 2014 by Banbanli

http://www.cc.ntu.edu.tw/chinese/epaper/0011/20091220_1106.htm

 

作者:周秉誼 / 臺灣大學計算機及資訊網路中心作業管理組碩士後研究人員


雲端運算是資料中心因應網路上資訊暴增而提出的服務及管理思維,資訊服務提供者投入資源進行雲端運算的服務及架構開發,Google可說是最大量使用雲端 運算的組織之一。Hadoop就是由Google雲端架構得到啟發而開始的開放原始碼計劃,目前有許多組織參與Hadoop的研究開發,並以Hadoop 做為雲端運算的平台。

前言
隨著網際網路 (Internet) 的發展,及web2.0概念被提出,網路使用者的行為也由單純的瀏覽轉變為創作與分享;另外,行動式的資訊設備也越來越多,為了方便分享及取用,使用者們把資料從個人的電腦中轉移到web服務提供者的資料中心 (Data Center);而服務提供者為了提供更穩定更迅速的服務,也需要一個新的服務架構,將運算資源及儲存空間更有效率的利用,同時提供服務開發人員更便利的開發環境。 Read more »

[轉貼]Google 為什麼能在 0.15 秒找到數十萬筆資料?認識搜尋霸主的核心技術

Posted in Big Data on April 2nd, 2014 by Banbanli

http://techorange.com/2013/05/07/meet-google-search-engines-technique/

 

當你在瀏覽器上輸入想要搜尋的字串時,Google 會檢視數十億個網頁,並依據索引值從中找出內容相符合的網頁,再依據相關的規則列出先後次序,而搜尋引擎會將結果以最快的時間回傳。

但是,網路上的資料量不但龐大,而且內容隨時都在變化,甚至同一個網頁的內容都會一天數變,因此,Google 就必須時時進行更新的動作,這個動作叫「爬行」(Crawling),而執行爬行動作的程式一般俗稱「爬蟲」(Crawler)或「網路蜘蛛」 (Spider),除了搜尋引擎之外,常見的應用還有比價系統,像是 FindPrice、背包客棧國際訂房中心比價等都是。

而 Google 之所以能成為其中的霸主,當然是有其過人之處。本篇文章就跟各位讀者簡單地分享一下 Google 所開發的三個核心技術:GFS、BigTable 與 MapReduce 演算法。 Read more »

[轉貼]Google 大神在 Big Data 應用上的技術與論文介紹,好神!

Posted in Big Data on April 2nd, 2014 by Banbanli

http://techorange.com/2013/05/14/big-data-beyond-mapreduce/

 

目前 Big Data 的相關應用有不少都是從 MapReduce 衍生而出的,但,若把焦點移到即時資料(Real-Time Data)的需求上時就會發現它的不足之處。

因此,本篇文章將與各位讀者分享,從 Google 發佈 GFS、Big Data 與 MapReduce 這些技術開始,到這些技術發展的現況與其所遭遇到的瓶頸,以及 Google 為了解決這些問題提出了哪些因應的技術。

  • MapReduce,GFS 與 Bigtable,帶動了 Big Data 應用技術的發展

Google 在 2003 年發表了第一篇論文 〈The Google File System〉。 文中敘述,GFS(Google File System)是一個分散式檔案系統,由數百個叢集(Cluster)所組成。簡單來說,儲存在 GFS 的檔案會被切割成  64 MB 左右的資料塊(Chunk),其利用重複的方式(Redundant Fashion)儲存在叢集中。 Read more »

[轉貼]Big Data 時代,我們需要有超越 Hadoop 和 MapReduce 的殺手級技術

Posted in Big Data on April 2nd, 2014 by Banbanli

http://techorange.com/2013/05/02/beyond-hadoop-next-generation-big-data-architectures/

 

過去 25 年來,位居主流地位的關聯式資料庫(Relational Databases),在雲端計算與 Big Data 的發展中突顯了其不足之處,所以在最近幾年受到了「NoSQL」發展的挑釁與威脅。

像 Facebook、Google、Twitter 等大型網路企業,為了解決大量的資料存取問題,紛紛捨棄了關聯式資料庫技術,改以其它的相關技術,如「NoSQL」或是「Not Only SQL」等技術,以提升處理資料的效能與擴充的彈性。

而在此變遷中,Hadoop 逐漸成為一個關鍵的重要角色。Hadoop 是 Apache 軟體基金會所發展的雲端計算技術,使用 Java 撰寫並免費開放原始碼,優點在於有良好的擴充性,程式部署快速等,同時能有效地分散系統的負荷。 Read more »

[轉貼]Hadoop 不是萬能,破除七大迷思讓你做好 Big Data/Cloud Analysis

Posted in Big Data on April 2nd, 2014 by Banbanli

http://techorange.com/2013/06/04/7-myths-on-big-data-avoiding-bad-hadoop-and-cloud-analytics-decisions/

Hadoop 是 Apache 軟體基金會(Apache Software Foundation)因應 Cloud Computing 與 Big Data 發展所開發出來的技術,Hadoop 使用 Java 撰寫,並免費開放原始碼,在此背景之下,就足以讓 Hadoop 在資訊技術發展史上占有一席之地。

像 Yahoo 就利用 Hadoop Framework 的技術,建立網頁索引資料庫的計算,同時使用 1 萬個 Linux 平台的處理器核心,處理 1 兆個網頁連結,從 4PB 的資料,運算得出 300TB 的索引數據。

然而,盛名之下必有所累 -- 關於 Hadoop 的應用迷思也隨之而起。而這些迷思可能會導致企業的資訊部門決策者一廂情願/過於樂觀地制定相關決策。 Read more »

十大葡萄品種

Posted in Daily on February 10th, 2014 by Banbanli

20140210-205455.jpg

這就是敝team 的sales

Posted in Daily on February 10th, 2014 by Banbanli

唉~
sales-2014-0210

Garmin 7190 Video trancodeing setting

Posted in Daily on October 7th, 2013 by Banbanli

Garmin_Video_Transcode_setting