Banbanli's Blog

[轉貼]雲端運算平台—Hadoop

Posted in Big Data on April 2nd, 2014 by Banbanli

http://www.cc.ntu.edu.tw/chinese/epaper/0011/20091220_1106.htm

作者：周秉誼 / 臺灣大學計算機及資訊網路中心作業管理組碩士後研究人員

雲端運算是資料中心因應網路上資訊暴增而提出的服務及管理思維，資訊服務提供者投入資源進行雲端運算的服務及架構開發，Google可說是最大量使用雲端運算的組織之一。Hadoop就是由Google雲端架構得到啟發而開始的開放原始碼計劃，目前有許多組織參與Hadoop的研究開發，並以Hadoop 做為雲端運算的平台。

前言
隨著網際網路 (Internet) 的發展，及web2.0概念被提出，網路使用者的行為也由單純的瀏覽轉變為創作與分享；另外，行動式的資訊設備也越來越多，為了方便分享及取用，使用者們把資料從個人的電腦中轉移到web服務提供者的資料中心 (Data Center)；而服務提供者為了提供更穩定更迅速的服務，也需要一個新的服務架構，將運算資源及儲存空間更有效率的利用，同時提供服務開發人員更便利的開發環境。 Read more »

Leave A Comment »

[轉貼]Google 為什麼能在 0.15 秒找到數十萬筆資料？認識搜尋霸主的核心技術

Posted in Big Data on April 2nd, 2014 by Banbanli

http://techorange.com/2013/05/07/meet-google-search-engines-technique/

當你在瀏覽器上輸入想要搜尋的字串時，Google 會檢視數十億個網頁，並依據索引值從中找出內容相符合的網頁，再依據相關的規則列出先後次序，而搜尋引擎會將結果以最快的時間回傳。

但是，網路上的資料量不但龐大，而且內容隨時都在變化，甚至同一個網頁的內容都會一天數變，因此，Google 就必須時時進行更新的動作，這個動作叫「爬行」（Crawling），而執行爬行動作的程式一般俗稱「爬蟲」（Crawler）或「網路蜘蛛」（Spider），除了搜尋引擎之外，常見的應用還有比價系統，像是 FindPrice、背包客棧國際訂房中心比價等都是。

而 Google 之所以能成為其中的霸主，當然是有其過人之處。本篇文章就跟各位讀者簡單地分享一下 Google 所開發的三個核心技術：GFS、BigTable 與 MapReduce 演算法。 Read more »

Leave A Comment »

[轉貼]Google 大神在 Big Data 應用上的技術與論文介紹，好神！

Posted in Big Data on April 2nd, 2014 by Banbanli

http://techorange.com/2013/05/14/big-data-beyond-mapreduce/

目前 Big Data 的相關應用有不少都是從 MapReduce 衍生而出的，但，若把焦點移到即時資料（Real-Time Data）的需求上時就會發現它的不足之處。

因此，本篇文章將與各位讀者分享，從 Google 發佈 GFS、Big Data 與 MapReduce 這些技術開始，到這些技術發展的現況與其所遭遇到的瓶頸，以及 Google 為了解決這些問題提出了哪些因應的技術。

MapReduce，GFS 與 Bigtable，帶動了 Big Data 應用技術的發展

Google 在 2003 年發表了第一篇論文〈The Google File System〉。文中敘述，GFS（Google File System）是一個分散式檔案系統，由數百個叢集（Cluster）所組成。簡單來說，儲存在 GFS 的檔案會被切割成 64 MB 左右的資料塊（Chunk），其利用重複的方式（Redundant Fashion）儲存在叢集中。 Read more »

Leave A Comment »

[轉貼]Big Data 時代，我們需要有超越 Hadoop 和 MapReduce 的殺手級技術

Posted in Big Data on April 2nd, 2014 by Banbanli

http://techorange.com/2013/05/02/beyond-hadoop-next-generation-big-data-architectures/

過去 25 年來，位居主流地位的關聯式資料庫（Relational Databases），在雲端計算與 Big Data 的發展中突顯了其不足之處，所以在最近幾年受到了「NoSQL」發展的挑釁與威脅。

像 Facebook、Google、Twitter 等大型網路企業，為了解決大量的資料存取問題，紛紛捨棄了關聯式資料庫技術，改以其它的相關技術，如「NoSQL」或是「Not Only SQL」等技術，以提升處理資料的效能與擴充的彈性。

而在此變遷中，Hadoop 逐漸成為一個關鍵的重要角色。Hadoop 是 Apache 軟體基金會所發展的雲端計算技術，使用 Java 撰寫並免費開放原始碼，優點在於有良好的擴充性，程式部署快速等，同時能有效地分散系統的負荷。 Read more »

Leave A Comment »

[轉貼]Hadoop 不是萬能，破除七大迷思讓你做好 Big Data／Cloud Analysis

Posted in Big Data on April 2nd, 2014 by Banbanli

http://techorange.com/2013/06/04/7-myths-on-big-data-avoiding-bad-hadoop-and-cloud-analytics-decisions/

Hadoop 是 Apache 軟體基金會（Apache Software Foundation）因應 Cloud Computing 與 Big Data 發展所開發出來的技術，Hadoop 使用 Java 撰寫，並免費開放原始碼，在此背景之下，就足以讓 Hadoop 在資訊技術發展史上占有一席之地。

像 Yahoo 就利用 Hadoop Framework 的技術，建立網頁索引資料庫的計算，同時使用 1 萬個 Linux 平台的處理器核心，處理 1 兆個網頁連結，從 4PB 的資料，運算得出 300TB 的索引數據。

然而，盛名之下必有所累－－關於 Hadoop 的應用迷思也隨之而起。而這些迷思可能會導致企業的資訊部門決策者一廂情願／過於樂觀地制定相關決策。 Read more »

M	T	W	T	F	S	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Banbanli's Blog

[轉貼]雲端運算平台—Hadoop

[轉貼]Google 為什麼能在 0.15 秒找到數十萬筆資料？認識搜尋霸主的核心技術

[轉貼]Google 大神在 Big Data 應用上的技術與論文介紹，好神！

[轉貼]Big Data 時代，我們需要有超越 Hadoop 和 MapReduce 的殺手級技術

[轉貼]Hadoop 不是萬能，破除七大迷思讓你做好 Big Data／Cloud Analysis

十大葡萄品種

這就是敝team 的sales

Garmin 7190 Video trancodeing setting

Links

Palm

Photo

Wine

Archives

Recent Comments

Meta

Links

Palm

Photo

Wine

Archives

Recent Comments

Tags

Meta