發表文章

目前顯示的是 1月, 2015的文章

[TRACE] org.apache.hadoop.hbase.regionserver

在trace  org.apache.hadoop.hbase.util.Merge 時, 我們看到了這個merge的工具使用HRegion.merge()的方式, 把兩個Region合併成一個, 為了更進一步了解merge的流程, 我們繼續trace HRegion.merge()的程式碼, 並把HRegion程式碼中, 和merge相關的地方找出來, HRegion.merge()是一個兩個變數的函式, 輸出為合併後的Region, HRegion.merge()輸入和輸出都是 HRegion 的格式, 使用方法如下: HRegion merged = null; HRegion r1 = HRegion.openHRegion(info1, htd, utils.getLog(info1), getConf()); HRegion r2 = HRegion.openHRegion(info2, htd, utils.getLog(info2), getConf()); merged = HRegion.merge(r1, r2);

[TRACE] org.apache.hadoop.hbase.util.Merge

org.apache.hadoop.hbase.util.Merge, 是在hbase 0.94版本中用來實現Region合併的工具, 使用方式如下: $ ./bin/hbase org.apache.hadoop.hbase.util.Merge Usage: bin/hbase merge <table-name> <region-1> <region-2>

Compactions in hbase

圖片
在hbase中, compaction指的是將較小的StoreFile, 也就是被刷到硬碟的MenStore, 合併成較大的StoreFile, 以保證保證查詢效率, 這個過程就稱之為compaction.

hbase表格設計

(問題)  對於hbase的架構而言, 怎樣的表格是好的表格呢? (方法) 在hbase中,表格由row-key和column-family組成, 對於一個好的row-key設計, 最重要的就是: 對於表格的存取, 必須是平均分配, 而不集中於部分區塊.

hadoop介紹

圖片
hadoop為一個雲端運算框架. 在雲端的分類中,hadoop屬於PaaS(Platform as a Service), 也就是說hadoop在雲端上提供一個運算的框架,提供使用者計算模型與資料儲存, 方便使用者直接存取大量分散式的虛擬機資源. hadoop一共提供兩種服務, 一個是分散式的資料儲存(HDFS, hadoop distributed file system), 另一種則是基於HDFS的平行運算架構,MapReduce. 在接下來的文章中, 我們將非常簡短的介紹一下HDFS和MapReduce.

在hbase中load balancing機制(2)

(問題) hbase是如何執行load balancing的呢? (方法) 在 上一篇文章 中, 我們介紹了hbase 0.94的load balancing技術, 接著,在這一篇文章中, 我們將介紹load balancing在0.96版本中的改變,

在hbase中load balancing機制(1)

(問題) hbase是如何執行load balancing的呢? (方法) 在介紹hbase 0.96的load balancing機制前, 先簡略的提及一下hbase 0.94的load balancing機制.

從hbase 0.94到0.96的改變

在hbase中,由於是開源的開發系統, 因此,在不同hbase版本間,容易出現相依性的問題. 以所使用的hbase 0.94.x系統為例, 若是要升級為0.96的hbase系統,將必須做出甚麼改變呢?

將hbase中的RegionServer移除(2)

(問題) 如何將hbase中的RegionServer移除? (方法) 在上一篇文章中,我們介紹了如何使用graceful_stop.sh的腳本, 關閉RegionServer並將上面的Region一一搬移, 相同的程序,該如何用java的程式來執行呢?

將hbase中的RegionServer移除(1)

(問題) 如何將hbase中的RegionServer移除? (方法) 在hbase中,RegionServer扮演提供Region存取的角色, 若是要關閉一個使用中的RegionServer應該怎麼做呢?

取得hbase 0.94.x 的系統資訊(3)

(問題) 在hbase 0.94.x版本中,如何取得hbase叢集的現況? (整理) 在這一篇文章中,我們拿出一些hbase 0.94.x中api的內容, 總結hbase叢集管理中,能夠獲得的資訊:

取得hbase 0.94.x 的系統資訊(2)

(問題) 在hbase 0.94.x版本中,如何取得hbase叢集的現況? (方法) 在hbase 0.94.x中,可以透過兩種方法取得hbase叢集的現狀. 第二個方法是透過java api的方式.

取得hbase 0.94.x 的系統資訊(1)

(問題) 在hbase 0.94.x版本中,如何取得hbase叢集的現況? (方法) 在hbase 0.94.x中,可以透過兩種方法取得hbase叢集的現狀. 第一個方法是透過hbase shell的方式.

在 ubuntu 中關閉 IPV6

(問題) 如何關閉ubuntu中IPV6的功能? (方法) 在一些應用中(如:hadoop)不支援IPV6, 因此,必須在安裝強先把預設的IPV6功能關閉.指令如下:

在ubuntu中設定hostname

(問題) 在ubuntu中,如何設定並且更改hostname? (方法) hostname是Linux中機器的識別方式, 在ubuntu中,hostname存放的位置為/opt/ect/hostname,

增加ubuntu使用者

(問題) 如何增加一個ubuntu中的使用者? (方法) 首先,問題是為什麼要增加一個新的使用者? 在作業系統中(包括Windows和Linux),為了安全性管理, 不同的使用者,擁有不同的存取權限, 為什麼要設定權限呢?這是考量到系統的安全性. 將hadoop的程式安裝獨立於其他使用者,能夠減少資料被錯誤取用的狀況.

在ubuntu上安裝oracle Java

(問題) 如何在ubuntu上透過指令的方式安裝oracle Java? (方法) 因為版權的問題,ubuntu不能直接透過apt-get的方式安裝oracle Java, 若是我們仍想要透過指令安裝oracle Java, 則必須先將webupd8team的位址加入ubuntu更新的來源中.