Flume:構建高可用、可擴展的海量日志采集系統

Flume:構建高可用、可擴展的海量日志采集系統
定價:414
NT $ 414
 

內容簡介

本書從Flume 的基本概念和設計原理開始講解,分別介紹了不同種類的組件、如何配置組件、如何運行Flume Agent 等。同時,分別討論Source、Channel 和Sink 三種核心組件,不僅僅闡述每個組件的基本概念,而且結合實際的編程案例,深入、全面地介紹每個組件的詳細用法,並且這部分內容也是整個Flume 框架的重中之重。之后,講解攔截器、Channel選擇器、Sink 組和Sink 處理器等內容,它們為Flume 提供靈活的擴展支持。最后,介紹了Flume 的高級使用,如何使用Flume 軟件開發工具集(SDK)和Embedded Agent API,如何設計、部署和監控Flume 生產集群。

總而言之,本書是一本理論結合實戰,深度、廣度兼備的海量日志采集系統的著作。
 

目錄

譯者序

前言

第1章 認識Apache Hadoop和Apache HBase
分布式文件系統HDFS
HDFS的數據格式
處理HDFS中的數據
Apache HBase
總結
參考文獻

第2章 用Apache Flume處理流數據
我們需要Flume
F1ume是否適合呢?
Flume Agent內部原理
配置Flume Agent
Flume Agent之間的相互通信
復雜的流
復制數據到不同目的地
動態路由
Flume的無數據丟失保證,Channel和事務
Flume Channel中的事務
Agent失敗和數據丟失
批量的重要性
重復怎麼樣?
運行Flume Agent
總結
參考文獻

第3章 源(Source)
Source的生命周期
Sink-to-Source通信
Avro Source
Thrift Source
RPC Sources的失敗處理
HTTP Source
針對HTTP Source寫處理程序*
Spooling Directory Source
使用Deserializers讀取自定義格式*
Spooling Directory Source性能
Syslog Source
Exec Source
JMS Source
轉換JMS消息為Flume事件*
編寫自定義Source*
Event-Driven Source和Pollable Source
總結
參考文獻

第4章 Channel
事務工作流
F1ume自帶的Channel
Memory Channel
File Channel
總結
參考文獻

第5章 Sink
Sink的生命周期
優化Sink的性能
寫入到HDFS:HDFS Sink
理解Bucket
配置HDFS Sink
使用序列化器控制數據格式*
HBase Sink
用序列化器將Flume事件轉換成HBase Put和Increment*
RPC Sink
Avro Sink
Thrift Sink
Morphline Solr Sink
Elastic Search Sink
自定義數據格式*
其他Sink:Null Sink、Rolling File Sink和Logger Sink
編寫自定義Sink*
總結
參考文獻

第6章 攔截器、Channel選擇器、Sink組和Sink處理器
攔截器
時間戳攔截器
主機攔截器
靜態攔截器
正則過濾攔截器
Morphline攔截器
UUID攔截器
編寫攔截器
Channel選擇器
復制Channel選擇器
多路復用Channel選擇器
自定義Channel選擇器
Sink組和Sink處理器
Load-Balancing Sink處理器
Failover Sink處理器
總結
參考文獻

第7章 發送數據到Flume
構建Flume事件
Flume客戶端SDK
創建Flume RPC客戶端
RPC客戶端接口
所有RPC客戶端的公共配置參數
默認RPC客戶端
Load-Balancing RPC客戶端
Failover RPC客戶端
Thrift RPC客戶端
嵌入式Agent
配置嵌入式Agent
log4j Appender
Load-Balancing log4j Appender
總結
參考文獻

第8章 規划、部署和監控Flume
規划一個Flume部署
修復時間
我的Flume Channel需要多少容量?
多少層?
通過跨數據中心鏈接發送數據
層分片
部署Flume
部署自定義代碼
監控Flume
從自定義組件報告度量
總結
參考文獻

索引
網路書店 類別 折扣 價格
  1. 新書
    $414