《Cloudera授權(quán)Apache Hadoop分析師認(rèn)證培訓(xùn)》課程詳情
點(diǎn)擊下載課大綱及報(bào)名表
課程綜述
Cloudera授權(quán)Apache Hadoop數(shù)據(jù)分析師培訓(xùn)為期三天,課程聚焦于Apache Pig、Hive及Cloudera Impala。將向?qū)W員教授如何在大數(shù)據(jù)中運(yùn)用觸痛的數(shù)據(jù)分析及商業(yè)智能技能。課程為大數(shù)據(jù)專家講解了能夠使用SQL和類似腳本語言來訪問、維護(hù)及分析復(fù)雜數(shù)據(jù)集的工具。
Hadoop的實(shí)驗(yàn)操作:
通過將講師的分享、討論與動(dòng)手實(shí)驗(yàn)相結(jié)合,學(xué)員將探索Hadoop生態(tài)系統(tǒng)的所有領(lǐng)域,學(xué)習(xí)的課題如下:
-Apache Hadoop基礎(chǔ)及使用Hadoop工具進(jìn)行數(shù)據(jù)ETL(抽取、轉(zhuǎn)換、裝載)、提取及處理
-使用Pig關(guān)聯(lián)多個(gè)數(shù)據(jù)集并分析不同的數(shù)據(jù)
-利用Hive實(shí)現(xiàn)在表中組織數(shù)據(jù)、完成轉(zhuǎn)換并簡(jiǎn)化復(fù)雜查詢
-使用Impala實(shí)現(xiàn)對(duì)保存在HDFS或HBase中的大數(shù)據(jù)集進(jìn)行基于SQL的實(shí)時(shí)交互式分析
-在Hadoop中針對(duì)特定的任務(wù)如何選取最佳的工具
內(nèi)容綱要
*簡(jiǎn)介
-關(guān)于課程
-關(guān)于Cloudera
-課程邏輯
*Hadoop基礎(chǔ)
-Hadoop概述
-HDFS
-MapReduce
-Hadoop生態(tài)系統(tǒng)
-實(shí)驗(yàn)場(chǎng)景
*Pig概述
-什么是Pig
-Pig的功能
-Pig使用案例
-與Pig交互
*HBase的概念
-HBase的基本概念
-使用HBase
*使用Pig做基本數(shù)據(jù)分析
-Pig的拉丁語法
-裝載數(shù)據(jù)
-簡(jiǎn)單數(shù)據(jù)類型
-字段定義
-數(shù)據(jù)輸出
-查看Schema
-數(shù)據(jù)過濾及排序
-常用函數(shù)
*使用Pig處理復(fù)雜數(shù)據(jù)
-存儲(chǔ)格式
-復(fù)雜/嵌套數(shù)據(jù)類型
-分組
-關(guān)于復(fù)雜數(shù)據(jù)的內(nèi)置函數(shù)
-分組數(shù)據(jù)迭代
*使用Pig操作多數(shù)據(jù)集
-數(shù)據(jù)集組合技術(shù)
-在Pig中關(guān)聯(lián)數(shù)據(jù)集
-設(shè)置操作
-分割數(shù)據(jù)集
*擴(kuò)展Pig
-通過參數(shù)提升靈活性
-宏與導(dǎo)入
-UDFs
-分布函數(shù)
-在Pig中利用其它語言處理數(shù)據(jù)
*Pig故障分析與優(yōu)化
-Pig故障分析
-日志
-使用Hadoop的web UI
-數(shù)據(jù)采樣與調(diào)試
-性能概述
-理解執(zhí)行計(jì)劃
-提升Pig作業(yè)性能的提示
*Hive簡(jiǎn)介
-什么是Hive
-Hive Schema及數(shù)據(jù)存儲(chǔ)
-Hive與傳統(tǒng)關(guān)系型數(shù)據(jù)庫管理系統(tǒng)的對(duì)比
-Hive vs Pig
-Hive用戶案例
-Hive迭代
*使用Hive分析關(guān)系型數(shù)據(jù)
-Hive數(shù)據(jù)庫及表
-基本HiveQL語法
-數(shù)據(jù)類型
-關(guān)聯(lián)數(shù)據(jù)集
-常用內(nèi)置函數(shù)
*Hive數(shù)據(jù)管理
-Hive數(shù)據(jù)格式
-創(chuàng)建數(shù)據(jù)庫和Hive管理表
-將數(shù)據(jù)裝載到Hive
-變更數(shù)據(jù)庫和表
-自管理表
-使用視圖簡(jiǎn)化查詢
-保存查詢結(jié)果
-控制數(shù)據(jù)訪問
*使用Hive處理文本
-文本處理概述
-重要的字符串函數(shù)
-在Hive中使用正則表達(dá)式
-情緒分析及N-Grams
*Hive優(yōu)化
-理解查詢性能
-控制作業(yè)執(zhí)行計(jì)劃
-分區(qū)
-Bucketing
-數(shù)據(jù)索引
*擴(kuò)展Hive
-SerDes
-使用定制腳本傳輸數(shù)據(jù)
-用戶定義的函數(shù)
-參數(shù)化查詢
*Impala簡(jiǎn)介
-什么是Impala
-Impala與Hive及Pig的區(qū)別
-Impala與關(guān)系型數(shù)據(jù)庫的區(qū)別
-限制與未來的方向
-使用Impala shell
*使用Impala分析數(shù)據(jù)
-基本語法
-數(shù)據(jù)類型
-過濾、排序和結(jié)果限定
-數(shù)據(jù)關(guān)聯(lián)與分組
-提升Impala性能
*針對(duì)作業(yè)選擇最佳工具
-對(duì)比MapReduce、Pig、Hive、Impala及關(guān)系型數(shù)據(jù)庫
-如何選擇?
目標(biāo)學(xué)員
本課程適合于具有使用SQL和Unix或Linux基本命令經(jīng)歷的數(shù)據(jù)分析師、業(yè)務(wù)分析師、開發(fā)人員和系統(tǒng)管理員,并不要求已經(jīng)具有Java和Apache Hadoop的知識(shí)。
《Cloudera授權(quán)Apache Hadoop分析師認(rèn)證培訓(xùn)》所屬分類
綜合管理
《Cloudera授權(quán)Apache Hadoop分析師認(rèn)證培訓(xùn)》授課培訓(xùn)師簡(jiǎn)介