麻豆黑色丝袜jk制服福利网站-麻豆精品传媒视频观看-麻豆精品传媒一二三区在线视频-麻豆精选传媒4区2021-在线视频99-在线视频a

千鋒教育-做有情懷、有良心、有品質的職業教育機構

手機站
千鋒教育

千鋒學習站 | 隨時隨地免費學

千鋒教育

掃一掃進入千鋒手機站

領取全套視頻
千鋒教育

關注千鋒學習站小程序
隨時隨地免費學習課程

當前位置:首頁  >  應聘面試  >  大數據面試題  > 大數據面試題:分區和分桶

大數據面試題:分區和分桶

來源:千鋒教育
發布人:syq
時間: 2022-06-21 16:57:00 1655801820

  一、分區

  指的就是將數據按照表中的某一個字段進行統一歸類,并存儲在表中的不同的位置,也就是說,一個分區就是一類,這一類的數據對應到hdfs存儲上就是對應一個目錄。

  1.靜態分區

  數據已經按某些字段分完區放在一塊,建表時直接指定分區即可。

  create table entercountrypeople(id int,name string,cardNum string)

  partitioned by (enter_date string,country string);

  注意,這里的分區字段不能包含在表定義字段中,因為在向表中load數據的時候,需要手動指定該字段的值.

  2.數據加載(指定分區):

  load data inpath '/hadoop/guozy/data/enter_chinapeople' into table entercountrypeople partition (enter_date='2019-01-02',country='china');

  此處自動創建分區目錄;

111

  創建完后目錄結構:

 

  其他創建分區目錄的方法:

  1)alter table entercountrypeople add if not exists partition (enter_date='2019-01-03',country='US');

  2)在相應的表目錄下創建分區目錄后,執行 msck repair table table_name;

  2.動態分區

  建表相同,主要是加載數據方式不同,動態分區是將大雜燴數據自動加載到不同分區目錄。

  1)開啟非嚴格模式

  2)要從另一張hive表查詢

  set hive.exec.dynamic.partition.mode=nonstrict;

  insert into table entercountrypeople(user string,age int) partition(enterdate,country) select user,age,enterdate,country from entercountrypeople_bak;

  二、分桶表

  如果兩個表根據相同的字段進行分桶,則在對這兩個表進行關聯的時候可以使用map-side關聯高效實現

  create table user_bucket(id int comment 'ID',name string comment '姓名',age int comment '年齡') comment '測試分桶' clustered by (id) sorted by (id) into 4 buckets row format delimited fields terminated by '\t';

  指定根據id字段進行分桶,并且分為4個桶,并且每個桶內按照id字段升序排序,如果不加sorted by,則桶內不經過排序的,上述語句中為id,根據id進行hash之后在對分桶數量4進行取余來決定該數據存放在哪個桶中,因此每個桶都是整體數據的隨機抽樣。

  數據載入:

  我們需要借助一個中間表,先將數據load到中間表中,然后通過insert的方式來向分桶表中載入數據。

  create table tmp_table (id int comment 'ID',name string comment '名字',age int comment '年齡') comment '測試分桶中間表' ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;

  load data inpath '/hadoop/guoxb/data/user.txt' into table tmp_table;

  insert into userbucket select * from tmptable;

  上述的語句中,最終會在hdfs上生成四個文件,而不是四個目錄,如果當在次向該分桶表中insert數據后,會又增加4個文件,而不是在原來的文件上進行追加。

  三、區別

  1.hdfs目錄結構不同,分區是生成目錄,分桶是生成文件

  2.分區表在加載數據的時候可以指定加載某一部分數據,有利于查詢

  3.分桶在map-side join(另一種 reduce-side join)查詢時,可以直接從bucket(兩表分桶成倍數即可)中提取數據進行關聯操作,查詢高效。

  更多關于“大數據培訓”的問題,歡迎咨詢千鋒教育在線名師。千鋒教育多年辦學,課程大綱緊跟企業需求,更科學更嚴謹,每年培養泛IT人才近2萬人。不論你是零基礎還是想提升,都可以找到適合的班型,千鋒教育隨時歡迎你來試聽。

tags:
聲明:本站稿件版權均屬千鋒教育所有,未經許可不得擅自轉載。
10年以上業內強師集結,手把手帶你蛻變精英
請您保持通訊暢通,專屬學習老師24小時內將與您1V1溝通
免費領取
今日已有369人領取成功
劉同學 138****2860 剛剛成功領取
王同學 131****2015 剛剛成功領取
張同學 133****4652 剛剛成功領取
李同學 135****8607 剛剛成功領取
楊同學 132****5667 剛剛成功領取
岳同學 134****6652 剛剛成功領取
梁同學 157****2950 剛剛成功領取
劉同學 189****1015 剛剛成功領取
張同學 155****4678 剛剛成功領取
鄒同學 139****2907 剛剛成功領取
董同學 138****2867 剛剛成功領取
周同學 136****3602 剛剛成功領取
相關推薦HOT
主站蜘蛛池模板: 日韩三级免费看| 国产嫩草在线观看| 黄色三级免费电影| 热99re久久免费视精品频软件| 国产交换配偶在线视频| 在线视频一二三区2021不卡| 国产精品扒开做爽爽爽的视频| 日本三级午夜理伦三级三| 村上凉子丰满禁断五十路| 男乱女| 永久免费bbbbbb视频| 香港台湾日本三级纶理在线视 | 正在播放宾馆露脸对白视频| 国产一区二区在线视频| 国产女人好紧好爽| 含羞草实验室入口免费网站直接 | 亚洲国产日韩欧美一区二区三区| 琪琪色在线观看| 国产剧果冻传媒星空在线播放| 国产女人18毛片水真多18精品| 无翼乌全彩无漫画大全| 女人让男人直接桶| 中文字幕校园春色| 国产一级做a爰片久久毛片| 国产精品9999久久久久| 里番牝教师~淫辱yy608| 么公的好大好深视频好爽想要| 里番库全彩本子彩色h可知子| 国产卡1卡2卡三卡在线| 狠狠色综合网站久久久久久久| 快穿之肉玩具系统| 美女扒开胸罩| 一二三四视频社区在线| 91久久香蕉| 国产精品一区二区久久精品涩爱| 久久久国产99久久国产久| 国产盗摄女厕美女嘘嘘在线观看| 久久久91精品国产一区二区三区| 久久综合九色综合网站| a级毛片视频| 美女把尿口扒开让男人添|