Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.
CDH4->5 UPDATE
苦労話
Cloudera World Tokyo 2015
11/10 2015
山田 雄
ネットビジネス本部
ディベロップメントデザインユニット
アーキテクト1グループ
1.自己紹介
2.UPDATE方法
3.はまったポイント
4.まとめ
本日のアジェンダ
◾️ 山田 雄(ヤマダ ユウ)
株式会社 リクルートライフスタイル
ネットビジネス本部
アーキテクト1G
データ基盤T
Twitter:@nii_yan
Blog:イクジニアブログ
・ちょっと前までフリーランスエンジニア
縁があってリクルートラ...
UPDATE方法
既存システム構成
RDB
File
ETL RDB
CDH4
CMをyum updateして
parcelでバーンってやれば
CDH5に出来るけど怖いので・・・
検証環境
RDB
File
RDB
CDH4
CDH5
distcp
RDB
• distcpってなに?
⇨クラスタ間でデータ同期をできるrsyncのようなものです。
差分更新出来ます。
• どんなプロトコル使えるの?
⇨hftpとか、webhdfsとか、hdfsとか。
• 帯域制限出来るの?。
⇨bandwidthオプ...
はまったポイント
HBaseのデータコピーが辛い・・・
• HBaseのデータをクラスタ間でコピーするコマンドがCDH4と5の間では
使えなかった。
⇨Hiveのテーブルに1度loadしてからdistcpすることで対応。
HBaseのデータがコピー出来ない問題
Hiveが信用ならない・・・
• Left outer joinする際にsub query使うと、selectしたのと違うカラムが抽
出される(HIVE-9613)
⇨left outer joinする度に別名を使うようにすると回避出来る。
(CDH5.4.3まではBUGの...
• 以下の条件が揃う際にwhere句が効かない(CDH5.4.3以降は修正済み)
– 4つ以上のテーブルをleft outer joinでつなぐ
– 複数のkeyでjoinする(aidとbidとか)
– 複数のkeyのjoinを入れ子にする。(...
Oozieの変化についていけない・・・
• workflowのフォーマットが変わった。新しいフォーマットに移行すると、
設定していたパラメータなど消える。
⇨とりあえず旧フォーマットでも使えるので、そのままに。
• workflowのimport,export機能がなくなった。
⇨な...
CDHのUPDATEが早い
まとめ
UPDATEする際はきちんと検証しましょう
WE ARE
HIRING!!
リクリートライフスタイルでは一緒に働く仲間を募集しています。
http://engineer.recruit-lifestyle.co.jp/recruiting/
ご清聴ありがとうございました
Prochain SlideShare
Chargement dans…5
×

CDH4->5 update苦労話

2 812 vues

Publié le

CDH4から5への安全なUPDATEをどのように行ったか。どのような苦労をしたか。
(Cloudera World Tokyo 2015 LT資料)

山田 雄(リクルートライフスタイル)

Publié dans : Technologie
  • Soyez le premier à commenter

CDH4->5 update苦労話

  1. 1. CDH4->5 UPDATE 苦労話 Cloudera World Tokyo 2015 11/10 2015 山田 雄 ネットビジネス本部 ディベロップメントデザインユニット アーキテクト1グループ
  2. 2. 1.自己紹介 2.UPDATE方法 3.はまったポイント 4.まとめ 本日のアジェンダ
  3. 3. ◾️ 山田 雄(ヤマダ ユウ) 株式会社 リクルートライフスタイル ネットビジネス本部 アーキテクト1G データ基盤T Twitter:@nii_yan Blog:イクジニアブログ ・ちょっと前までフリーランスエンジニア 縁があってリクルートライフスタイルにお世話になることになった。 ビックデータ、Rubyが好き。 自己紹介
  4. 4. UPDATE方法
  5. 5. 既存システム構成 RDB File ETL RDB CDH4
  6. 6. CMをyum updateして parcelでバーンってやれば CDH5に出来るけど怖いので・・・
  7. 7. 検証環境 RDB File RDB CDH4 CDH5 distcp RDB
  8. 8. • distcpってなに? ⇨クラスタ間でデータ同期をできるrsyncのようなものです。 差分更新出来ます。 • どんなプロトコル使えるの? ⇨hftpとか、webhdfsとか、hdfsとか。 • 帯域制限出来るの?。 ⇨bandwidthオプションあります。 • なんか注意点は? ⇨異なるバージョン間でやるときはcrcchek方式違うことがあるので、 skipcrcchekオプション使いましょう。 distcp豆知識
  9. 9. はまったポイント
  10. 10. HBaseのデータコピーが辛い・・・
  11. 11. • HBaseのデータをクラスタ間でコピーするコマンドがCDH4と5の間では 使えなかった。 ⇨Hiveのテーブルに1度loadしてからdistcpすることで対応。 HBaseのデータがコピー出来ない問題
  12. 12. Hiveが信用ならない・・・
  13. 13. • Left outer joinする際にsub query使うと、selectしたのと違うカラムが抽 出される(HIVE-9613) ⇨left outer joinする度に別名を使うようにすると回避出来る。 (CDH5.4.3まではBUGの再現を確認。それ以降は未確認) Hiveカラムずれ問題
  14. 14. • 以下の条件が揃う際にwhere句が効かない(CDH5.4.3以降は修正済み) – 4つ以上のテーブルをleft outer joinでつなぐ – 複数のkeyでjoinする(aidとbidとか) – 複数のkeyのjoinを入れ子にする。(aidでjoinの後にbidでjoinしてから aidでjoinの様に) – どこかのon句にkeyのjoin以外の条件を追加 – 入れ子にした後のテーブルのカラムでwhere句を生成 ⇨keyのjoinの順番を変える事で対応 Hive where句効かない問題
  15. 15. Oozieの変化についていけない・・・
  16. 16. • workflowのフォーマットが変わった。新しいフォーマットに移行すると、 設定していたパラメータなど消える。 ⇨とりあえず旧フォーマットでも使えるので、そのままに。 • workflowのimport,export機能がなくなった。 ⇨なくなった・・・ CDH5で復活するかも?? • HiveのjobでHiveQLが書いてあるファイル内のhiveconfが使えなくなった。 ⇨hivevarにするか、workflowのパラメータで設定。 Oozieのworkflowが色々変わった
  17. 17. CDHのUPDATEが早い
  18. 18. まとめ
  19. 19. UPDATEする際はきちんと検証しましょう
  20. 20. WE ARE HIRING!! リクリートライフスタイルでは一緒に働く仲間を募集しています。 http://engineer.recruit-lifestyle.co.jp/recruiting/
  21. 21. ご清聴ありがとうございました

×