More Related Content Similar to DeNAインフラの今とこれから - 今編 - (20) DeNAインフラの今とこれから - 今編 -1. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DeNA TechCon 2016
DeNAインフラの今と
これから
- 今編 -
Jan 29, 2016
Tomoya KABE
Gr. 2, IT Platform Dept, System Head Office
DeNA Co., Ltd.
2. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
$me->describe
⁃ 加辺 友也 a.k.a. @limitusus
⁃ 2012/04新卒入社
⁃ 所属: IT基盤部
⁃ 一貫してサーバインフラ周りを担当
⁃ よく見ているミドルウェア
• Apache, nginx, MySQL, Redis, memcached
⁃ よく使っている言語
• Perl, C, Python, (x86)
2
3. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
前半で話すこと
⁃ DeNAインフラ概況
⁃ サーバ構築の話
⁃ キャパシティ管理
⁃ 障害対応/プロファイリングツール
⁃ オンプレミスとクラウド
3
5. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DeNAインフラ体制
5
IT基盤部
1G 2G Network
Mobile
Service
Cura8on
YDB
HealthCare
EC
IPPF
Mobage
PF
OpenPF
Game
AutoMo8ve
Network
インフラを担当する部署は1箇所
全事業部横断で担当し知見を共有している
infosys
6. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
サーバ概要
⁃ サーバ数: 4000+
⁃ DRしているので実際の必要台数は1/2
⁃ AWSも一部サービスで利用
⁃ コモディティサーバを利用
⁃ ネットワークトラフィック
⁃ 13Gbps
⁃ コストを意識した運用
⁃ サーバ1台あたりの性能を可能な限り使い切る
6
8. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
mbgaclone
⁃ オンプレミス用サーバコピーツール
⁃ AWSでのAMIからinstanceを作るものに近いイメージ
⁃ 実装は各vendor用Management Interface + PXE + anaconda + データコ
ピー + 補助スクリプト
⁃ P2V, P2P, V2V, V2P いずれにも対応
⁃ (Hardware) RAID構成も自動で実施
8
9. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
mbgaclone
⁃ 利用イメージ
⁃ server01のディスク内容をserver02にコピー & RAIDを1+0に設定
⁃ コピーした後でコピー前∼コピー後にdeployされたコードを改めてdeploy
して本番に投入するだけ
9
#
mbgaclone
-‐from
server01
-‐to
server02
-‐raid
10
10. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
chef
⁃ chefの導入自体は最早目新しくないが
⁃ 数多くのサービスに
⁃ 既存の運用ツール・体制を踏襲しつつ
利用するための工夫をしている
⁃ Base Cookbook + Application Cookbook + Environment Cookbook構成
⁃ nodeごとの設定はサーバ情報DB(既存)から自動で生成
10
The
Chef™
Mark
and
Chef
Logo
are
either
registered
trademarks/service
marks
or
trademarks/
service
marks
of
Chef,
in
the
United
States
and
other
countries
and
are
used
with
Chef
Inc's
permission.
We
are
not
affiliated
with,
endorsed
or
sponsored
by
Chef
Inc.
12. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
キャパシティ管理
サーバからの各種情報をfluentdで集める
• サーバの各種メトリクス(CPU etc.)
• リクエスト数
• レスポンスサイズ
Elasticsearchに送る→kibanaで見る
12
Elas8csearch
is
a
trademark
of
Elas8csearch
BV,
registered
in
the
U.S.
and
in
other
countries.
Kibana
is
a
trademark
of
Elas8csearch
BV,
registered
in
the
U.S.
and
in
other
countries.
外側:ゲームID
内側:API名
13. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
キャパシティ管理とは別に…
⁃ これと別にESにクエリ投げて日時のレポートを送信
⁃ エラー数・種類も集計しているのでトラブルシューティングも楽になる
13
ある1週間の時系列エラー数
(PVに応じたエラー数)
15. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
障害対応/プロファイリングツール
がんばっても障害は起きる
起きたときの原因調査のためのツールを えている
⁃ Perl用
⁃ perlstack
⁃ gdbperl
⁃ phs
⁃ NYTProf
⁃ Ruby用
⁃ gdbruby
⁃ stackprof
15
16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Sample app
#!perl
sub main_proc {
my ($int) = @_;
print `date`;
sleep $int;
}
sub mainloop {
while (1) {
main_proc(1, "dummy_argument");
}
}
mainloop();
16
17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Perl用 1/4 - perlstack
⁃ 実行中PerlプロセスのPerl stackを取得して出力してくれるツール
⁃ 実行イメージ
⁃ 実装: ptraceでプロセスにアタッチして情報を取得してくる
⁃ 本番動作中の全プロセスにアタッチしても性能低下は見えない程度
⁃ 一部サーバで常時取得しロギングしている
17
$ sudo perlstack 29146
29146
/home/kabe/daemon.pl:17
/home/kabe/daemon.pl:10
/home/kabe/daemon.pl:9
/home/kabe/daemon.pl:20
それぞれ
sleep()
main_proc()
while
loop
mainloop()
が対応
18. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
典型的なWeb Appでのperlstack例
⁃ アクセスが少ない時間帯
⁃ 多数のworkerがaccept()を呼べている=余裕のある状態
18
351,402,434,494,537,1079,1112,1176,1271,1314,1349,1498,1585,1625,1656,1710,1751,
1798,1834,1845,2378,2408,2458,2507,2541,2585,2614,2649,2737,2766,2857,2889,2954,
2997,3509,3546,3680,32486,32514,32547,32593,32622,32652,32716,32745
/home/game/fcgi/index_smart.fcgi:37
/home/game/fcgi/index_smart.fcgi:35
/home/game/fcgi/index_smart.fcgi:24
...
accept()を呼んでいる箇所
⁃ DBへのアクセスが集中するような時間帯
⁃ DBへのアクセス箇所にプロセスが集中してくる
⁃ ひどくなると障害となる
3072,3106,3148,3193,3224,3733,3768,3819,3867,3896,3940,3969,4002,4093,4125,4163,
4263,4294
/usr/lib64/perl5/vendor_perl/5.8.8/x86_64-‐linux-‐thread-‐mul8/DBD/mysql.pm:149
/usr/lib64/perl5/vendor_perl/5.8.8/x86_64-‐linux-‐thread-‐mul8/DBI.pm:654
/usr/lib64/perl5/vendor_perl/5.8.8/x86_64-‐linux-‐thread-‐mul8/DBI.pm:722
...
DBアクセス
多くのプロセス
19. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Perl用 2/4 - gdbperl
⁃ 実行中Perlプロセス or core のPerl stack, C stackを出力するツール
⁃ Perlの引数も取得できる(そのときの @_ なので変更されていなければ)
⁃ https://github.com/ahiguti/gdbperl
⁃ 実装: gdbでアタッチ→Perlデータ構造をCレベルで ってPerlレベルのス
タックを出力
* gdbでアタッチしているため少し遅い
- バッチプロセスが止まってしまったなど
- 今さら遅くなっても関係ない
- 具体的な引数など詳細な調査をしたい
といったケースで有効
19
20. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
gdbperl実行例
20
$ sudo gdbperl.pl 29146
...
c_backtrace:
#0 0x0000003b318ab140 in __nanosleep_nocancel () from /lib64/libc.so.6
...
#6 0x000000000040181c in main ()
perl_cur_op:
/home/kabe/daemon.pl:17(main)
perl_backtrace:
[3] /home/kabe/daemon.pl:10(main) -> main::main_proc ARGS: (1,
"dummy_argument")
[2] /home/kabe/daemon.pl:9(main) -> (loop)
[1] /home/kabe/daemon.pl:20(main) -> main::mainloop ARGS: ()
PIDを引数指定
引数が見える
21. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Perl用 3/4 - phs
⁃ webapp workerにおけるメモリ消費の原因を探るために開発
⁃ 一般に「どこでメモリの大量消費があったか」を事後に知ることは困難
⁃ メモリをダンプしてデータ構造を調べるのも大変…
⁃ デプロイ差分がわかれば手掛かりになるがデプロイが日に何度もある
⁃ 特定のユーザでのみ肥大化するデータ構造もある
⁃ →実行時にメモリ消費のログを取得しておき後から分析できるようにする
⁃ 実装: LD_PRELOADでmallocその他メモリ管理部分の関数を上書く
21
a();
q
=
malloc(100);
b();
libcのmalloc()
void*
malloc(size_t
sz)
{
orig_malloc
=
dlopen(...,
"malloc");
p
=
orig_malloc(sz);
バックトレースを保存
return
p;
}
LD_PRELOAD=phs.so
Perlなどの
アプリケーション
22. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
phsで出力するログ
2種類のログが出力されている
⁃ 短時間で大量のヒープ拡張/縮小を検知した時(EXTEND/SHRINK)
• →Perl/C stacktraceおよびREQUEST_URI
⁃ プロセス終了時(STAT)
⁃ 各コード箇所が消費しているPerlオブジェクトのヒープ消費量
⁃ 「X:32→Y:33→Z:50 で 300バイト消費している」といった情報が得
られる
ログが巨大なので工夫が必要
22
23. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
phsの出力例(その1)
EXTENDのログ
PHS: EXTEND now=1453362911.604974 cur=11290858
prev=7000000 u=1938144768,864768 blib/lib/Storable.pm
(autosplit into blib/lib/auto/Storable/thaw.al):359;/home/game/pm/Cache/
Memcached/Redundant.pm:51;...とても長いので省略...:37;/home/game/
script/infra/fcgi/mobage_fcgi_starter.pl:143 REQUEST_URI=/
XXX?YYY=ZZZ
•ヒープサイズ 7,000,000→11,290,858 に増加したことを検知した様子
23
24. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
phsの出力例(その2)
...
PHS: /.../Battle.pm:853;/.../Controller.pm:36;/.../Main.pm:947 32 1 168
PHS: /.../Battle.pm:854;/.../Controller.pm:36;/...Main.pm:947 464 10 536
PHS: /.../Battle.pm:855;/.../Controller.pm:36;/.../Main.pm:947 504 11 776
PHS: /.../Battle.pm:856;/.../Controller.pm:36;/.../Main.pm:947 959 22 1167
...
⁃ 同じコード箇所でも複数のログに分かれて出力される場合がある
⁃ 人間が読むには巨大すぎる(数分で1万行を越える)
24
Main.pm:947→Controller.pm:36→Battle.pm:853
確保された領域が32バイト
25. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
phs その2 のログをまとめる
⁃ コード箇所ごとに消費メモリサイズをまとめればそれは役に立つ
⁃ sortすればだいたい怪しい箇所を示してくれる
⁃ phs_summary /path/to/phs_1453362846_17871.log.20160121
⁃ おおよそキャッシュ生成やDBアクセス、レンダリングにヒープを確保
しているが、本当に見るべきポイントはリクエスト処理部分
25
34772344 TOTAL _exit
12977604 .../Storable.pm:363;/.../Redundant.pm:51;/.../Cache/GameMd.pm:219
3518056 .../Storable.pm:359;/.../Redundant.pm:51;/.../Cache/GameMd.pm:219
1841736 .../Storable.pm:363;/.../Redundant.pm:51;/.../Cache/Game.pm:165
1441784 /.../DBI.pm:2056;/.../DBD/mysql.pm:793;/.../DBI.pm:1641
538560 /.../Text/Xslate.pm:504;/.../Xslate.pm:91;/.../Response.pm:565
382155 /.../Xslate.pm:101;/.../Response.pm:565;/.../Response.pm:577
379164 .../Storable.pm:363;/.../Memcached.pm:13;/.../Cache2.pm:15
347445 /.../Cache/Memcached/Fast.pm:584;/.../Redundant.pm:30;/.../MA.pm:242
311346 /.../Cache/Memcached/Fast.pm:584;/.../MA.pm:247;/.../MA.pm:186
26. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Perl用 4/4 - NYTProf
⁃ Perlでは定番の高性能プロファイラ
⁃ 性能問題は多くの場合これを見て解決する
⁃ プロファイラのポリシー
⁃ 各サーバ群(ゲーム/API/etc.)に1台ずつ仕掛ける
⁃ 性能劣化があるので全部には仕掛けない
⁃ 複数workerあっても一部プロセスにのみ仕掛ける(PIDを見て調整)
⁃ ログが出過ぎても困る
⁃ 1時間ごとに集計バッチを走らせてアーカイブ化しておく
26
27. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
HTML化したNYTProf
開発者も簡単にこれを閲覧できる仕組みを用意している
27
28. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Ruby用 1/2 - gdbruby
⁃ 社内初のRubyによる構築案件に伴い開発
⁃ https://github.com/gunyarakun/gdbruby
⁃ 内容・機能ともにだいたいgdbperlと同じ
⁃ 実行イメージ
28
$
sudo
./gdbruby
8861
c_backtrace:
#0
0x00007ff9f5p075b
in
pthread_cond_8medwait@@GLIBC_2.3.2
()
from
/lib64/libpthread.so.0
...
#12
0x00007ff9f640594b
in
main
(argc=2,
argv=0x7fff6c237138)
at
main.c:36
ruby_backtrace:
[4]
sleep()
<-‐
/home/kabe/daemon.rb:10
[3]
main_proc()
<-‐
/home/kabe/daemon.rb:10
[2]
mainloop()
<-‐
/home/kabe/daemon.rb:5
[1]
<main>()
<-‐
/home/kabe/daemon.rb:13
def mainloop()
while true do
main_proc(2, "dummy_arg")
end
end
def main_proc(interval, dummy)
sleep(interval)
end
mainloop()
29. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
Ruby用 2/2 - stackprof
⁃ Rubyで現時点でおそらく一番高性能なプロファイラ
⁃ https://github.com/tmm1/stackprof
⁃ 各サーバ群に1台ずつ、一部プロセスで常時取得
⁃ sinatra/rails workerの一部でのみstackprofが動くようにしている
⁃ ほぼNYTProfで実施していたのと同じポリシーで運用できている
29
==================================
Mode:
cpu(1000)
Samples:
1292141
(0.49%
miss
rate)
GC:
184769
(14.30%)
==================================
TOTAL
(pct)
SAMPLES
(pct)
FRAME
68455
(5.3%)
68455
(5.3%)
block
in
JSON::Schema.add_indifferent_access
118399
(9.2%)
62081
(4.8%)
JSON::Schema.add_indifferent_access
293253
(22.7%)
60676
(4.7%)
Ac8veSupport::JSON::Encoding::JSONGemEncoder#jsonify
55684
(4.3%)
54697
(4.2%)
block
in
Sequel::Mysql2::Database#_execute
86674
(6.7%)
54318
(4.2%)
JSON#generate
71681
(5.5%)
51126
(4.0%)
block
in
Sequel::Mysql2::Dataset#fetch_rows
219461
(17.0%)
37656
(2.9%)
block
in
Hash#as_json
31. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
オンプレミスとクラウド
⁃ 現時点では(まだ)オンプレミスの方が安い
⁃ 案件によって一部でパブリッククラウドを利用している
⁃ マネージドサービスはあまり利用していない
⁃ 使っているところもある
⁃ 主に海外向け = 遅延が気になる
⁃ AWSの利用が多い
⁃ GCPも一部利用
⁃ AWSを使っていて大変なところも見えてきた
31
33. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
AWSの権限管理を楽にする
⁃ miamというツールがある
⁃ https://github.com/winebarrel/miam
⁃ 各AWSアカウントのIAM権限をRuby DSLにそれぞれdumpしてgitで管理
⁃ 権限設定はPull requestにより依頼/実施
⁃ STS AssumeRoleで発行されたセッショントークンにも対応しているので
複数アカウントのIAM権限管理を簡単に実施できる
33
miam
34. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
VPN + VPC peering活用によるハイブリッド構成
⁃ AWS上にアカウント/VPCが別々の多くのサービス
⁃ 管理DBはオンプレのものと共通にしたい
⁃ 監視サーバなどはAWS上でいいが共有したい
→一部をオンプレに持つハイブリッド構成
34
共通機能
VPC
各サービス
のVPC
VPC
peering
on-‐premise
VPN
connec8on
35. Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
まとめ
•DeNAがオンプレミスでこれまで積み重ねてきた運用技術
⁃ 少数のサービスで起こった問題に対して深い理解を目指す
⁃ Perl, Rubyなど、言語処理系のレベルまできちんと調べられる体制を用意
⁃ サーバの性能をきちんと使い切り、効率的運用を目指す
•AWSなどパブリッククラウドの利用
⁃ コスト面ではオンプレミスの方が安い
⁃ 海外向けには有用であり積極的に利用している
35