グリー株式会社『私たちが GCP を使い始めた本当の理由』第 9 回 Google Cloud INSIDE Game & Apps

私たちがGCPを
使い始めた本当理由
2019年11月18日
堀口真司
グリー株式会社
開発本部インフラストラクチャ部
ディベロップメントオペレーションズグループ
リードエンジニア

堀口真司
グリー株式会社開発本部インフラストラクチャ部
• 家庭用普通ゲーム（ 1年） → 国内MMORPG などオンラインゲーム
開発、支援、販売（５年） → 主にアーケードゲーム基盤開発（２年） → グ
リー８年目
• クラウド系やゲーム系勉強会など多数講演
• 主にインフラ運用効率改善（データベース、クラウド系全部）
• 社内で AWS 2014～ GCP 2017～
• アプリ開発・設計お手伝い

もくじ
•開発開始まで社内事情
•GCP に期待されること
•結果や課題など
•これからこと
30分だと思ってたら20分だった

じめに
•会社方針や組織全体認識
でないこと
•AWS より優れているとか、イケ
てないとか、そういう比較でな
いこと

• 消滅都市スピンオフ
• アニメもやってたよ！
• ストーリー重視
• ターン制バトル
• そこそこ規模ゲームで
初めて GCP

OnPre
GCP
2014 2019
AWS
AFTERLOST 消滅都市
消滅都市0.
開発や運営メンバー同じ。
効率よく運用することが求められた

開発開始まで社内事情

VM 中心クラウド環境理想的な運用に
なりつつあった！
•Chef Cookbook によって符号化されたサーバ環境
• インフラ担当、セキュリティ担当、モニタリング担当、ゲーム開発者それぞれ
チームが独立してコミットできる
•CloudFormation や多数運用ツールを使って簡略化
•マネージドサービスを多用し自動復旧や Pager 削減
•大量メトリクスを収集して最適化や問題解決高化
•ゲーム開発開始から、サービスクローズまで手順化
•ゲームでありきたりな LAMP 環境

Backend
DB Replica
Auto Scale
…
commit
VM Image
…
DB
Master
Launch
Admin
Serverless
Asset
・Pager
・Chat
・Mail
・Logging
・Monitoring
DB Replica
…
DB
Master
・Redis
・Memcache
App
Operator
Developer
Deploy
build
CDN
LoadBalancer
Serverless

VM を中心とした環境課題
•僅かな修正で VM イメージ作り直しと入れ替えに手間がかかりデ
プロイ手法氾濫、学習コスト増加
• Packer, Capistrano, s3 sync, Code Deploy
•管理コストを抑えるために VM イメージ共通化
• 多様性低下、開発者裁量低下、基盤検証コスト増加
•スケールアウトに時間がかかるで余裕を持ったキャパシティ設計
でコスト増加
•VM を支えるためクラウドサービスへ依存

•ゲームでない別件で柔軟性とス
ピード感重視で GAE と GKE を選択し
た
•雑ながらも結果的に上手くいき、ゲー
ムで活用も視野にいった
•ビルドフローやモニタリング、データ分
析まで一通りできた
• VM 時代課題ほとんどない
• 2018/2月時点人気手法とりいれた
• App Engine (Go) 2000 req/sec ～
• Kubernetes Engine 1000 req/sec ～

Kubernetes cluster
GKE
Dashboard
Ingress
HTTPS
GKE
Support
GKE
Channel
GKE
Redis
GKE
Web
GKE
Certiﬁcate Manager
Cloud DNS
reality.wrightﬂyer.net
Identity Aware
Proxy
GKE
Jenkins
GKE
Web-stg
GKE
Collab
GKE
Comment
GKE
Video
GKE
Comment Monitor
GKE
Comment Summarizer
GKE
PHPMyAdmin
User
Cloud SQL
Streaming
Cloud Datastore
CloudFront
Lambda
App Engine
GKE ワークロード 40種類ぐらい。 200 Pods ～。
動画配信・コミュニティプラットフォームなで
ゲームよりだいぶ複雑なもを運用して慣れてきた。

ゲームでもコンテナを使いたかった
•VM イメージ構築期待通りに動作していたし、既存手法でも大き
な不満なかった
•VM で Immutable を目指すとスピード感が落ちる。どちらかトレー
ドオフになりがち
•インフラ部が VM イメージを管理するより、開発チームに任せて裁
量と責任を寄せたい。でもノウハウ共有したい
•AFTERLOST 消滅都市案件で想定規模も控えめで、開発チーム
も前向きに GKE を検討

Kubernetes Engine で運用したかった
•Kubernetes を運用したいわけでない
• Kubernetes が問題を起こしたときに対処しにくい（できない）
• よってマネージド Kubernetes 以外ありえない。独自 CRD も消極的
• Google Origin だし GKE 相性良さそうな気がした
• svc 仕様変更で iptables が壊れたり、 ingress-gce バグ踏んだりしたけど。
•Compute Engine 利用避けたかった
• VM イメージ管理が増える暗い未来が待っている
• VM に SSH して運用できるようにすると、考えなけれいけないことが膨大
になる

といえ、劇的にアーキテクチャを変えたい
というわけでなかった
•ガチャとかあるし、（新規事業に比べて）売り上げ規模割合大き
いし、保守コストかけたくないし。
•AppEngine や Spanner 検討せず。
•他マネージドサービスもありふれたもを利用
• RDS → CloudSQL (MySQL)
• CloudWatch → Stackdriver
• S3 → CloudStorage
• Lambda → Functions
• BQ 使わず、慣れた内製ツール（Kinesis EMR）を利用
• 開発チーム側がログやテーブルを設計し、クエリも打つため

かなり大きい運用負担になる
構築、運用手間
オーバーヘッド費用
地域ごと負荷波
※実際サービス地域と異なります
2days、日本を除く

課題や結果など
ここから tips など

docker コンテナ化期待通り
VM
Apache
PHP
Ubuntu
Monitoring
Application
VM
Monitoring
Application
Middleware
any OS
anything…
VM で OS や
ミドルウェアイ
ンフラ部で
対応
コンテナで OS
やミドルウェアを開
発チームで自由に
選べる。
新しい開発言語や
OS など積極的に
取り入れることが
でき、インフラ負
担も減らせる。
VM Image

API
Container EngineApp
afterlost.wfs.games
Cloud DNS
HTTPS-Ingress
Cloud Load Balancing
Certiﬁcate
Manager
Container
Something
Logging
Alert
Monitoring
Batch
Container Engine
Admin
Container Engine
Admin
Cloud IAP
Developer
Customer
Service
User-1
Cloud SQL
Notify
Cloud Pub/Sub
Stg-API
Container Engine
Stg-Admin
Container Engine
Stg-Admi
n
Cloud IAP
To-slack
Cloud Functions
Asset
Cloud Storage
Kubernetes
cluster
production1
Kubernetes
cluster
monitoring
HTTPS-Ingress
Cloud Load Balancing
Grafana
Container Engine
Grafana
Cloud IAP
Ops
Stackdriver
Prometheus
Container
PagerDuty
Slack
Kinesis
User-N
Cloud SQL
Masterdata
Container
Registory

東京リージョンみ運用
手抜きでない
遅い地域でも 300ms 程度

DNS 問題起こらなかった
Pod
API
dnsmasq
fluentd
database.afterlost.wfs.games.
最後ドットもちゃんとつけて
リゾルバ search suffix を回避。
GKE 環境 ndots が 5 で高め。
念ため
sidecar
IPv4 がっきりしているなら
AAAA レコード引かない。
(CloudSQL VPC IP 不変らしい)

CloudSQL リリース初日に方針変更
Cloud
SQL
Cloud
SQL
Cloud
SQL
Cloud
SQL
master
failover
replica-1
replica-N
Behind
Replication スレッド一つ
innodb_flush_log_at_trx_commit = 1
更新系性能がスケールしにくい
Cloud
SQL
Cloud
SQLmaster failover
Cloud
SQL
Cloud
SQLmaster failover
Cloud
SQL
Cloud
SQLmaster failover
replica による分散に頼らず
水平・垂直分割でしぐ。
Behind も気にせずアプリも開発しやすい
運用ちょっとめんどう。

Production 環境 Kustomize 廃止
base
production
QA-1
Dev-1
Dev-N
real
テンプレ化できるほど
単純でなかった。
運用事故を防ぐためにも
専用に管理
helm 化や json 風 .js を nodejs に通すやり方などやってみ
たけど、なるべく raw に近い Kustomize が使いやすかった。
GKE コンソールで編集もできるし。

よかった
• スケジュール通り
• 開発チーム Kubernetes 理解
度が高かった
• 海外レイテンシが良かった
• 過去 GCP 経験活かせた
• CI/CD 環境もバッチリできた
改善したい
• 情報共有が少なかった
• DNS が弱かった
• Stackdriver ログ代が高かった
• CloudSQL 負荷が予想以上だった
• サービスアカウントが乱立してた
• 固定 IP 必須と相性が悪かった
• Request/Limit 精査してなかった
• 特定タイミングに Pod 増やしたかった
• ノードが減りにくかった
• チャットボットが居なかった
リリース直後反省会など意見

多様な選択肢
• 分析 BQ、 CDN に CF(+Lambda)と Akamai 、 GKE から
DynamoDB などハイブリッド化進んでます
•開発チームやみんなスキル、趣向などを取り入れて自由様々にえ
らんでます
• 今 Spanner へ感度が大変高くなっており、社内勉強会なども積極的に
開催されてます

• インフラ部で自社ゲームだけで
なくグループ・関連企業全体運
用を行っています。たくさんプロ
ジェクト・案件あります
• 規模も様々で、 Cloud Run で済
むもから数千vCPUクラスま
で！
• GCP を採用した裏理由も聞けます
ご清聴ありがとうございました

グリー株式会社『私たちが GCP を使い始めた本当の理由』第 9 回 Google Cloud INSIDE Game & Apps

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Similaire à グリー株式会社『私たちが GCP を使い始めた本当の理由』第 9 回 Google Cloud INSIDE Game & Apps

Similaire à グリー株式会社『私たちが GCP を使い始めた本当の理由』第 9 回 Google Cloud INSIDE Game & Apps (20)

Plus de Google Cloud Platform - Japan

Plus de Google Cloud Platform - Japan (20)

Dernier

Dernier (10)

グリー株式会社『私たちが GCP を使い始めた本当の理由』第 9 回 Google Cloud INSIDE Game & Apps