データ表現のパターン

データ表現のパターン
鷲崎弘宜
早稲田大学 / 国立情報学研究所 /
システム情報 / エクスモーション
2021年 11月10日
washizaki@waseda.jp
http://www.washi.cs.waseda.ac.jp/
1
出版記念セミナー: AI活用成熟度と機械学習デザインパターン詳説

データ表現パターン
2
• 様々なデータから機械学習モデルが扱いやすい特徴量への表現
パターン問題解決
特徴量ハッシュ
Hashed Feature
カテゴリ型特徴量に関連する問
題（不完全な語彙、値の種類の
多さに伴うモデルの大きさ、
コールドスタートなど）。
文字列表現の決定的かつ可搬
性のあるハッシュをバケット
化し、データ表現における衝
突のトレードオフを許容
埋め込み
Embeddings
値の種類が多く、関係性の近さ
の保持が重要な特徴量
問題上で関係のある情報が保
持されるように、値の種類が
多いデータを低次元の空間に
マッピングするデータ表現を
学習
特徴量クロス
Feature Cross
特徴量が持つ関係性を学習する
上でのモデルの複雑性の不足
入力値の組み合わせを明示的
に個別の特徴量とし、モデル
による入力間の関係性の学習
を加速
マルチモーダル入力
Multimodal Input
複数のデータ表現が存在する場
合の選択方法
使用可能なデータ表現を連結
『機械学習デザインパターン ―データ準備、モデル構築、MLOpsの実践上の問題と解決』Lakshmananら著, 鷲崎ら訳, オライリージャパン, 2021

特徴量ハッシュ Hashed Feature
• 問題: カテゴリ変数についてとりうる種類を特定困難。One-hot encodingで
はout-of-vocabulary問題・Cold-Start問題。
• 解決:
• 1. ユニークな文字列へ変換
• 2. 決定的な方法でハッシュ値に変換
• 3. ハッシュ値の設定バケット数（カテゴリ数）の剰余の採用
• 考慮: バケット衝突、他の集約特徴量併用、バケット数チューニング
3
ワンホットエンコーディング
tf.feature_column.categorical_column_with_hash_bucket(
airport, num_buckets, dtype=tf.dtypes.string
)
特徴量ハッシュ
TensorFlowに
おける実装

埋め込み Embeddings
• 問題: カテゴリ数が膨大な場合の難しさ（疎行列化）。ワンホットエン
コーディングではデータの近さを扱えない。
• 解決: 訓練可能な特徴埋め込みレイヤで意味的な近さを表すように小次元
のベクトル化、および、重みの訓練
• 考慮
• 経験則: 次元数 = 元のカテゴリ数の4乗根
• テキスト: 語単位の小次元ベクトル表現、平均をとるなどの集約。Word2VecやBERT
などのさらなる意味・文脈考慮。
• 画像: 畳み込みCNN、オートエンコーダなど
4
オートエンコーダ

その他のデータ表現パターン
5
x × y ラベル
AC ＋
BC －
AD －
BD ＋
A
B
C
D
特徴量クロス
マルチモーダ
ル入力
x
y

データ表現のパターン

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

Plus de Hironori Washizaki

Plus de Hironori Washizaki (20)

データ表現のパターン