8. 8
cuDF — ANALYTICS
ライブラリ
daskgdf: Dask を使った分散 GPU データフレーム。マルチ GPU、マルチノードをサポート。
pygdf: libgdf の Python バインディング (Pandas ライクなデータフレーム操作 API を提供)
libgdf: CUDA C++ による GPU データフレーム操作の実装 (Join, GroupBy, Sort, etc.)
必要なメモリサイズ
作業メモリとしてデータセットサイズの 2~3 倍。
マルチ GPU、マルチノードに関するロードマップ
Apache Arrow ベースの GPU データフレーム ライブラリ
利用可能時期 マルチ GPU マルチ ノード
ピア to ピアの
データ共有*
Now Yes Yes No
Q4 2018 Yes Yes Yes
*Note: No peer-to-peer data sharing means computation performed via map/reduce style programming in Dask
libgdf
CUDA C++ による実装
pygdf
GDF の Python バインディング
daskgdf
分散コンピューティング
9. 9
cuIO — FILE I/O
cuIO のファイルリーダーは GPU を活用し、データを直接 cuDF のデータフレームへと読み込む。
Dask により、データロードを複数コアに並列化。
cuDF へファイルを直接ロード
利用可能時期 サポートするファイル形式
Now CSV
Q4 2018 Parquet, ORC
Note: Dask/Pandas can be used to read all formats CSV, Parquet, ORC, JSON, AVRO in cuDF; However, it is slower because it uses the CPU and needs to be read to system memory, then copied over to GPU memory