More Related Content
Similar to 企業・業界データサービスSPEEDAの開発における複雑怪奇なデータとの格闘 (20)
企業・業界データサービスSPEEDAの開発における複雑怪奇なデータとの格闘
- 24. データクレンジング
● 電話番号、設立年月日のフォーマットを統一する
● 正しい企業名はなにか?
名寄せ
● サプライヤXの企業AとサプライヤYの企業Bは同じ企業なのか?
● 同じ企業の場合、各データについてどのサプライヤの情報を表示すべきか?
3. データが大規模かつ複雑
サプライヤ 企業名 電話番号 設立年月日
X Sato Software Co., Ltd. +65 12345678 2/26/1980
Y Satou software corporation (65) 1234 5679 Feb 26 1980
... ... ... ...
- 28. Embulkのインストール
Embulk
$ sudo wget http://dl.embulk.org/embulk-latest.jar -O /usr/
local/bin/embulk
$ sudo chmod +x /usr/local/bin/embulk
$ cat try1/example.yml
in:
type: file
path_prefix: "/Users/tau/tmp/try1/csv/sample_"
out:
type: stdout
設定ファイルの記述
- 30. Embulk
$ cat config.yml
in:
type: file
path_prefix: /Users/tau/tmp/try1/csv/sample_
parser:
charset: UTF-8
newline: CRLF
type: csv
delimiter: ','
quote: '"'
escape: ''
skip_header_lines: 1
columns:
- {name: id, type: long}
- {name: account, type: string}
- {name: time, type: timestamp, format: '%Y-%m-%d %H:%M:%S'}
- {name: purchase, type: timestamp, format: '%Y%m%d'}
- {name: comment, type: string}
exec: {}
out: {type: stdout}