SlideShare a Scribd company logo
1 of 25
Download to read offline
標本レコード修正のための
OpenRefineガイド(ド基礎編)
https://openrefine.org/
乱雑なデータを扱うための
オープンソースの強力なツール
東京都立大学
GBIF日本ノードJBIF
大澤 剛士
2020/7/24
この資料の内容
この資料は2020/7/21-24にかけて行われた
GBIF BIFA (Biodiversity Information Fund for Asia)
Data Mobilization Workshop for Asia 2020の内容を
元に大澤が作製したものです(GBIF許可済み)。
OpenRefineには色々な機能がありますが、
ワークショップ内で紹介された
標本等のデータを扱う上で有用な使い方の
エッセンスのみを紹介します。
なお、ExcelやRで標本レコードのクリーニング経験が
ある人の利用を想定しているため、背景情報等は
全く出てきません。
この資料の目的
OpenRefineを使って(主に)標本レコードの
ミスや表記ゆれを修正し、データの質を上げる
GBIFで公開
研究用の解析
エラーやミスを修正
(データ掃除)
エラーやミスのある
生データ
OpenRefineとは
https://openrefine.org/
文字化けとかスペルミスとか
入力ミスを修正するのに超便利
定番のExcelやRより効率的
・ オープンソースのデータ成型ツール
・ Javaで動くマルチプラットフォーム(OS非依存)
・ スタンドアロンで使えるが、API経由で外部データを
取り込んだり照合したり色々できる
OpenRefineの導入
https://openrefine.org/
・ githubからβ版や過去版をダウンロード(プロ向け)
https://github.com/OpenRefine/OpenRefine/releases/tag/3.4-beta2
・ OpenRefineのページからダウンロード
・ zipを解凍し、exeファイルをクリック
(Java JREがない場合は導入。その場合は誘導してくれる)
・ webブラウザ上で開かれる
(winの場合コマンドプロンプトが何かごちゃごちゃやるが問題ない)
初期画面とデータの取り込み
ブラウザ上で動作する(画面はfirefox)
成型したいデータを選択する
(csv, tsv, xls, xlsx, rdf, JSON,xml等、
基本一般的なデータ形式全てに対応)
ファイル認識と文字コード
日本語入りだと化けがち
(文字)コードに注意
原則UTF-8にしておく
←ここで文字コード、ファイル形式を指定
ファイル認識と文字コード
文字コードをUTF-8にする
日本語も読めるように
なりました。
プロジェクト作成
レコードをちゃんと読めていたら
プロジェクト名(任意。デフォはファイル名)
を入力したら Create Projectをクリック
これが基本画面
プロジェクト画面
プロジェクト名
プレビューさせるレコード数は適宜変更できる
合計レコード数
名寄せ
SpecificEpithetの名寄せをしてみます
扱いたいフィールド横の▼を押し、
Facet -> Text facet
このフィールドのデータ項目一覧、
各項目のレコード数が表示されました
続いて、Clusterを押します
名寄せ
名寄せ
めっちゃ似てるよって項目が出てきます。
このケースは、スペルは同じですが、
下段はアタマに半角スぺ-スがあるみたいです
そこで、上段に揃えることにします
左のMerge?にチェックを入れます
Merge Selected & Re-Clusterを押します
名寄せ
無事マージされました
エラーつぶし(一括)
次はmunicipalityのミススぺルや
文字化けを修正します
扱いたいフィールド横の▼を押し、
Facet -> Text facet
エラーつぶし(一括)
選択フィールドのレコード集計が
表示されました。不要なら上のspeficicEpithetの
ボックスは消してしまってください。
文字化けで?が多数入っています。
試しに?yama(Mt.)を選択してみます
エラーつぶし(一括)
?yama(Mt.)を含むレコードが表示されました
エラーつぶし(一括)
エラーつぶし(一括)
この状態でカーソルを合わせると
右に edit が出てきます。それをクリックします。
そうするとこのように修正画面になります。
これを修正してApplyを押すと、12レコード全て
同様に修正されます
Undo / Redo
修正作業内容は記憶されているので、
しくったらUndo(戻す)、Redo(もう一回実施)できます
作業を途中でやめる
同じPCで作業を行う場合は、このURLをメモして
OpenRefine立ち上げ後にブラウザに入力すれば
作業再開できます
別PCで作業を継続したい場合はプロジェクトを
Exportする必要があります(次ページ)
エクスポート
作業結果を出力します
基本画面にある
Exportボタンを押します
エクスポート
作業結果を出力します
色々な形式で出力できるので、
扱いやすい形式で出力できます。
←プロジェクトを他PCに
持って行きたいときはコレ
ファイル出力するフィールドを
選ぶこともできる(次ページ)
エクスポート
出力する形式やフィールドを
カスタマイズできます
まとめ
・標本データの成型に役立つデータ成型ツール
・ 基本機能のみ紹介。まだまだ色々できる
例えば文字エラーや名寄せだけでなく
数字の飛び値やデジットミス等も探せる
・たぶんExcelやRより圧倒的に楽で早い
・色々役立つ機能があると思うので、見つけたら
シェアしてください

More Related Content

What's hot

What's hot (20)

リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例リクルートを支える横断データ基盤と機械学習の適用事例
リクルートを支える横断データ基盤と機械学習の適用事例
 
OpenCVとRGB-Dセンサで作ろう壁面タッチパネル
OpenCVとRGB-Dセンサで作ろう壁面タッチパネルOpenCVとRGB-Dセンサで作ろう壁面タッチパネル
OpenCVとRGB-Dセンサで作ろう壁面タッチパネル
 
Java開発の強力な相棒として今すぐ使えるGroovy
Java開発の強力な相棒として今すぐ使えるGroovyJava開発の強力な相棒として今すぐ使えるGroovy
Java開発の強力な相棒として今すぐ使えるGroovy
 
第3回WBAレクチャー:海馬体周辺におけるBRA駆動開発の進展
第3回WBAレクチャー:海馬体周辺におけるBRA駆動開発の進展第3回WBAレクチャー:海馬体周辺におけるBRA駆動開発の進展
第3回WBAレクチャー:海馬体周辺におけるBRA駆動開発の進展
 
ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門ARM CPUにおけるSIMDを用いた高速計算入門
ARM CPUにおけるSIMDを用いた高速計算入門
 
インメモリーデータグリッドの選択肢
インメモリーデータグリッドの選択肢インメモリーデータグリッドの選択肢
インメモリーデータグリッドの選択肢
 
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
MLOps に基づく AI/ML 実運用最前線 ~画像、動画データにおける MLOps 事例のご紹介~(映像情報メディア学会2021年冬季大会企画セッショ...
 
BuildKitによる高速でセキュアなイメージビルド
BuildKitによる高速でセキュアなイメージビルドBuildKitによる高速でセキュアなイメージビルド
BuildKitによる高速でセキュアなイメージビルド
 
Dockerfile を書くためのベストプラクティス解説編
Dockerfile を書くためのベストプラクティス解説編Dockerfile を書くためのベストプラクティス解説編
Dockerfile を書くためのベストプラクティス解説編
 
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
 
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
PostgreSQLのロール管理とその注意点(Open Source Conference 2022 Online/Osaka 発表資料)
 
グラフデータベース Neptune 使ってみた
グラフデータベース Neptune 使ってみたグラフデータベース Neptune 使ってみた
グラフデータベース Neptune 使ってみた
 
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分けビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
 
ソフトウェア開発のやり方の改善
ソフトウェア開発のやり方の改善ソフトウェア開発のやり方の改善
ソフトウェア開発のやり方の改善
 
イミュータブルデータモデルの極意
イミュータブルデータモデルの極意イミュータブルデータモデルの極意
イミュータブルデータモデルの極意
 
Mavenの真実とウソ
Mavenの真実とウソMavenの真実とウソ
Mavenの真実とウソ
 
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
 
Azure Cosmos DB を使った高速分散アプリケーションの設計パターン
Azure Cosmos DB を使った高速分散アプリケーションの設計パターンAzure Cosmos DB を使った高速分散アプリケーションの設計パターン
Azure Cosmos DB を使った高速分散アプリケーションの設計パターン
 
オントロジー工学に基づくセマンティック技術(1)オントロジー工学入門
オントロジー工学に基づくセマンティック技術(1)オントロジー工学入門オントロジー工学に基づくセマンティック技術(1)オントロジー工学入門
オントロジー工学に基づくセマンティック技術(1)オントロジー工学入門
 
XunitとMoq 公開用
XunitとMoq 公開用XunitとMoq 公開用
XunitとMoq 公開用
 

More from arosawa

More from arosawa (20)

2023/2/22推進費2G-2201オンラインシンポジウム
2023/2/22推進費2G-2201オンラインシンポジウム2023/2/22推進費2G-2201オンラインシンポジウム
2023/2/22推進費2G-2201オンラインシンポジウム
 
クビアカツヤカミキリの 分布拡大予測シミュレーション
クビアカツヤカミキリの分布拡大予測シミュレーションクビアカツヤカミキリの分布拡大予測シミュレーション
クビアカツヤカミキリの 分布拡大予測シミュレーション
 
ESJ69 S26 生物多様性情報学の目指すもの
ESJ69 S26 生物多様性情報学の目指すものESJ69 S26 生物多様性情報学の目指すもの
ESJ69 S26 生物多様性情報学の目指すもの
 
20210922応用生態工学会データベース自由集会
20210922応用生態工学会データベース自由集会20210922応用生態工学会データベース自由集会
20210922応用生態工学会データベース自由集会
 
20210903横国セミナー(水田Eco-DRR)
20210903横国セミナー(水田Eco-DRR)20210903横国セミナー(水田Eco-DRR)
20210903横国セミナー(水田Eco-DRR)
 
2021/3/19 ESJ68シンポジウムS12
2021/3/19 ESJ68シンポジウムS122021/3/19 ESJ68シンポジウムS12
2021/3/19 ESJ68シンポジウムS12
 
20201125バイオロギング研究会ワークショップ【オープンデータ】
20201125バイオロギング研究会ワークショップ【オープンデータ】20201125バイオロギング研究会ワークショップ【オープンデータ】
20201125バイオロギング研究会ワークショップ【オープンデータ】
 
20201003生物多様性情報を使い倒す~GBIF入門~
20201003生物多様性情報を使い倒す~GBIF入門~20201003生物多様性情報を使い倒す~GBIF入門~
20201003生物多様性情報を使い倒す~GBIF入門~
 
20200925兵庫県大土居研セミナー
20200925兵庫県大土居研セミナー20200925兵庫県大土居研セミナー
20200925兵庫県大土居研セミナー
 
20200918京大生態研セミナー
20200918京大生態研セミナー20200918京大生態研セミナー
20200918京大生態研セミナー
 
20191113国環研琵琶湖分室セミナー
20191113国環研琵琶湖分室セミナー20191113国環研琵琶湖分室セミナー
20191113国環研琵琶湖分室セミナー
 
人が繋ぐ研究と実践
人が繋ぐ研究と実践人が繋ぐ研究と実践
人が繋ぐ研究と実践
 
アカスジカスミカメの分布拡大メカニズム
アカスジカスミカメの分布拡大メカニズムアカスジカスミカメの分布拡大メカニズム
アカスジカスミカメの分布拡大メカニズム
 
20181021 gi sg
20181021 gi sg20181021 gi sg
20181021 gi sg
 
Joss2018osawa
Joss2018osawaJoss2018osawa
Joss2018osawa
 
Csvならいいのか?
Csvならいいのか?Csvならいいのか?
Csvならいいのか?
 
生物多様性情報の標準データフォーマットDarwin Core Archiveと生態学データに適合させる拡張形式"Sample-based Data"
生物多様性情報の標準データフォーマットDarwin Core Archiveと生態学データに適合させる拡張形式"Sample-based Data"生物多様性情報の標準データフォーマットDarwin Core Archiveと生態学データに適合させる拡張形式"Sample-based Data"
生物多様性情報の標準データフォーマットDarwin Core Archiveと生態学データに適合させる拡張形式"Sample-based Data"
 
環境科学の研究者から見たオープンデータの利点と現状
環境科学の研究者から見たオープンデータの利点と現状環境科学の研究者から見たオープンデータの利点と現状
環境科学の研究者から見たオープンデータの利点と現状
 
2016/12/21NISTEPホライズン・セミナースライド
2016/12/21NISTEPホライズン・セミナースライド2016/12/21NISTEPホライズン・セミナースライド
2016/12/21NISTEPホライズン・セミナースライド
 
20160610
2016061020160610
20160610
 

標本レコード修正のためのOpen refine(ド基礎編)