- 概要
- スタートアップガイド
- ユーザガイド
-
リファレンス
-
ABEJA Platform CLI
- CONFIG COMMAND
- DATALAKE COMMAND
- DATASET COMMAND
- TRAINING COMMAND
-
MODEL COMMAND
- check-endpoint-image
- check-endpoint-json
- create-deployment
- create-endpoint
- create-model
- create-service
- create-trigger
- create-version
- delete-deployment
- delete-endpoint
- delete-model
- delete-service
- delete-version
- describe-deployments
- describe-endpoints
- describe-models
- describe-service-logs
- describe-services
- describe-versions
- download-versions
- run-local
- run-local-server
- start-service
- stop-service
- submit-run
- update-endpoint
- startapp command
-
ABEJA Platform CLI
- FAQ
- Appendix
データ取得・データセット作成
はじめに
このページではJupyter Notebookを使い、学習に使うデータを取得・DataLakeにデータアップロード・データセットを作成する方法について、解説します。
ステップ1
Jupyter Notebookを起動
こちらのチュートリアルでは、Notebookを利用します。Notebookは「ジョブ定義」を作成することで、ご利用いただけます。
「ジョブ定義」を作成し、「Notebook」を起動します。
ステップ2
Jupyter NotebookでTerminalの起動
起動したNotebookからTerminalを開き、チュートリアル用のNotebookファイルを格納する準備をします。
「Notebook」を開き、Terminalを開きます。
ステップ3
Terminalでチュートリアル用のデータを取得します。
起動したTerminalでコマンドを実施し、Notebookファイルをダウンロードします。
チュートリアル用のNotebookファイルをGitHubよりダウンロードします。
$ git clone https://github.com/abeja-inc/Platform_handson.git
これで、Jupyter Notebookからデータ格納・データセットを作成するための準備ができました。
ステップ4
Jupyter Nootbookで、利用するデータのダウンロード・解凍・チェック
このステップでは、学習に利用するデータのダウンロード・解凍・チェックを実施します。
チュートリアル用のフォルダ「bording」の中にある、Notebookファイル「01_collect_data.ipynb」を選択し開きます。
Notebook内の操作については、「データのダウンロード」・「データの解凍」・「ファイルのチェック」を実施しています。
- データのダウンロード:Google Driveより学習に利用するため花の画像を取得
- データの解凍:圧縮ファイルを解凍
- ファイルのチェック:データ数やフォルダ名をチェック
ステップ5
Datalakeのチャンネル作成
取得したデータをDatalakeに格納するため、チャンネルを作成します。
※Datalakeチャンネルは、すでに作成されているチャンネル名は利用できません。(アーカイブされていても同様です。)
ステップ6
Datalakeへデータアップロード
Datalakeチャンネルが作成できたので、データをアップロードをしていきます。 まずは、アップロードに必要な認証情報を設定します。認証情報の確認方法は こちら を参考ください。
以下の認証情報をNotebookに入力し、実行します。 - User ID - Personal Access Token - Organization ID
その後、先程作成したDataLakeのチャネルIDの情報が必要になるので、チャンネルIDを入力し、実行。 すると、DataLakeチャンネルにデータアップロードが始まります。 100%になった後、DataLakeチャンネルを確認し、正常にファイルが格納されているか確認してください。
ステップ7
データセットの作成
次にデータセットを作成します。
まずは、Notebookを実行し、データセットに紐付ける情報をJSON形式で取得します。
その後、左メニューよりデータセット作成を実施、今回はClassificationを実施するため、「データセットのタイプ」を「Classfication」に指定します。
「プロパティ」の値に先程、出力したJSON情報を貼付け、「データセット作成」を実施します。
サンプルでは、以下のようなJSONを利用しています。
{
"categories": [
{
"category_id": 0,
"labels": [
{
"label": "daisy",
"label_id": 0
},
{
"label": "dandelion",
"label_id": 1
},
{
"label": "rose",
"label_id": 2
},
{
"label": "sunflower",
"label_id": 3
},
{
"label": "tulip",
"label_id": 4
}
],
"name": "flower-classificaiton"
}
]
}
最後に、データにラベルを付与し、データセットを作成していきます。先程作成したデータセットIDを参照し「dataset_id」に入力します。
※こちらの例では、アップロード時に拡張子を確認し、不要なデータを排除してデータセットを作成しています。
お疲れさまでした。Notebookからデータ取得・データアップロード・データセット作成を実施できました。
次はテンプレート機能を利用し、「学習・モデル作成」を解説します。