import-from-datalake

説明

データレイクに保管されたファイルおよびメタデータから教師データを作成します。

概要

$ abeja dataset import-from-datalake --help
Usage: abeja dataset import-from-datalake [OPTIONS]

  Imports dataset items from datalake. You can import dataset items from a
  datalake channel with properties. You have to prepare a datalake channel
  that has files you want to use as dataset. `x-abeja-meta-label` and
  `x-abeja-meta-label_id` is used as properties by default. For example,
  `cat00001.jpg` with `x-abeja-meta-label:cat` and `x-abeja-meta-label_id:1`
  is registered to a dataset with label `cat` and label_id 1. You can
  specify the multiple metadata names for properties with `--property-
  metadata-key` option.

Options:
  -c, --channel_id, --channel-id TEXT
                                  DataLake channel id  [required]
  -d, --dataset_id, --dataset-id TEXT
                                  Dataset id  [required]
  --property-metadata-key TEXT    DataLake metadata that is used as property
                                  of dataset. label and label_id is used as
                                  default
  --category_id, --category-id TEXT
                                  category id of the property. default is 1
  --type TEXT                     dataset type. default is classification
  --max-size-for-label INTEGER    Max number of items for each labels that is
                                  uploaded to dataset API
  --help                          Show this message and exit.

オプション

-c, --channel_id

対象となるデータレイクの channel_id を指定します (必須)

-d, --dataset_id

教師データを定義しているデータセットの dataset_id を指定します (必須)

--property-metadata-key

データレイクのファイルからプロパティを抽出するときに使われる、メタデータのキー (x-abeja-meta- 以降の文字列) を指定します。複数のキーを指定することができます。デフォルトでは x-abeja-meta-labelx-abeja-metadata-label_id になります。

--category-id

登録するプロパティの category_id を指定します。デフォルトでは 1 になります。

--type

登録するデータセット・アイテムのタイプを指定します。デフォルトでは classification になります。

--max-size-for-label

アップロードする教師データの最大件数を指定します。

教師データのフォーマット

現在のバージョンでは、classification (画像分類)、detection (物体検出)、segmentation-image (セマンティックセグメンテーション) 向けの教師データを生成できます。

{
  "source_data": [{
    "data_uri": "datalake://130985764897/20170704T062222-cb6750bf-e679-48a6-ab96-0f4292e09f76",
    "data_type": "image/jpeg"
  }],
  "attributes": {
    "classification": {
      "category_id": 1,
      "label_id": 1
    }
  }
}

ラベルとして使用するメタデータの名前を x-abeja-meta-cateogry にする。

コマンド:

$ abeja dataset import-from-datalake --channel_id 1234567890123 \
                                     --dataset_id 1375869849573 \
                                     --property-metadata-key category