import-from-datalake

説明

データレイクに保管されたファイルおよびメタデータから教師データを作成します。

概要

$ abeja dataset import-from-datalake --help
Usage: abeja dataset import-from-datalake [OPTIONS]

  Imports dataset items from datalake. You can import dataset items from a
  datalake channel with labels. You have to prepare a datalake channel that
  has files you want to use as dataset. `x-abeja-meta-label` is used as
  label by default. For example, `cat00001.jpg` with `x-abeja-meta-
  label:cat` is registered to a dataset with label `cat`. You can specify
  the metadata name for label with `--label-metadata` option.

Options:
  -c, --channel_id TEXT         DataLake channel id  [required]
  -d, --dataset_id TEXT         Dataset id  [required]
  --label-metadata-name TEXT    DataLake metadata that is used as label.
                                x-abeja-meta-label is used as default.
  --max-size-for-label INTEGER  Max number of items for each labels that is
                                uploaded to dataset API
  --help                        Show this message and exit.

オプション

-c, --channel_id

対象となるデータレイクの channel_id を指定します (必須)

-d, --dataset_id

教師データを定義しているデータセットの dataset_id を指定します (必須)

--label-metadata-name

データレイクのファイルからラベルを抽出するときに使われる、メタデータのキー (x-abeja-meta- 以降の文字列) を指定します。デフォルトでは x-abeja-meta-label になります。

--max-size-for-label

アップロードする教師データの最大件数を指定します。

教師データのフォーマット

現在のバージョンでは、classification (画像分類)、detection (物体検出)、segmentation-image (セマンティックセグメンテーション) 向けの教師データを生成できます。

{
  "source_data": [{
    "data_uri": "datalake://130985764897/20170704T062222-cb6750bf-e679-48a6-ab96-0f4292e09f76",
    "data_type": "image/jpeg"
  }],
  "attributes": {
    "classification": {
      "category_id": 1,
      "label_id": 1
    }
  }
}

ラベルとして使用するメタデータの名前を x-abeja-meta-cateogry にする。

コマンド:

$ abeja dataset import-from-datalake --channel_id 1234567890123 \
                                     --dataset_id 1375869849573 \
                                     --label-metadata category