import-from-datalake

説明

データレイクに保管されたファイルおよびメタデータから教師データを作成します。

概要

$ abeja dataset import-from-datalake --channel_id <value> --dataset_id <value> --label-metadata <value> --max <value>
[--help]

オプション

-c, --channel_id

対象となるデータレイクの channel_id を指定します (必須)

-d, --dataset_id

教師データを定義しているデータセットの dataset_id を指定します (必須)

--label-metadata

データレイクのファイルからラベルを抽出するときに使われる、メタデータのキー (x-abeja-meta- 以降の文字列) を指定します。デフォルトでは x-abeja-meta-label になります。

--max

アップロードする教師データの最大件数を指定します。

教師データのフォーマット

現在のバージョンでは、classification (分類問題) 向けの教師データを生成できます。

{
  "source_data": [{
    "data_uri": "datalake://130985764897/20170704T062222-cb6750bf-e679-48a6-ab96-0f4292e09f76",
    "data_type": "image/jpeg"
  }],
  "attributes": {
    "classification": {
      "category_id": 1,
      "label_id": 1
    }
  }
}

ラベルとして使用するメタデータの名前を x-abeja-meta-cateogry にする。

$ abeja dataset import-from-datalake --channel_id 1234567890123 \
                                     --dataset_id 1375869849573 \
                                     --label-metadata category