- 概要
- スタートアップガイド
- ユーザガイド
-
リファレンス
-
ABEJA Platform CLI
- CONFIG COMMAND
- DATALAKE COMMAND
- DATASET COMMAND
- TRAINING COMMAND
-
MODEL COMMAND
- check-endpoint-image
- check-endpoint-json
- create-deployment
- create-endpoint
- create-model
- create-service
- create-trigger
- create-version
- delete-deployment
- delete-endpoint
- delete-model
- delete-service
- delete-version
- describe-deployments
- describe-endpoints
- describe-models
- describe-service-logs
- describe-services
- describe-versions
- download-versions
- run-local
- run-local-server
- start-service
- stop-service
- submit-run
- update-endpoint
- startapp command
-
ABEJA Platform CLI
- FAQ
- Appendix
データセット
モデルの学習には、入力となるデータに加えてアノテーションされたメタデータ(教師あり学習の場合は、「正解」を与えるラベル)も用意します。これらを一般的に「データセット」と言いますが、ABEJA Platform ではこれらを簡単に扱うために データセットとデータセット・アイテム というリソースを用意しています。
データセット
ABEJA Platform に、モデルの学習に使うデータおよびアノテーションされたメタデータを登録するには、いずれかのオーガニゼーションにデータセットを作成します。その後、データセットにアイテムをいくつでも登録できます。
データセットでは名前や推論の種類などを管理していますが、もっとも重要なのは、教師データとなるラベルの管理です。典型的にはラベルの ID と名前を JSON で記録しています。
{
"categories": [
{
"labels": [
{
"label_id": 1,
"label": "dog"
},
{
"label_id": 2,
"label": "cat"
},
{
"label_id": 3,
"label": "others"
}
],
"category_id": 1,
"name": "cats_dogs"
}
]
}
データセット・アイテム
データセットにはモデル学習の入力となるデータ(画像ファイルなど)への参照と教師データとなるラベルを組み合わせたデータセット・アイテムをいくつでも登録できます。
{
"source_data": [{
"data_uri": "datalake://130985764897/20170704T062222-cb6750bf-e679-48a6-ab96-0f4292e09f76",
"data_type": "image/jpeg"
}],
"attributes": {
"classification": {
"category_id": 1,
"label_id": 2
}
}
}
モデル学習時には ABEJA Platform の提供する SDK を使って、データの実体とラベルを取得することができます。