ZOZOテクノロジーズ社の研究開発組織・ZOZO研究所が、大規模データセット「Shift15M」およびその実装基盤をオープンソースとして公開した。
「Shift15M」は、2020年4月にサービスを終了したファッションアプリ・IQONに投稿されたコーディネートをもとにした大規模データセット(特定のテーマに沿って収集・整理されたデータの集合)。
2010年から2020年までにIQONへ投稿されたコーディネート約255万件のほか、そのコーディネートに使われたアイテムに関する特徴量233万件、アイテムカテゴリに関するデータやコーディネート投稿への「いいね」数などの関連データも含まれている。
また、回帰問題、分類問題、集合マッチングなど、データ分布のシフトが生じる条件のもとで様々なタスクを検証するためのコードも整備されている。
そのため「Shift15M」および実装基盤の公開により、年々変化するファッションの流行をより正確にとらえ、研究の更なる発展に役立てられるようになった。
またAI開発はデータセットの質および量がそのクオリティを左右するため、ファッションのほかでも幅広い分野で活用が期待できる。
なお、本データセットを使用した研究結果をまとめた研究論文「SHIFT15M: Multiobjective Large-Scale Fashion Dataset with Distributional Shifts」は、様々な論文が保存・公開されているWebサイト・arXivで確認できる(外部リンク)
「Shift15M」は、2020年4月にサービスを終了したファッションアプリ・IQONに投稿されたコーディネートをもとにした大規模データセット(特定のテーマに沿って収集・整理されたデータの集合)。
2010年から2020年までにIQONへ投稿されたコーディネート約255万件のほか、そのコーディネートに使われたアイテムに関する特徴量233万件、アイテムカテゴリに関するデータやコーディネート投稿への「いいね」数などの関連データも含まれている。
併せて公開された実装基盤では、年ごとに異なるコーディネートの傾向を認識し、その変化によって生じるデータ分布のシフトを再現実験で確認することが可能。そのため、変化し続けるファッションの流行をより正確に分析して捉えることができる。【データセットの詳細】
1) アイテムの特徴量
2) コーディネートに含まれるアイテムの情報
3) アイテムやコーディネートの付加情報
3.1) 投稿日時
3.2) 「いいね」の数
3.3) ジャンル・カテゴリ
3.4) 統計情報
3.5) 人間が付与したラベル(学習のための教師信号など)
【アイテム数の詳細】
・コーディネートの数:2,555,147
・コーディネートを構成するアイテム数(重複あり):15,218,721
・コーディネートを構成するアイテム数(重複なし):2,335,598
また、回帰問題、分類問題、集合マッチングなど、データ分布のシフトが生じる条件のもとで様々なタスクを検証するためのコードも整備されている。
データセットの質・量がクオリティを左右するAI開発
ファッションをはじめ多くの分野では、流行の変化によってデータ分布にズレが生じ(分布シフト)、AIの認識精度が低下することが課題となっていた。これを解決するためには実用的なデータセットが必要となる。そのため「Shift15M」および実装基盤の公開により、年々変化するファッションの流行をより正確にとらえ、研究の更なる発展に役立てられるようになった。
またAI開発はデータセットの質および量がそのクオリティを左右するため、ファッションのほかでも幅広い分野で活用が期待できる。
なお、本データセットを使用した研究結果をまとめた研究論文「SHIFT15M: Multiobjective Large-Scale Fashion Dataset with Distributional Shifts」は、様々な論文が保存・公開されているWebサイト・arXivで確認できる(外部リンク)
「ファッション」で誰もが自己表現
この記事どう思う?
関連リンク
0件のコメント