分散型AIソリューションを提供するOORTが開発した画像データセットが、Google傘下の機械学習プラットフォーム「Kaggle」において複数カテゴリでフロントページ入りを果たした。これは、データサイエンスとAI開発における高品質かつコミュニティ主導型のトレーニングデータに対する需要の高まりを象徴している。
OORTは2024年4月に「Diverse Tools」という名称のデータセットをKaggle上に公開。エンジニアリング、リテール、製造業など複数カテゴリで上位にランクインした。OORT創業者Max Li氏によれば、中央集権的な仲介を介さずとも、トークン報酬による分散型データ収集は迅速かつ高い参加率を実現できるという。
しかし、AI業界ではトレーニングデータの質と信頼性が大きな課題となっている。2028年には人間が生成したテキストデータが枯渇すると予測されており、画像分野でもアーティストが意図的にデータ汚染(image poisoning)を行う事例が増加している。このような中、OORTのように透明性とインセンティブ設計を兼ね備えた分散型データは、今後のAI開発において重要な位置を占めると期待される。
※本記事は、以下の記事をもとに翻訳・要約しています。
Cointelegraph「Decentralized OORT AI data hits top ranks on Google Kaggle」
コメント
OORTのような分散型データ収集モデルが、AI開発の現場で注目されています。Kaggleでのランキング入りは一例に過ぎず、今後はより信頼性が求められる時代に入ります。AIにとってトレーニングデータの質は性能を大きく左右しますが、中央集権型の閉鎖的な手法では限界もあります。今後のAIエコシステムにおいて、こうしたオープンで参加型の取り組みがどのように主流化していくのか、注目していきたいですね。