「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

【2026年最新】音声認識・VLM・VLA新規データセットのご案内|高品質なAI学習用データライブラリ

発信者:Nexdata 日時: 05/29/2026

このたび、Nexdataでは、最新のAI研究トレンドに対応した高品質な学習用データセットを新たにリリースいたしました。音声認識・合成、マルチモーダル、そしてエンボディドAIやワールドモデルまで、幅広い領域でモデルの精度向上と実用化を加速させるデータソリューションをご提供します。

ASR&TTS 音声データセット

300時間 全二重英語自然会話音声データ

収録形式:マイク&スマートフォン併用、48kHz/24kHz 非圧縮WAV
話者構成:5,810名参加、男女比均衡、全年齢層をカバー
収録特徴:事前スクリプトなしの自然対話、話題は話者が選択、全二重設計により音声重なりや環境音も忠実に再現
品質保証:文字認識精度 99%
活用用途:音声認識(ASR)、話者認識モデルの学習に最適

579時間 48kHz 全二重方式 日本語自然会話音声データ

収録形式:48kHz/32bit 非圧縮WAV、高忠実度マイク収録
収録特徴:親しみやすい話題に基づく自然な対話、実環境に近いフローを実現
アノテーション:音声重なりタグ付き、双方の同時発話および環境音を完全保持
品質保証:文字認識精度 98%超
活用用途:日本語音声認識・話者認識・対話システムの高精度化に貢献する希少リソース

100時間エンティティワードアノテーション付き朗読音声データ(日本語)

日本語ネイティブによる実環境収録、8種類の重要エンティティを精密カバー、16kHz/16bit 非圧縮WAV、文字認識精度 98%。対応言語拡充中:オランダ語、タイ語、ポルトガル語、ドイツ語、フランス語、英語、韓国語など、統一アノテーション基準でグローバル展開。


マルチモーダル大規模モデル向けデータセット

160万セットの画像・動画編集データ

編集の種類には、人物属性の編集、画像の意味的編集、画像構造の編集が含まれます。編集対象は、人物、動物、商品、植物、風景などのシーンを網羅しています。アノテーションに関しては、編集指示に基づき、画像や動画内の編集対象に対して編集を行います。編集結果は自然かつ合理的であり、画像合成、データ拡張、仮想シーン生成、動画編集などのタスクに活用可能です。

5000時間ロボットハンドの遠隔操作データ

短時間タスクおよび長時間タスクのフレームレートは24FPS以上です。キッチン、書斎、リビングルームなどの家庭内シミュレーションシーンを網羅し、多様なシーンや照明条件が含まれています。本データは多視点同時収録に基づき、高精度なアノテーション(関節位置、タスク指令、各種タグ(照明条件、干渉タイプなど))を付加しています。多視点デバイス間の同期誤差は25ms未満、合格率は95%を超えています。多自由度ロボットアームとの協調動作に対応し、エンボディドインテリジェンスモデルのトレーニングに特化して設計されています。高品質な視覚・運動・触覚入力を提供し、複雑な環境の理解と精密操作の向上を支援します。

10万セットの人物・物体による一人称インタラクティブ動画アノテーションデータ

一人称視点の人物によるマルチタスクインタラクティブ動画で、タスクには料理、手芸、スポーツなどが含まれます。アノテーションは、全体的な記述と動作ごとの詳細な記述の2つの部分で構成されています。正答率は98%を超えています。アノテーションに明らかな文法誤り、明らかな誤字脱字、わいせつ・暴力などのセンシティブな情報が含まれていない場合、正しいアノテーションとみなします。句読点で区切られた文のうち、正しいアノテーションの割合は95%以上です。

230万分の3Dゲームシーンワールドモデルデータ

本データには230万分の3Dゲームシーン動画が含まれており、解像度は2560×1440以上、フレームレートは24FPS以上です。多様な天候や地形、および実際のプレイヤーとのインタラクション(攻撃、乗り物)を網羅しており、UIによる遮蔽がなく、シーンはクリアです。高精度なアノテーションが付いており、キーボード・マウスの操作軌跡やインタラクションのセマンティクスが含まれています。時間誤差は0.1秒未満で、合格率は95%を超えています。ワールドモデル学習専用に設計されており、高品質な視覚・動作入力を提供することで、複雑な3D環境におけるAIの理解力と意思決定能力の向上を支援します。

1000時間のリアルな人間とワールド一人称インタラクション動画データ

ワールドシーンの探索(主に一人称視点での閲覧を撮影)およびワールドシーンとのインタラクション(人間とオブジェクト、または人間同士のインタラクションを含む。全体として前進を続け、シーンが変化し続ける必要がある)を網羅しており、収集要件を満たす動画データの割合は98%以上です。

各データセットの詳細仕様・利用条件・サンプルデータにつきましては、お気軽にお問い合わせください。AI研究開発の次のブレイクスルーを、高品質データと共に。

Nexdata会社情報・AI開発に役立つ事例・業界レポートをダウンロードできます。

今すぐチェック
01d3d133-7bf6-464a-a268-0b1e22e51f09