「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

高品質な既製データ

高品質な既製データセットにより、AIモデルのパフォーマンスがすぐに向上します。

言語

全て

データタイプ

全て

日本国内対応自動運転マルチセンサーアノテーション学習データセット

自動運転開発の現場では、日本国内の複雑な交通環境や多様な気象条件を反映した高品質な自動運転教師データセットや、エンドツーエンド学習に対応したE2E自動運転データセットが圧倒的に不足しており、特に実環境に近い日本国内走行データセットの需要が急増しています。Nexdataが提供する日本国内対応自動運転マルチセンサーアノテーション学習データセットは、日本の都市部および沿岸道路を実車両で走行し、LiDAR点群・6視点同期RGBカメラ・RTK-GNSS/IMU・CANバス信号をミリ秒単位で同期収録したマルチモーダル・マルチセンサーアノテーションデータであり、高精度3D物体追跡ボックスや4D車線認識アノテーション、2D交通標識検出データを包括的に搭載しているため、環境認識モデルの学習効率向上や物体追跡アルゴリズムの精度検証、HDマップ構築支援、ADAS機能の実証実験などにご活用いただけます、自動車メーカー・ティア1サプライヤー・大学研究機関・自動運転スタートアップの皆様が抱える「実環境での汎化性能不足」や「学習データの地域バイアス」といった課題を解決し、開発期間の短縮とシステム信頼性の向上を同時に実現可能です。さらに、本データセットはお客様の具体的な開発要件や検証シナリオに合わせて、収録エリア・天候条件・アノテーション項目・データ形式などを柔軟にカスタマイズ可能なオーダーメイド対応も承っておりますので、独自性の高い自動運転システムや次世代モビリティサービスの開発をお考えのお客様にも、最適な学習データソリューションをご提供いたします。
自動運転教師データセット E2E自動運転データセット 日本国内走行データセット マルチセンサーアノテーションデータ

262時間日本人子供日常会話音声データセット

411名・約262時間の大規模な日本語子供音声データセットは、147,668発話に及ぶ子供の読み上げ音声を網羅的に収録しています。6歳から13歳の日本人の子供を低学年と高学年に分類し、男女比もバランスよく構成されています。スマートフォンで収録された16kHz/16bitモノラルWAV形式の音声には高精度な発話書き起こしと読み上げ原稿が付属しており、日本語の子供音声認識(ASR)や音声合成(TTS)、話者認識、発音評価など、多様なAI学習タスクに最適なデータリソースです。
日本語音声認識データ 音声認識データセット 子供音声データセット 子供日常会話音声データセット

300時間日本語金融自然対話音声データセット

実世界の金融シーンにおける多様性に対応するため本日本語音声データセット。実際のインタラクションを反映した口語コーパスを採用しています。金融特有の専門用語や複雑な文脈を自然に含むことでASRやNLPモデルのロバスト性と汎用性を大幅に向上させます。98%の高精度アノテーション済みデータとしてテキストだけでなく時間スタンプや話者分離からノイズ、機密情報まで詳細にラベリングされており、モデルの学習効率と認識精度の最大化に貢献します。低ノイズ環境で収録された16kHz/16bitのWAVフォーマットは前処理の負荷を軽減しディープラーニングにおける本質的な特徴抽出を可能にする理想的なASR学習データです。さらにGDPRやCCPAなど厳格なデータ保護規制に完全準拠しており企業規模のAI開発にも安心してお導入いただけます。
音声認識データセット 日本語音声認識データ 金融分野音声データセット 金融音声データ 金融チャットボット音声データ

151万セット画像編集インストラクションデータセット

現在、生成AIや画像編集モデルの開発では、多様な編集指示に高精度で応答できるインストラクションベース画像編集データの確保が課題です。特に日本語対応の生成AI教師データセットや、ピクセルレベル編集注釈付きの画像合成学習データへの需要が急増しています。 弊社が提供する本データセットは、151万セットの高品質な画像編集ペアを収録。対象ターゲットは人物(クローズアップ・半身・全身)をはじめ、動物・商品・植物・建物・風景・旅行写真・家庭シーンなど、実用的な画像カテゴリを幅広くカバーします。 編集タイプは5種類。人物・物体の一貫性編集50万セット、構造的編集30万セット、複合編集21万セット、空間編集45万セット、スタイル転送編集5万セット。多様な編集ニーズに対応可能です。 収録条件は高品質です。画像解像度は2K以上を保証。データ形式は画像が.jpg/.jpeg/.png、編集指示テキストが.txt。アノテーションは編集指示に従ったピクセルレベル編集を実施。 精度保証も万全です。編集済みデータの適合率は97%超。編集対象と元対象のエッジ誤差は5ピクセル以内を維持。生成モデルの学習用として最適な品質を実現。 本データセットは、画像合成モデルの学習や、データ拡張・仮想シーン生成アルゴリズム開発に最適。生成AI教師データセット、インストラクションベース画像編集学習、テキスト指示対応画像生成、マルチモーダルAI開発など、幅広い用途にご利用いただけます。 多様な編集指示に高精度で応答する画像生成モデルを、効率的に実装可能です。 さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録ターゲット種別・編集タイプ・アノテーション粒度・データ形式などを柔軟に調整。独自性の高い生成AIソリューション開発を、最適な学習データ基盤でサポートいたします。
生成AI教師データ画像編集 画像編集インストラクションデータセット 画像合成 学習データ 生成モデル

48kHz・579時間高音質・話者分離日本語自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質な日本語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した日本語自然会話音声データセットです。日本各地のネイティブ話者による多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。
日本語音声データ 話者分離音声データ 全二重音声データセット 同時双方向音声データセット 日本語自然会話音声データ

122時間日本語固有表現読み上げ音声データセット(数字・地名)

スマートフォンで収録された日本語の読み上げ音声を約100時間収録したデータセットです。指定されたテキストを朗読した音声で構成され、人名、電話番号、住所、数値・英数字列、メールアドレス、製品型番、シリアル番号、金額など多様な固有表現(Named Entity)を豊富に含んでいます。すべての音声には書き起こしテキストが付与されており、音声認識(ASR)、固有表現認識(NER)、音声理解、音声検索、対話AIなどの研究・開発に適しています。実環境に近いスマートフォン収録により、現実的な音響条件を反映した学習データとして利用可能です。データはプライバシー保護および関連法規を遵守して収集・管理されており、GDPR、CCPA、PIPLに準拠しています。
日本語音声データ NER 音声データ 日本語固有表現音声データ 日本語エンティティーワード

10時間ペルースペイン語音声合成データセット

本製品は、音声合成(TTS)、音声認識(ASR)、および機械学習モデルの開発用に設計された、高品質なペルースペイン語音声合成データセットです。合計10時間の音声を含み、ペルーのネイティブ話者によって録音されて、深層学習や生成 AI の研究開発ニーズに精准にマッチします。商用利用可能な学習データとして、仮想アシスタントやナビゲーションシステムなど幅広い用途に対応しています。 技術仕様としては、サンプリングレート48kHz、24-bit、WAV 形式の高音質オーディオを提供し、音素バランス(Phonetically Balanced) が均等にカバーされているため頑健なモデル訓練を保証します。専門の言語学者により精度高くアノテーションされており、時間軸付きトランスクリプト(JSON, TextGrid, CSV 形式)が付属。句読点と文の境界も明確化されており、音声 AI のファインチューニングや本番環境でのデプロイに必要な基礎品質を備えています。 権利関係とコンプライアンス面では、商用利用および研究利用における著作権はクリア済みで、話者が使用契約書に署名済みです。GDPR および CCPA 準拠であり、個人識別情報も適切に管理されています。即時ダウンロード可能で、スタートアップ様から大企業様まで柔軟に提供可能です。音声データ収集のカスタム要件や見積もりのご希望も、お気軽にお問い合わせください。
スペイン語音声合成データセット スペイン語音声データセット ペルースペイン語音声合成データセット

2.88億件3Dモデル・シーンデータセット

フィジカルAIやロボティクス開発において、物理法則に準拠した高品質な3D学習データの確保が大きな課題です。特に大規模な3Dモデルデータセットや、物理シミュレーション対応のエンボディドAI教師データへの需要が急増しています。 弊社が提供する本データセットは、合計2.88億件の3Dアセットを収録。内訳は3Dモデル2.7億件、3Dシーン1,800万件です。モデル種別は、通常モデル・インタラクティブモデル・物理特性強化モデルの3種類。家具・家電・衣類など、住宅空間の多様なオブジェクトを網羅します。 3Dシーンは、室内インテリア空間と商業施設環境の2カテゴリを収録。素材ライブラリは豊富で、物理特性は現実に忠実。インタラクティブ部品の動作制約も高精度に設定済みです。照明表現や鏡面反射シミュレーションも再現。 本データセットは、3Dセット生成や仮想環境シミュレーション、AIモデル学習、産業デザイン用途に最適。エンボディドAI教師データセットや、ロボティクスシミュレーション学習データとしてもご利用いただけます。大規模データによるモデル汎化性能向上や、物理整合性のあるシミュレーション環境構築を、効率的に実現可能です。 さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録オブジェクト種別・物理パラメータ・シーン構成・データ形式などを柔軟に調整。独自性の高いエンボディドAI・ロボティクスソリューション開発を、最適な3Dデータ基盤でサポートいたします。
3Dモデルデータセット 3Dシーンデータセット フィジカルAI教師データ 物理シミュレーション学習データ 仮想環境生成データ ロボティクスシミュレーション学習データ

150万件英語理工系試験問題データセット

現在、大規模言語モデルや教育テック開発では、大学レベルの専門知識を反映した高品質なSTEM問題データの確保が課題です。 弊社が提供する本データセットは、約150万件の英語理工系試験問題を収録。対象は大学レベル。数学・物理学・化学・生物学など、STEM分野を包括的にカバーします。 各問題には、タイトル・正解・解析・科目・学年・問題形式の6項目を付与。数式は構造化形式に変換済み。表形式データも標準化処理済み。コンテンツはクリーニング済みで、学習用として最適な品質を実現。 データ形式はjsonl。英語テキストベースの構造化データです。大規模言語モデルの知識強化タスクや、専門分野の質問応答システム開発に最適です。 本データセットは、STEM分野のLLMファインチューニングや、学術的質問応答モデルの構築、教育用AIアシスタント開発に最適。英語理工系問題の自動解析、数式処理対応の知識強化、グローバル展開を視野に入れた学術AI基盤の整備など、幅広い用途にご利用いただけます。 開発企業の皆様。大学レベルの専門知識を高精度に学習可能な構造化データを活用し、モデルの学術的理解力を効率的に向上可能です。 さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録科目・問題形式・解析粒度・データ形式などを柔軟に調整。独自性の高いSTEM特化LLMソリューション開発を、最適な学習データ基盤でサポートいたします。
英語 STEM 教師データ 理工系 試験問題 データセット LLM 学習データ 専門分野 構造化 QAデータセット

21言語・50万枚 多言語OCR データセット(自然画像・文書画像・スクリーン)

本データセットは、21言語に対応した合計約50万枚のOCR用画像データを収録しています。各言語ごとに約2万〜2.5万枚の画像を含み、自然シーン画像、文書撮影画像、電子画面画像(スクリーン表示)など多様なデータタイプで構成されています。撮影角度、背景、レイアウト、文字種の違いなど、実環境に近い多様性を備えています。アノテーションは行(列)単位での四辺形または多角形による領域ラベリングと内容転写(トランスクリプション)を実施しており、テキスト検出・文字認識・多言語OCRモデルの学習および評価に適しています。
ocrデータセット 日本語ocrデータ OCR画像データ OCR学習データ

20万件国際ランドマーク画像キャプションデータセット

弊社が提供する本データセットは、20万件のランドマーク画像テキストペアを収録。国内ランドマーク8万件、海外ランドマーク12万件をバランスよく包括。対象国は米国・英国・仏・独・露など20カ国以上を網羅します。 収録ランドマークは多様です。商業ビル・古代建築・記念碑・図書館・観光名所など、多様な建築種別をカバー。各ランドマークには1〜10枚の画像を収録。異なるアングル・距離・時間帯からの撮影データを含むため、実環境での汎化性能向上に貢献します。 アノテーションは高精度です。ランドマークの国・都市・所在地・分類・説明文を付与。ランドマーク情報の精度・説明文の精度ともに97%超を保証。データ形式は画像が.jpg、注釈が.json。 本データセットは、ランドマーク認識モデルの学習や、多言語画像キャプション生成、画像テキスト検索システム開発に最適。観光アプリ開発、文化遺産デジタルアーカイブ、グローバル展開を視野に入れた画像理解基盤の整備など、幅広い用途にご利用いただけます。 さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録国・建築種別・言語比率・アノテーション粒度などを柔軟に調整。独自性の高いランドマーク認識ソリューション開発を、最適な学習データ基盤でサポートいたします。
ランドマーク 画像 データセット 観光名所 認識 教師データ 画像キャプション 生成 学習データ 多言語 画像認識 データセット 世界遺産 認識 教師データ 建築 画像 分類 データセット

3D合成DMSデータセット車内監視用・画像動画点群

現在、車内監視システム(DMS)の開発では、多様な姿勢・照明・天候条件を網羅した高品質な教師データの収集に時間とコストがかかる課題があります。特に日本市場では、プライバシー規制に準拠しつつ、実環境に近い車内ハンドジェスチャー認識データセットや、合成データを活用した自動運転教師データセットの需要が高まっています。 弊社が提供する本データセットは、3D高忠実度シミュレーションにより生成された運転者ジェスチャー認識データセットです。完全な車内環境をフォトリアルに再現。カメラ画像・動画・点群データをマルチモーダルで出力します。 収録内容は、物体分類・検出・セグメンテーションラベルに加え、人体ポーズ(頭部・眼球・腕・脚の位置・向き)を高精度にアノテーション。カメラパラメータや照明・天候などのメタ情報も包括。 使用技術は3Dシーンモデリングによる合成データ生成。実走行データでは困難な希少シナリオや極端条件も、安全かつ効率的に再現可能です。データ形式は画像・動画・点群に対応。 本データセットは、車内監視データセットやドライバーモニタリング学習データとして最適。疲労検知・視線追跡・ジェスチャー認識・注意散漫検出など、幅広い車内AI用途にご利用いただけます。 自動車メーカー・ティア1サプライヤー・研究機関・スタートアップの皆様。モデル学習の効率化や、プライバシー規制対応、開発期間短縮など、実用化プロセスを加速可能です。 さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録シナリオ・アノテーション項目・データ形式・メタ情報などを柔軟に調整。独自性の高い車内AIソリューション開発を、最適な合成データ基盤でサポートいたします。
車内監視 合成データセット 自動運転3D合成データ ドライバーモニタリング 教師データ 人体ポーズ認識学習データ
. . .
loading

loading

f4f554a9-3b71-44d6-a15b-9435e0de5ef9