「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

LLMデータセット

既製の高品質データセットでAIモデルのパフォーマンスを即座に向上させます。

タイプ

全て
14
画像キャプション
8
SFTデータセット
1
事前学習向けテキスト
5

151万セット画像編集インストラクションデータセット

現在、生成AIや画像編集モデルの開発では、多様な編集指示に高精度で応答できるインストラクションベース画像編集データの確保が課題です。特に日本語対応の生成AI教師データセットや、ピクセルレベル編集注釈付きの画像合成学習データへの需要が急増しています。 弊社が提供する本データセットは、151万セットの高品質な画像編集ペアを収録。対象ターゲットは人物(クローズアップ・半身・全身)をはじめ、動物・商品・植物・建物・風景・旅行写真・家庭シーンなど、実用的な画像カテゴリを幅広くカバーします。 編集タイプは5種類。人物・物体の一貫性編集50万セット、構造的編集30万セット、複合編集21万セット、空間編集45万セット、スタイル転送編集5万セット。多様な編集ニーズに対応可能です。 収録条件は高品質です。画像解像度は2K以上を保証。データ形式は画像が.jpg/.jpeg/.png、編集指示テキストが.txt。アノテーションは編集指示に従ったピクセルレベル編集を実施。 精度保証も万全です。編集済みデータの適合率は97%超。編集対象と元対象のエッジ誤差は5ピクセル以内を維持。生成モデルの学習用として最適な品質を実現。 本データセットは、画像合成モデルの学習や、データ拡張・仮想シーン生成アルゴリズム開発に最適。生成AI教師データセット、インストラクションベース画像編集学習、テキスト指示対応画像生成、マルチモーダルAI開発など、幅広い用途にご利用いただけます。 多様な編集指示に高精度で応答する画像生成モデルを、効率的に実装可能です。 さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録ターゲット種別・編集タイプ・アノテーション粒度・データ形式などを柔軟に調整。独自性の高い生成AIソリューション開発を、最適な学習データ基盤でサポートいたします。
生成AI教師データ画像編集 画像編集インストラクションデータセット 画像合成 学習データ 生成モデル

150万問の韓国語試験問題構造化解析処理データ

韓国語試験問題の構造化解析処理データ、試験問題総数は約150万問。各問題は問題タイプ、問題文、解答、解析などのフィールドを含む。科目は【小学校】国語、数学、英語、社会、科学;【中学校】国語、英語、数学、科学、社会;【高校】国語、英語、数学、物理、化学、生物、歴史、地理を含む。問題タイプは選択問題、空欄補充問題、正誤問題、記述問題など。このデータは大規模モデルの学科知識強化タスクに利用可能。
K12問題 テキスト LLM 韓国語

なぞなぞ・クイズ(急转弯を含む)データ

なぞなぞ・クイズ(急转弯を含む)データは、合計で10万件余りのなぞなぞデータと3000件余りのクイズ(急转弯)データを含んでおり、大規模モデルのトレーニングや携帯電話アシスタントなど、複数のアプリケーションシーンで利用可能です。
なぞなぞ クイズ(急转弯)

20,011枚自然風景OCR記述データ

現在、多言語対応のOCRシステムや画像キャプション生成モデルの開発では、自然シーンに特化した高精度な多言語テキスト認識データの確保が課題です。 弊社が提供する本データセットは、20,011枚の自然シーン画像と英語キャプションを収録。対象言語は14言語。アジア7言語(日本語・韓国語・中国語・タイ語・ベトナム語・インドネシア語・マレー語)と欧州7言語(英語・仏・独・伊・西・葡・露)を包括。 収録環境は実用的な自然シーン中心。店舗看板・道路標識・ポスター・停止標識・案内表示など、多様な実環境を網羅。スマートフォン・カメラで撮影。複数アングル・多様な照明条件に対応。 アノテーションは高精度です。画像内のテキスト配置・内容・色・シーンを英語で記述。原則30〜60語・3〜5文の簡潔な説明文。正解ラベル率は97%超を保証。データ形式は画像が.jpg、注釈が.txt。 本データセットは、自然シーンOCRモデルの学習や、多言語画像キャプション生成、画像テキスト検索システム開発に最適。AIGCコンテンツ作成、多言語対応画像理解、グローバル展開を視野に入れたOCR基盤の整備など、幅広い用途にご利用いただけます。 さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録言語・シーン種別・説明文長さ・アノテーション粒度などを柔軟に調整。独自性の高い多言語OCRソリューション開発を、最適な学習データ基盤でサポートいたします。
多言語OCRデータ 多言語OCRデータ OCRデータ OCRデータセット 自然シーンOCR データセット 店舗看板 文字認識 学習データ 多言語画像キャプション教師データ

89,007枚日本語・アラビア語画像質問応答データセット

現在、マルチモーダル大規模言語モデルや多言語画像理解システムの開発では、高品質な画像テキストペアデータの確保が課題です。 弊社が提供する本データセットは、89,007セットの画像テキストペアを収録。日本語46,913セット、アラビア語42,094セットをバランスよく包括。各サンプルは1枚の画像と1つのJSONドキュメントで構成されます。 収録タスクは4種類。画像キャプション生成、視覚的質問応答(VQA)、OCR文字認識、OCRベースVQAを網羅。さらに6つの専門分野(ビジネス/金融、コーディング/コンピュータサイエンス、法/政治/行政、科学技術/工学/数学、社会/文化/人文/宗教、スポーツ/ライフスタイル)をカバー。 アノテーション精度は95%超を保証。画像ドメイン分類精度、画像テキスト整合性、OCR認識精度のすべてで高品質を実現。データ形式は画像がJPG、注釈がJSON。 本データセットは、マルチモーダル大規模言語モデルの学習や、多言語画像キャプション生成、視覚的質問応答システム開発に最適。日本語・アラビア語対応の多言語OCR、クロスランゲージ画像理解、グローバル展開を視野に入れたマルチモーダルAI基盤の整備など、幅広い用途にご利用いただけます。 お客様の開発要件に合わせてカスタマイズ対応も可能。収録言語比率・タスク種別・分野構成・アノテーション粒度などを柔軟に調整。独自性の高い多言語マルチモーダルソリューション開発を、最適な学習データ基盤でサポートいたします。
画像質問応答 学習データセット 画像キャプション教師データ 日本語画像テキストデータ

20万件国際ランドマーク画像キャプションデータセット

弊社が提供する本データセットは、20万件のランドマーク画像テキストペアを収録。国内ランドマーク8万件、海外ランドマーク12万件をバランスよく包括。対象国は米国・英国・仏・独・露など20カ国以上を網羅します。 収録ランドマークは多様です。商業ビル・古代建築・記念碑・図書館・観光名所など、多様な建築種別をカバー。各ランドマークには1〜10枚の画像を収録。異なるアングル・距離・時間帯からの撮影データを含むため、実環境での汎化性能向上に貢献します。 アノテーションは高精度です。ランドマークの国・都市・所在地・分類・説明文を付与。ランドマーク情報の精度・説明文の精度ともに97%超を保証。データ形式は画像が.jpg、注釈が.json。 本データセットは、ランドマーク認識モデルの学習や、多言語画像キャプション生成、画像テキスト検索システム開発に最適。観光アプリ開発、文化遺産デジタルアーカイブ、グローバル展開を視野に入れた画像理解基盤の整備など、幅広い用途にご利用いただけます。 さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録国・建築種別・言語比率・アノテーション粒度などを柔軟に調整。独自性の高いランドマーク認識ソリューション開発を、最適な学習データ基盤でサポートいたします。
ランドマーク 画像 データセット 観光名所 認識 教師データ 画像キャプション 生成 学習データ 多言語 画像認識 データセット 世界遺産 認識 教師データ 建築 画像 分類 データセット

150万件英語理工系試験問題データセット

現在、大規模言語モデルや教育テック開発では、大学レベルの専門知識を反映した高品質なSTEM問題データの確保が課題です。 弊社が提供する本データセットは、約150万件の英語理工系試験問題を収録。対象は大学レベル。数学・物理学・化学・生物学など、STEM分野を包括的にカバーします。 各問題には、タイトル・正解・解析・科目・学年・問題形式の6項目を付与。数式は構造化形式に変換済み。表形式データも標準化処理済み。コンテンツはクリーニング済みで、学習用として最適な品質を実現。 データ形式はjsonl。英語テキストベースの構造化データです。大規模言語モデルの知識強化タスクや、専門分野の質問応答システム開発に最適です。 本データセットは、STEM分野のLLMファインチューニングや、学術的質問応答モデルの構築、教育用AIアシスタント開発に最適。英語理工系問題の自動解析、数式処理対応の知識強化、グローバル展開を視野に入れた学術AI基盤の整備など、幅広い用途にご利用いただけます。 開発企業の皆様。大学レベルの専門知識を高精度に学習可能な構造化データを活用し、モデルの学術的理解力を効率的に向上可能です。 さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録科目・問題形式・解析粒度・データ形式などを柔軟に調整。独自性の高いSTEM特化LLMソリューション開発を、最適な学習データ基盤でサポートいたします。
英語 STEM 教師データ 理工系 試験問題 データセット LLM 学習データ 専門分野 構造化 QAデータセット

204,522枚教育テスト問題画像OCRデータセット

現在、教育テックやAI採点システムの開発では、多様な科目・問題形式に対応した高精度なテスト問題画像データの確保が課題です。 弊社が提供する本データセットは、204,522枚のテスト問題画像を収録。小学校・中学校・高校・大学・職業教育まで、幅広い学習領域をカバーします。 収録問題形式は多岐にわたります。単一・複数選択式、穴埋め、短答、記述式、図版付き問題など、実用的な設問タイプを網羅。収集デバイスはスキャナーとスマートフォン。実環境での撮影バリエーションも確保。 アノテーションは高精度です。問題文・選択肢・解答・図版に対して、四角形バウンディングボックスとテキスト転写を付与。数式・表はLaTeX形式で変換済み。データ形式は画像が.jpg、注釈が.json、数式が.tex。 本データセットは、教育画像OCRモデルの学習や、自動採点システム・宿題チュータリングアプリ開発に最適。テスト問題認識、LaTeX数式変換、多科目一括処理、EdTechプラットフォーム構築など、幅広い用途にご利用いただけます。 さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録科目・問題形式・アノテーション粒度・データ形式などを柔軟に調整。GDPR/CCPA/PIPL準拠のプライバシー保護のもと、独自性の高い教育テックソリューション開発をサポートいたします。
教育 画像OCR データセット 試験問題 認識 教師データ 自動採点 システム 学習データ

20,846セット料理画像キャプションデータ

20,846グループのレシピ画像テキストペアを収録。各レシピには4〜18枚の工程画像が含まれ、それぞれに詳細な手順説明が付属します。 収録料理は多国籍です。中国料理・西洋料理・韓国料理・日本料理など、多様な食文化を網羅。説明文は中国語(15語以上)と英語(30語以上)のバイリンガル対応。画像解像度は原則200万ピクセル以上を保証。 アノテーション品質も高く、各画像に詳細なステップバイステップ説明を付与。文章精度は95%超を維持。明瞭で客観的な記述、誤字脱字なし、機微コンテンツ排除を実現。データ形式は画像が.jpg、注釈が.txt。 本データセットは、視覚言語モデルの学習や、料理画像キャプション生成、マルチモーダルレシピ理解アルゴリズム開発に最適。中日英バイリンガル対応の調理手順説明生成、AIGC料理コンテンツ作成、指示追従型料理アシスタント開発など、幅広い用途にご利用いただけます。 さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録料理種別・言語比率・説明文言語・アノテーション粒度などを柔軟に調整。独自性の高い料理関連マルチモーダルソリューション開発を、最適な学習データ基盤でサポートいたします。
料理 画像キャプション データセット レシピ 画像テキスト 教師データ 視覚言語モデル学習データ

loading

今すぐデータをカスタマイズ

既製データセットの強み

  • 著作権あり

    著作権あり

    自社版権で すぐ納品可能
  • 安全

    安全

    承認済み 安全で使用可能
  • 専門性高い

    専門性高い

    AIデータの専門家により 設計・作成
  • 多様性に富む

    多様性に富む

    様々な 実際のシーンから収集
  • コスパ高い

    コスパ高い

    カスタマイズより コスパが優れている
  • 効率的

    効率的

    即座に 納品可能
15402c78-a3e4-4267-a29d-4862c3948080