大規模言語モデルデータセット - Nexdata

「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

カスタマーサービス

お問い合わせ

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

ホーム > 全てのデータセット > LLMデータセット

タイプ

全て

14

画像キャプション

8

SFTデータセット

1

事前学習向けテキスト

5

151万セット画像編集インストラクションデータセット

現在、生成AIや画像編集モデルの開発では、多様な編集指示に高精度で応答できるインストラクションベース画像編集データの確保が課題です。特に日本語対応の生成AI教師データセットや、ピクセルレベル編集注釈付きの画像合成学習データへの需要が急増しています。弊社が提供する本データセットは、151万セットの高品質な画像編集ペアを収録。対象ターゲットは人物（クローズアップ・半身・全身）をはじめ、動物・商品・植物・建物・風景・旅行写真・家庭シーンなど、実用的な画像カテゴリを幅広くカバーします。編集タイプは5種類。人物・物体の一貫性編集50万セット、構造的編集30万セット、複合編集21万セット、空間編集45万セット、スタイル転送編集5万セット。多様な編集ニーズに対応可能です。収録条件は高品質です。画像解像度は2K以上を保証。データ形式は画像が.jpg/.jpeg/.png、編集指示テキストが.txt。アノテーションは編集指示に従ったピクセルレベル編集を実施。精度保証も万全です。編集済みデータの適合率は97%超。編集対象と元対象のエッジ誤差は5ピクセル以内を維持。生成モデルの学習用として最適な品質を実現。本データセットは、画像合成モデルの学習や、データ拡張・仮想シーン生成アルゴリズム開発に最適。生成AI教師データセット、インストラクションベース画像編集学習、テキスト指示対応画像生成、マルチモーダルAI開発など、幅広い用途にご利用いただけます。多様な編集指示に高精度で応答する画像生成モデルを、効率的に実装可能です。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録ターゲット種別・編集タイプ・アノテーション粒度・データ形式などを柔軟に調整。独自性の高い生成AIソリューション開発を、最適な学習データ基盤でサポートいたします。

生成AI教師データ画像編集画像編集インストラクションデータセット画像合成学習データ生成モデル

150万問の韓国語試験問題構造化解析処理データ

韓国語試験問題の構造化解析処理データ、試験問題総数は約150万問。各問題は問題タイプ、問題文、解答、解析などのフィールドを含む。科目は【小学校】国語、数学、英語、社会、科学；【中学校】国語、英語、数学、科学、社会；【高校】国語、英語、数学、物理、化学、生物、歴史、地理を含む。問題タイプは選択問題、空欄補充問題、正誤問題、記述問題など。このデータは大規模モデルの学科知識強化タスクに利用可能。

K12問題テキスト LLM 韓国語

なぞなぞ・クイズ（急转弯を含む）データ

なぞなぞ・クイズ（急转弯を含む）データは、合計で10万件余りのなぞなぞデータと3000件余りのクイズ（急转弯）データを含んでおり、大規模モデルのトレーニングや携帯電話アシスタントなど、複数のアプリケーションシーンで利用可能です。

なぞなぞクイズ（急转弯）

20,011枚自然風景OCR記述データ

現在、多言語対応のOCRシステムや画像キャプション生成モデルの開発では、自然シーンに特化した高精度な多言語テキスト認識データの確保が課題です。弊社が提供する本データセットは、20,011枚の自然シーン画像と英語キャプションを収録。対象言語は14言語。アジア7言語（日本語・韓国語・中国語・タイ語・ベトナム語・インドネシア語・マレー語）と欧州7言語（英語・仏・独・伊・西・葡・露）を包括。収録環境は実用的な自然シーン中心。店舗看板・道路標識・ポスター・停止標識・案内表示など、多様な実環境を網羅。スマートフォン・カメラで撮影。複数アングル・多様な照明条件に対応。アノテーションは高精度です。画像内のテキスト配置・内容・色・シーンを英語で記述。原則30〜60語・3〜5文の簡潔な説明文。正解ラベル率は97%超を保証。データ形式は画像が.jpg、注釈が.txt。本データセットは、自然シーンOCRモデルの学習や、多言語画像キャプション生成、画像テキスト検索システム開発に最適。AIGCコンテンツ作成、多言語対応画像理解、グローバル展開を視野に入れたOCR基盤の整備など、幅広い用途にご利用いただけます。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録言語・シーン種別・説明文長さ・アノテーション粒度などを柔軟に調整。独自性の高い多言語OCRソリューション開発を、最適な学習データ基盤でサポートいたします。

多言語OCRデータ多言語OCRデータ OCRデータ OCRデータセット自然シーンOCR データセット店舗看板文字認識学習データ多言語画像キャプション教師データ

89,007枚日本語・アラビア語画像質問応答データセット

現在、マルチモーダル大規模言語モデルや多言語画像理解システムの開発では、高品質な画像テキストペアデータの確保が課題です。弊社が提供する本データセットは、89,007セットの画像テキストペアを収録。日本語46,913セット、アラビア語42,094セットをバランスよく包括。各サンプルは1枚の画像と1つのJSONドキュメントで構成されます。収録タスクは4種類。画像キャプション生成、視覚的質問応答（VQA）、OCR文字認識、OCRベースVQAを網羅。さらに6つの専門分野（ビジネス/金融、コーディング/コンピュータサイエンス、法/政治/行政、科学技術/工学/数学、社会/文化/人文/宗教、スポーツ/ライフスタイル）をカバー。アノテーション精度は95%超を保証。画像ドメイン分類精度、画像テキスト整合性、OCR認識精度のすべてで高品質を実現。データ形式は画像がJPG、注釈がJSON。本データセットは、マルチモーダル大規模言語モデルの学習や、多言語画像キャプション生成、視覚的質問応答システム開発に最適。日本語・アラビア語対応の多言語OCR、クロスランゲージ画像理解、グローバル展開を視野に入れたマルチモーダルAI基盤の整備など、幅広い用途にご利用いただけます。お客様の開発要件に合わせてカスタマイズ対応も可能。収録言語比率・タスク種別・分野構成・アノテーション粒度などを柔軟に調整。独自性の高い多言語マルチモーダルソリューション開発を、最適な学習データ基盤でサポートいたします。

画像質問応答学習データセット画像キャプション教師データ日本語画像テキストデータ

20万件国際ランドマーク画像キャプションデータセット

弊社が提供する本データセットは、20万件のランドマーク画像テキストペアを収録。国内ランドマーク8万件、海外ランドマーク12万件をバランスよく包括。対象国は米国・英国・仏・独・露など20カ国以上を網羅します。収録ランドマークは多様です。商業ビル・古代建築・記念碑・図書館・観光名所など、多様な建築種別をカバー。各ランドマークには1〜10枚の画像を収録。異なるアングル・距離・時間帯からの撮影データを含むため、実環境での汎化性能向上に貢献します。アノテーションは高精度です。ランドマークの国・都市・所在地・分類・説明文を付与。ランドマーク情報の精度・説明文の精度ともに97%超を保証。データ形式は画像が.jpg、注釈が.json。本データセットは、ランドマーク認識モデルの学習や、多言語画像キャプション生成、画像テキスト検索システム開発に最適。観光アプリ開発、文化遺産デジタルアーカイブ、グローバル展開を視野に入れた画像理解基盤の整備など、幅広い用途にご利用いただけます。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録国・建築種別・言語比率・アノテーション粒度などを柔軟に調整。独自性の高いランドマーク認識ソリューション開発を、最適な学習データ基盤でサポートいたします。

ランドマーク画像データセット観光名所認識教師データ画像キャプション生成学習データ多言語画像認識データセット世界遺産認識教師データ建築画像分類データセット

150万件英語理工系試験問題データセット

現在、大規模言語モデルや教育テック開発では、大学レベルの専門知識を反映した高品質なSTEM問題データの確保が課題です。弊社が提供する本データセットは、約150万件の英語理工系試験問題を収録。対象は大学レベル。数学・物理学・化学・生物学など、STEM分野を包括的にカバーします。各問題には、タイトル・正解・解析・科目・学年・問題形式の6項目を付与。数式は構造化形式に変換済み。表形式データも標準化処理済み。コンテンツはクリーニング済みで、学習用として最適な品質を実現。データ形式はjsonl。英語テキストベースの構造化データです。大規模言語モデルの知識強化タスクや、専門分野の質問応答システム開発に最適です。本データセットは、STEM分野のLLMファインチューニングや、学術的質問応答モデルの構築、教育用AIアシスタント開発に最適。英語理工系問題の自動解析、数式処理対応の知識強化、グローバル展開を視野に入れた学術AI基盤の整備など、幅広い用途にご利用いただけます。開発企業の皆様。大学レベルの専門知識を高精度に学習可能な構造化データを活用し、モデルの学術的理解力を効率的に向上可能です。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録科目・問題形式・解析粒度・データ形式などを柔軟に調整。独自性の高いSTEM特化LLMソリューション開発を、最適な学習データ基盤でサポートいたします。

英語 STEM 教師データ理工系試験問題データセット LLM 学習データ専門分野構造化 QAデータセット

204,522枚教育テスト問題画像OCRデータセット

現在、教育テックやAI採点システムの開発では、多様な科目・問題形式に対応した高精度なテスト問題画像データの確保が課題です。弊社が提供する本データセットは、204,522枚のテスト問題画像を収録。小学校・中学校・高校・大学・職業教育まで、幅広い学習領域をカバーします。収録問題形式は多岐にわたります。単一・複数選択式、穴埋め、短答、記述式、図版付き問題など、実用的な設問タイプを網羅。収集デバイスはスキャナーとスマートフォン。実環境での撮影バリエーションも確保。アノテーションは高精度です。問題文・選択肢・解答・図版に対して、四角形バウンディングボックスとテキスト転写を付与。数式・表はLaTeX形式で変換済み。データ形式は画像が.jpg、注釈が.json、数式が.tex。本データセットは、教育画像OCRモデルの学習や、自動採点システム・宿題チュータリングアプリ開発に最適。テスト問題認識、LaTeX数式変換、多科目一括処理、EdTechプラットフォーム構築など、幅広い用途にご利用いただけます。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録科目・問題形式・アノテーション粒度・データ形式などを柔軟に調整。GDPR/CCPA/PIPL準拠のプライバシー保護のもと、独自性の高い教育テックソリューション開発をサポートいたします。

教育画像OCR データセット試験問題認識教師データ自動採点システム学習データ

20,846セット料理画像キャプションデータ

20,846グループのレシピ画像テキストペアを収録。各レシピには4〜18枚の工程画像が含まれ、それぞれに詳細な手順説明が付属します。収録料理は多国籍です。中国料理・西洋料理・韓国料理・日本料理など、多様な食文化を網羅。説明文は中国語（15語以上）と英語（30語以上）のバイリンガル対応。画像解像度は原則200万ピクセル以上を保証。アノテーション品質も高く、各画像に詳細なステップバイステップ説明を付与。文章精度は95%超を維持。明瞭で客観的な記述、誤字脱字なし、機微コンテンツ排除を実現。データ形式は画像が.jpg、注釈が.txt。本データセットは、視覚言語モデルの学習や、料理画像キャプション生成、マルチモーダルレシピ理解アルゴリズム開発に最適。中日英バイリンガル対応の調理手順説明生成、AIGC料理コンテンツ作成、指示追従型料理アシスタント開発など、幅広い用途にご利用いただけます。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録料理種別・言語比率・説明文言語・アノテーション粒度などを柔軟に調整。独自性の高い料理関連マルチモーダルソリューション開発を、最適な学習データ基盤でサポートいたします。

料理画像キャプションデータセットレシピ画像テキスト教師データ視覚言語モデル学習データ

loading

今すぐデータをカスタマイズ

既製データセットの強み

著作権あり
自社版権ですぐ納品可能
安全
承認済み安全で使用可能
専門性高い
AIデータの専門家により設計・作成
多様性に富む
様々な実際のシーンから収集
コスパ高い
カスタマイズよりコスパが優れている
効率的
即座に納品可能

ニュースレターを購読する

AI学習用データ製品: 全てのデータセット; フィジカルAIデータセット; LLMデータセット; 画像・動画データセット; 音声認識データセット; 音声合成データセット; OCRデータセット; 発音辞書データセット; 自然言語理解データセット

データサービス: 3D点群データ; ストリートビューデータ; OCRデータ; 行動識別データ; ID識別データ; 音声認識データ; 音声合成データ; マルチモーダルデータ

活用事例: エンボディドAI; 生成AI; 自動運転; 製造業; チャットボット; AR/VR; スマートホーム; リテール; ヘルスケア

企業情報: 運営会社; 資料ダウンロード; お役立ち情報; パートナー; データセキュリティ; イベント
リンク: OPENMPD; DataPlus; Datarade

プラットフォーム: プラットフォーム
コンテスト: コンテスト
リソース: オープンデータセット

より高品質なデータでより高精度なAIを構築

0362568911

[email protected]

nexdata_ai facebook

nexdata_ai twitter

nexdata_ai linkedin

nexdata_ai youtube

Copyright © 2023 NEXDATA TECHNOLOGY INC

サイドマップ利用規約

当社は、お客様のブラウジング体験を向上させ、パーソナライズされた広告やコンテンツを提供し、当社のトラフィックを分析するためにクッキーを使用します。「すべてを受け入れる」をクリックすると、クッキーの使用に同意したことになります。

15402c78-a3e4-4267-a29d-4862c3948080