[{"@type":"PropertyValue","name":"データタイプ","value":"89,007セットの画像テキストペア。日本語46,913セット、アラビア語42,094セット。各サンプルは1画像+1JSONドキュメントで構成。"},{"@type":"PropertyValue","name":"コンテンツ","value":"画像キャプション生成、視覚的質問応答(VQA)、OCR文字認識、OCRベースVQAの4種類。VQAは少なくとも1ラウンドのQ&Aを含む。"},{"@type":"PropertyValue","name":"分野カバレッジ","value":"ビジネス/金融、コーディング/コンピュータサイエンス、法/政治/行政、科学技術/工学/数学(STEM)、社会/文化/人文/宗教、スポーツ/ライフスタイルの6分野"},{"@type":"PropertyValue","name":"アノテーション品質","value":"画像ドメイン分類精度・画像テキスト整合性・OCR認識精度のすべてで95%超を保証。データ形式は画像がJPG、注釈がJSON。"},{"@type":"PropertyValue","name":"活用シーン","value":"マルチモーダル大規模言語モデル学習、多言語画像キャプション生成、視覚的質問応答システム開発、多言語OCR、クロスランゲージ画像理解、グローバル展開対応マルチモーダルAI基盤整備に最適。カスタマイズ対応により、独自ソリューション開発もサポートします。"}]
{"id":1828,"datatype":"1","titleimg":"https://nexdata.jp/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"226","type1str":null,"type2":"254","type2str":null,"dataname":"89,007枚日本語・アラビア語画像質問応答データセット","datazy":[{"title":"データタイプ","content":"89,007セットの画像テキストペア。日本語46,913セット、アラビア語42,094セット。各サンプルは1画像+1JSONドキュメントで構成。"},{"title":"コンテンツ","content":"画像キャプション生成、視覚的質問応答(VQA)、OCR文字認識、OCRベースVQAの4種類。VQAは少なくとも1ラウンドのQ&Aを含む。"},{"title":"分野カバレッジ","content":"ビジネス/金融、コーディング/コンピュータサイエンス、法/政治/行政、科学技術/工学/数学(STEM)、社会/文化/人文/宗教、スポーツ/ライフスタイルの6分野"},{"title":"アノテーション品質","content":"画像ドメイン分類精度・画像テキスト整合性・OCR認識精度のすべてで95%超を保証。データ形式は画像がJPG、注釈がJSON。"},{"title":"活用シーン","content":"マルチモーダル大規模言語モデル学習、多言語画像キャプション生成、視覚的質問応答システム開発、多言語OCR、クロスランゲージ画像理解、グローバル展開対応マルチモーダルAI基盤整備に最適。カスタマイズ対応により、独自ソリューション開発もサポートします。"}],"datatag":"Japanese,Arabic,Visual Question Answering(VQA),Image Captioning,Optical Character Recognition(OCR)","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":null,"samplePresentation":[],"officialSummary":"現在、マルチモーダル大規模言語モデルや多言語画像理解システムの開発では、高品質な画像テキストペアデータの確保が課題です。弊社が提供する本データセットは、89,007セットの画像テキストペアを収録。日本語46,913セット、アラビア語42,094セットをバランスよく包括。各サンプルは1枚の画像と1つのJSONドキュメントで構成されます。収録タスクは4種類。画像キャプション生成、視覚的質問応答(VQA)、OCR文字認識、OCRベースVQAを網羅。さらに6つの専門分野(ビジネス/金融、コーディング/コンピュータサイエンス、法/政治/行政、科学技術/工学/数学、社会/文化/人文/宗教、スポーツ/ライフスタイル)をカバー。アノテーション精度は95%超を保証。画像ドメイン分類精度、画像テキスト整合性、OCR認識精度のすべてで高品質を実現。データ形式は画像がJPG、注釈がJSON。本データセットは、マルチモーダル大規模言語モデルの学習や、多言語画像キャプション生成、視覚的質問応答システム開発に最適。日本語・アラビア語対応の多言語OCR、クロスランゲージ画像理解、グローバル展開を視野に入れたマルチモーダルAI基盤の整備など、幅広い用途にご利用いただけます。お客様の開発要件に合わせてカスタマイズ対応も可能。収録言語比率・タスク種別・分野構成・アノテーション粒度などを柔軟に調整。独自性の高い多言語マルチモーダルソリューション開発を、最適な学習データ基盤でサポートいたします。","dataexampl":null,"datakeyword":["画像質問応答 学習データセット","画像キャプション教師データ","日本語画像テキストデータ"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Type","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"llm","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,JP\"},{\"code\":\"3\",\"language\":\"EN\"},{\"code\":\"4\",\"language\":\"JP\"}]","productNameEn":"89,007 Sets of Japanese–Arabic Image-Text Construction Data","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"]}
https://nexdata.jp/shujutang/static/image/index/datatang_tuxiang_default.webp
[]
89,007枚日本語・アラビア語画像質問応答データセット
画像質問応答 学習データセット
画像キャプション教師データ
日本語画像テキストデータ
現在、マルチモーダル大規模言語モデルや多言語画像理解システムの開発では、高品質な画像テキストペアデータの確保が課題です。弊社が提供する本データセットは、89,007セットの画像テキストペアを収録。日本語46,913セット、アラビア語42,094セットをバランスよく包括。各サンプルは1枚の画像と1つのJSONドキュメントで構成されます。収録タスクは4種類。画像キャプション生成、視覚的質問応答(VQA)、OCR文字認識、OCRベースVQAを網羅。さらに6つの専門分野(ビジネス/金融、コーディング/コンピュータサイエンス、法/政治/行政、科学技術/工学/数学、社会/文化/人文/宗教、スポーツ/ライフスタイル)をカバー。アノテーション精度は95%超を保証。画像ドメイン分類精度、画像テキスト整合性、OCR認識精度のすべてで高品質を実現。データ形式は画像がJPG、注釈がJSON。本データセットは、マルチモーダル大規模言語モデルの学習や、多言語画像キャプション生成、視覚的質問応答システム開発に最適。日本語・アラビア語対応の多言語OCR、クロスランゲージ画像理解、グローバル展開を視野に入れたマルチモーダルAI基盤の整備など、幅広い用途にご利用いただけます。お客様の開発要件に合わせてカスタマイズ対応も可能。収録言語比率・タスク種別・分野構成・アノテーション粒度などを柔軟に調整。独自性の高い多言語マルチモーダルソリューション開発を、最適な学習データ基盤でサポートいたします。
このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。
![仕様]()
データ仕様
データタイプ
89,007セットの画像テキストペア。日本語46,913セット、アラビア語42,094セット。各サンプルは1画像+1JSONドキュメントで構成。
コンテンツ
画像キャプション生成、視覚的質問応答(VQA)、OCR文字認識、OCRベースVQAの4種類。VQAは少なくとも1ラウンドのQ&Aを含む。
分野カバレッジ
ビジネス/金融、コーディング/コンピュータサイエンス、法/政治/行政、科学技術/工学/数学(STEM)、社会/文化/人文/宗教、スポーツ/ライフスタイルの6分野
アノテーション品質
画像ドメイン分類精度・画像テキスト整合性・OCR認識精度のすべてで95%超を保証。データ形式は画像がJPG、注釈がJSON。
活用シーン
マルチモーダル大規模言語モデル学習、多言語画像キャプション生成、視覚的質問応答システム開発、多言語OCR、クロスランゲージ画像理解、グローバル展開対応マルチモーダルAI基盤整備に最適。カスタマイズ対応により、独自ソリューション開発もサポートします。
![サンプル]()
サンプル
![おすすめデータセット]()
おすすめデータセット
よくあるご質問

大規模言語モデル学習用としてどのような分類・構造化データがありますか?

Nexdata の LLM データセットには、指示追従型(SFT)、試験問題、論文、画像キャプション・動画キャプションなど、多種多様なテキスト・ジャンルが含まれています。日本語以外も対応できる多言語・複数ドメインで、業界ごとの応用にも対応可能です。

日本での利用に際して、著作権やライセンスの問題はありませんか?

すべてのデータは自社版権で提供され、即時納品可能かつ安全・承認済みです。品質保証も万全で、安心してご利用いただけます。

大規模データはすぐに使えますか?カスタマイズは可能ですか?

はい、既製データセットはすぐに納品可能です。また、ニーズに応じたカスタマイズサービスも提供しており、コスパ良く効率的に導入できます。
5975c6bb-b0d8-430d-a65b-f4ba96366874