89,007枚日本語・アラビア語画像質問応答データセット
現在、マルチモーダル大規模言語モデルや多言語画像理解システムの開発では、高品質な画像テキストペアデータの確保が課題です。
弊社が提供する本データセットは、89,007セットの画像テキストペアを収録。日本語46,913セット、アラビア語42,094セットをバランスよく包括。各サンプルは1枚の画像と1つのJSONドキュメントで構成されます。
収録タスクは4種類。画像キャプション生成、視覚的質問応答(VQA)、OCR文字認識、OCRベースVQAを網羅。さらに6つの専門分野(ビジネス/金融、コーディング/コンピュータサイエンス、法/政治/行政、科学技術/工学/数学、社会/文化/人文/宗教、スポーツ/ライフスタイル)をカバー。
アノテーション精度は95%超を保証。画像ドメイン分類精度、画像テキスト整合性、OCR認識精度のすべてで高品質を実現。データ形式は画像がJPG、注釈がJSON。
本データセットは、マルチモーダル大規模言語モデルの学習や、多言語画像キャプション生成、視覚的質問応答システム開発に最適。日本語・アラビア語対応の多言語OCR、クロスランゲージ画像理解、グローバル展開を視野に入れたマルチモーダルAI基盤の整備など、幅広い用途にご利用いただけます。
お客様の開発要件に合わせてカスタマイズ対応も可能。収録言語比率・タスク種別・分野構成・アノテーション粒度などを柔軟に調整。独自性の高い多言語マルチモーダルソリューション開発を、最適な学習データ基盤でサポートいたします。
画像質問応答 学習データセット 画像キャプション教師データ 日本語画像テキストデータ