ホーム > 全てのデータセット > OCRデータセット > 105,941枚12言語自然シーンOCRデータセット

105,941枚12言語自然シーンOCRデータセット

自然シーンOCR教師データ

屋外文字検出学習データ

道路標識テキスト検出データ

OCRデータセット

多言語対応のOCRシステムやグローバル文書自動処理の開発では、自然シーンに特化した高精度な文字認識データの確保が課題です。特に日本市場では、日本語を含むアジア言語と欧州言語を両方カバーする多言語シーンテキスト認識データセットや、実環境に近い屋外撮影データの需要が高まっています。弊社が提供する本データセットは、105,941枚の自然シーン画像を収録。対象言語は12言語。アジア言語6言語（日本語・韓国語・インドネシア語・マレー語・ベトナム語・タイ語）と欧州言語6言語（フランス語・ドイツ語・イタリア語・ポルトガル語・ロシア語・スペイン語）をバランスよく包括。収録環境は実用的な自然シーン中心です。店舗看板・道路標識・ポスター・チケット・漫画表紙・包装指示・メニュー・建物サインなど、多様な実環境を網羅。撮影アングルも見上げ・見下ろし・アイレベルの3種類に対応。アノテーションは高精度です。行レベルの四角形バウンディングボックスとテキスト転写を付与。頂点誤差は5ピクセル以内。バウンディングボックス精度・文字転写精度ともに97%超を確保。データ形式は画像が.jpg、注釈が.json。本データセットは、多言語シーンテキスト認識モデルの学習や、屋外文字検出アルゴリズム開発に最適。日本語OCR教師データ、韓国語・タイ語・東南アジア言語対応の自然シーン文字認識、グローバル展開を視野に入れたクロスランゲージOCR基盤の整備など、幅広い用途にご利用いただけます。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録言語・シーン種別・アノテーション粒度・データ形式などを柔軟に調整。GDPR/CCPA/PIPL準拠のプライバシー保護のもと、独自性の高い多言語OCRソリューション開発をサポートいたします。

このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。

よくあるご質問

日本語OCRデータは、どのような形式・内容で提供されていますか？

手書き文字、帳票、商品ラベル、看板、公共文書など、実際の業務・生活シーンを想定した多様なデータを提供しています。すべてのデータセットには、行レベル・文字レベルのバウンディングボックスとテキスト転写が含まれ、用途に応じて柔軟にご利用いただけます。各データには詳細な仕様書とサンプルも同梱しており、事前にデータの特徴や適用可能性をご確認いただけます。

英語・日本語など多言語混在の帳票データも収集できますか？

はい、可能です。日本、アメリカ、中国、韓国など主要国を含むグローバルパートナー網を活用し、お客様の指定する業種・地域・フォーマットの実在帳票を現地で収集します。収集と並行して、ネイティブスピーカーによる高精度なアノテーションを即時実施できる体制を整えており、多言語混在文書や業界特化フォーマットにも柔軟に対応します。

多言語や業界特化データにも対応していますか？

はい。日本語（標準語・方言含む）に加え、英語、中国語、韓国語など12言語以上の自然シーンOCRデータを提供しています。製造、物流、小売、金融、公共サービスなど業界別のデータ構成も可能で、お客様のユースケースに最適なデータセットを迅速にご提案・提供いたします。

105,941枚12言語自然シーンOCRデータセット

自然シーンOCR教師データ 屋外文字検出学習データ 道路標識テキスト検出データ OCRデータセット

プロジェクトの成熟度

よくあるご質問

自然シーンOCR教師データ

屋外文字検出学習データ

道路標識テキスト検出データ

OCRデータセット