「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

8,604枚のアラビア語の自然風景OCRデータ

アラビア語OCRデータ
OCRコンテンツ転写
OCRデータ
OCRデータセット
OCRアノテーション
OCR収集
OCRデータ処理
OCR転写データ

8,604 件のアラビア語の自然風景 OCR データには、さまざまな自然風景と撮影アングルが含まれています。アノテーションに関しては、行レベルのテキストを四角形のボックスと多角形のボックスでアノテーションして転写します。このデータセットは、アラビア語のOCRタスクに使用できます。

有料データセット
このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。
仕様データ仕様
データ規模
8,604枚の画像、65,231枚のアラビア四辺形、909枚のアラビア多角形
収集環境
店舗の看板、バス停の標識、ポスター、チケット、道路標識、漫画、マンホールの蓋の絵、注意書き、警告、パッケージの説明、メニュー、建物の看板、雑誌や本の表紙などが含まれます。
収集の多様性
さまざまな自然風景や撮影アングルを含みます
収集設備
スマホ、カメラ
撮影アングル
仰視、俯瞰、水平視
データフォーマット
画像データのフォーマットは.jpg、アノテーション文書のフォーマットは.jsonです。
コンテンツアノテーション
行レベルの四角形アノテーション、行レベルのコンテンツ転写;多角形のボックスのアノテーションと転写
正確率
四角形または多角形のボックスの頂点偏差は、正しく検出するために 5 ピクセルを超えず、検出ボックスの精度は 95% 以上、テキスト転写の精度は 95% 以上です。
サンプル サンプル
  • 8,604枚のアラビア語の自然風景OCRデータ
  • 8,604枚のアラビア語の自然風景OCRデータ
  • 8,604枚のアラビア語の自然風景OCRデータ
おすすめデータセットおすすめデータセット
57,645枚縦書き文字シーンOCRデータセット

弊社が提供する本データセットは、57,645枚の高解像度画像を収録。収録バウンディングボックスは528,553個。言語は中国語が中心、英語を一部含む構成です。 収録環境は実用的な自然シーン中心。街中の看板・銘板・ビルボード・ポスター・装飾文字・アートレタリング・雑誌表紙など、多様なシーンを網羅。複数フォント・複数撮影角度・多様な照明条件にも対応。アノテーションは高精度かつ柔軟です。縦書きテキストには矩形・多角形・平行四辺形の3形状バウンディングボックスを選択可能。横書きテキストも同様の形状で注釈。テキスト転写情報も包括。頂点誤差は3ピクセル以内。バウンディングボックス精度・文字転写精度ともに97%超を確保。本データセットは、中国語縦書き文字認識モデルの学習や、多形状テキスト検出アルゴリズム開発に最適。シーンテキスト認識、看板文字抽出、ポスター自動解析、多言語縦書き対応OCRパイプラインの構築など、幅広い用途にご利用いただけます。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録シーン・バウンディングボックス形状・アノテーション粒度・データ形式などを柔軟に調整。独自性の高い中国語縦書きOCRソリューション開発を、最適な学習データ基盤でサポートいたします。

OCR画像データ OCRデータセット 縦書きOCRデータセット 縦書き文字教師データ
105,941枚12言語自然シーンOCRデータセット

多言語対応のOCRシステムやグローバル文書自動処理の開発では、自然シーンに特化した高精度な文字認識データの確保が課題です。特に日本市場では、日本語を含むアジア言語と欧州言語を両方カバーする多言語シーンテキスト認識データセットや、実環境に近い屋外撮影データの需要が高まっています。 弊社が提供する本データセットは、105,941枚の自然シーン画像を収録。対象言語は12言語。アジア言語6言語(日本語・韓国語・インドネシア語・マレー語・ベトナム語・タイ語)と欧州言語6言語(フランス語・ドイツ語・イタリア語・ポルトガル語・ロシア語・スペイン語)をバランスよく包括。 収録環境は実用的な自然シーン中心です。店舗看板・道路標識・ポスター・チケット・漫画表紙・包装指示・メニュー・建物サインなど、多様な実環境を網羅。撮影アングルも見上げ・見下ろし・アイレベルの3種類に対応。 アノテーションは高精度です。行レベルの四角形バウンディングボックスとテキスト転写を付与。頂点誤差は5ピクセル以内。バウンディングボックス精度・文字転写精度ともに97%超を確保。データ形式は画像が.jpg、注釈が.json。 本データセットは、多言語シーンテキスト認識モデルの学習や、屋外文字検出アルゴリズム開発に最適。日本語OCR教師データ、韓国語・タイ語・東南アジア言語対応の自然シーン文字認識、グローバル展開を視野に入れたクロスランゲージOCR基盤の整備など、幅広い用途にご利用いただけます。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録言語・シーン種別・アノテーション粒度・データ形式などを柔軟に調整。GDPR/CCPA/PIPL準拠のプライバシー保護のもと、独自性の高い多言語OCRソリューション開発をサポートいたします。

自然シーンOCR教師データ 屋外文字検出学習データ 道路標識テキスト検出データ OCRデータセット
14,980枚8言語PPT OCRデータセット

現在、多言語対応のOCRシステム開発では、多言語PPT OCRデータセットや、行レベル注釈付きのプレゼン資料文字認識学習データへの需要が高まっています。 弊社が提供する本データセットは、14,980枚のPowerPointスライド画像を収録。対象言語は8言語。日本語・韓国語に加え、フランス語・ドイツ語・スペイン語・イタリア語・ポルトガル語・ロシア語を包括。グローバル展開を視野に入れた多言語処理に最適です。収録環境は実用的な会議シーン中心。会議室・カンファレンスルームで撮影。スマートフォンで収集。正面・左右・見上げアングルなど複数撮影角度に対応。撮影距離・照明条件の多様性も確保。アノテーションは高精度です。行レベルの四角形バウンディングボックス+テキスト転写を付与。頂点誤差は5ピクセル以内。バウンディングボックス精度・文字転写精度ともに95%超を確保。データ形式は画像が.jpg、注釈が.json。本データセットは、多言語PPT文字認識モデルの学習や、プレゼン資料自動解析・議事録作成支援アルゴリズム開発に最適。日本語対応PPT OCR教師データ、多言語スライドテキスト抽出、グローバル会議資料のデジタルアーカイブ構築など、幅広い用途にご利用いただけます。お客様の開発要件に合わせてカスタマイズ対応も可能。収録言語・シーン種別・アノテーション粒度・データ形式などを柔軟に調整。独自性の高い多言語PPT OCRソリューション開発を、最適な学習データ基盤でサポートいたします。

多言語PPTOCRデータセット PowerPoint OCR教師データ 会議室スライド学習データ 日本語OCRデータセット
ご要望をご相談ください

プロジェクトの成熟度

初期検討段階(具体的な仕様は未定)
目標は明確だが、専門的な支援が必要
開発中または最適化フェーズ
データ/アノテーションの専門チーム(明確な仕様あり)

プライバシー保護 に同意する

よくあるご質問

日本語OCRデータは、どのような形式・内容で提供されていますか?

手書き文字、帳票、商品ラベル、看板、公共文書など、実際の業務・生活シーンを想定した多様なデータを提供しています。すべてのデータセットには、行レベル・文字レベルのバウンディングボックスとテキスト転写が含まれ、用途に応じて柔軟にご利用いただけます。各データには詳細な仕様書とサンプルも同梱しており、事前にデータの特徴や適用可能性をご確認いただけます。

英語・日本語など多言語混在の帳票データも収集できますか?

はい、可能です。日本、アメリカ、中国、韓国など主要国を含むグローバルパートナー網を活用し、お客様の指定する業種・地域・フォーマットの実在帳票を現地で収集します。収集と並行して、ネイティブスピーカーによる高精度なアノテーションを即時実施できる体制を整えており、多言語混在文書や業界特化フォーマットにも柔軟に対応します。

多言語や業界特化データにも対応していますか?

はい。日本語(標準語・方言含む)に加え、英語、中国語、韓国語など12言語以上の自然シーンOCRデータを提供しています。製造、物流、小売、金融、公共サービスなど業界別のデータ構成も可能で、お客様のユースケースに最適なデータセットを迅速にご提案・提供いたします。

8a5ae6c4-072c-4d13-a893-d5c5eae829c9

c6f1b0e3-7805-4f53-9856-2eff6453eccf