「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

OCRデータセット

既製の高品質データセットでAIモデルのパフォーマンスを即座に向上させます。

データタイプ

全て
27
ドキュメント
3
自然シーン
11
手書き文字
14
インターネット画像
1
帳票
2
その他
3
試験内容
1
1

言語

全て
27
中国語
6
英語
4
ヒンディー語
4
日本語
8
韓国語
7
その他
18
ベトナム語
4

4,995枚のベトナム語OCRマーキングおよび転写データ

4,995枚のベトナム語OCRマークアップおよび転写データには、自然シーン画像258枚、インターネット画像2,553枚、テキスト画像2,184枚が含まれている。マークアップの面では、行レベルの内容:行レベルの四角形ボックスマークアップ、行レベルの内容転写、縦列内容:縦列四角形ボックスのマークアップ、縦列内容の転写。このベトナム語OCRマークアップと転写データは、さまざまなシーンでのベトナム語認識、ベトナム語写真翻訳などのタスクに使用することができます。
ベトナム OCR 文書画像 インターネット画像 自然シーン 複数の角度 さまざまな光条件 四角形境界ボックスアノテーション テキストの行レベルの転写 テキストの列レベルの転写

3,506枚のヒンディー語OCRマークアップと転写データ

3,506枚のヒンディー語OCRマークアップおよび転写データには、自然シーン画像2,056枚、インターネット画像1,103枚、テキスト画像347枚が含まれている。マークアップの面では、行レベルの内容:行レベルの四角形ボックスマークアップ、行レベルの内容転写、縦列内容:縦列四角形ボックスのマークアップ、縦列内容の転写。このヒンディー語OCRマークアップと転写データは、マルチシーンでのヒンディー語認識、ヒンディー語写真翻訳などのタスクに使用することができます。
ヒンディー語 OCR 文書画像 インターネット画像 自然シーン 複数の角度 さまざまな光条件 四角形境界ボックスアノテーション テキストの行レベルの転写 テキストの列レベルの転写

57,645枚縦書き文字シーンOCRデータセット

弊社が提供する本データセットは、57,645枚の高解像度画像を収録。収録バウンディングボックスは528,553個。言語は中国語が中心、英語を一部含む構成です。 収録環境は実用的な自然シーン中心。街中の看板・銘板・ビルボード・ポスター・装飾文字・アートレタリング・雑誌表紙など、多様なシーンを網羅。複数フォント・複数撮影角度・多様な照明条件にも対応。アノテーションは高精度かつ柔軟です。縦書きテキストには矩形・多角形・平行四辺形の3形状バウンディングボックスを選択可能。横書きテキストも同様の形状で注釈。テキスト転写情報も包括。頂点誤差は3ピクセル以内。バウンディングボックス精度・文字転写精度ともに97%超を確保。本データセットは、中国語縦書き文字認識モデルの学習や、多形状テキスト検出アルゴリズム開発に最適。シーンテキスト認識、看板文字抽出、ポスター自動解析、多言語縦書き対応OCRパイプラインの構築など、幅広い用途にご利用いただけます。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録シーン・バウンディングボックス形状・アノテーション粒度・データ形式などを柔軟に調整。独自性の高い中国語縦書きOCRソリューション開発を、最適な学習データ基盤でサポートいたします。
OCR画像データ OCRデータセット 縦書きOCRデータセット 縦書き文字教師データ

14,980枚8言語PPT OCRデータセット

現在、多言語対応のOCRシステム開発では、多言語PPT OCRデータセットや、行レベル注釈付きのプレゼン資料文字認識学習データへの需要が高まっています。 弊社が提供する本データセットは、14,980枚のPowerPointスライド画像を収録。対象言語は8言語。日本語・韓国語に加え、フランス語・ドイツ語・スペイン語・イタリア語・ポルトガル語・ロシア語を包括。グローバル展開を視野に入れた多言語処理に最適です。収録環境は実用的な会議シーン中心。会議室・カンファレンスルームで撮影。スマートフォンで収集。正面・左右・見上げアングルなど複数撮影角度に対応。撮影距離・照明条件の多様性も確保。アノテーションは高精度です。行レベルの四角形バウンディングボックス+テキスト転写を付与。頂点誤差は5ピクセル以内。バウンディングボックス精度・文字転写精度ともに95%超を確保。データ形式は画像が.jpg、注釈が.json。本データセットは、多言語PPT文字認識モデルの学習や、プレゼン資料自動解析・議事録作成支援アルゴリズム開発に最適。日本語対応PPT OCR教師データ、多言語スライドテキスト抽出、グローバル会議資料のデジタルアーカイブ構築など、幅広い用途にご利用いただけます。お客様の開発要件に合わせてカスタマイズ対応も可能。収録言語・シーン種別・アノテーション粒度・データ形式などを柔軟に調整。独自性の高い多言語PPT OCRソリューション開発を、最適な学習データ基盤でサポートいたします。
多言語PPTOCRデータセット PowerPoint OCR教師データ 会議室スライド学習データ 日本語OCRデータセット

日韓手書きOCRデータセット-日本語韓国語22,163件・100名

日本語・韓国語の手書き文字認識や多言語OCRシステム開発では、モバイル環境で収集された自然な筆跡データの確保が課題です。 弊社が提供する本データセットは、100名から収集された22,163件の手書き画像です。国籍構成は日本人50名・韓国人49名・アフガニスタン1名。性別は全員男性。年齢層は若年〜中年層が中心。 収録環境は実用的です。複数機種のスマートフォンで撮影。被験者ごとに異なるコーパスを採用。データ形式は.json。 アノテーションは高精度です。テキスト内容・年齢・国籍・筆跡トレーシング情報を付与。アノテーション精度は95%以上を確保。学習用として最適な品質を実現。 本データセットは、日本語・韓国語手書きOCRモデルの学習や、多言語手書き認識システム開発に最適。日韓バイリンガル対応の手書き文字認識、モバイル撮影環境に特化した筆跡理解、多言語OCRパイプラインの構築など、幅広い用途にご利用いただけます。日本人・韓国人の自然な筆跡に最適化された高精度な手書き認識を、効率的に実装可能です。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録言語・筆跡バリエーション・アノテーション項目・データ形式などを柔軟に調整。独自性の高い日韓手書きOCRソリューション開発を、最適な学習データ基盤でサポートいたします。
日本語手書きOCRデータセット OCRデータセット 日本語OCR教師データ 韓国語手書きOCRデータセット

5,147件日本語手書きOCRデータセット

日本語手書き文字の自動認識や文書デジタル化の開発では、日本人の自然な筆跡を反映した高精度な教師データの確保が課題です。弊社が提供する本データセットは、日本人548名から収集された5,147枚の手書き画像です。性別は男性244名・女性304名。年齢層は18〜45歳が中心(494名)。実用的な筆跡バリエーションを網羅します。収録環境はA4用紙・罫線入り用紙・方眼用紙など。スマートフォンで撮影。視線レベルのアングルで統一。データ形式は画像が.jpg、注釈が.json。収録コンテンツは多岐にわたります。作文・詩・散文・ニュース・物語など、実用的な日本語テキストを幅広くカバー。日常の手書き表現を自然に反映しています。アノテーションは高精度です。行レベルの四角形バウンディングボックス+テキスト転写を付与。収集精度・文字転写精度ともに97%超を確保。学習用として最適な品質を実現。 本データセットは、日本語手書き文字認識モデルの学習や、筆跡理解・文書デジタル化アルゴリズム開発に最適。日本人筆跡特化の日本語OCR教師データ、手書きノート自動変換、フォーム入力自動化、教育・出版分野のデジタルアーカイブなど、幅広い用途にご利用いただけます。 さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録コンテンツ・アノテーション粒度・データ形式などを柔軟に調整。独自性の高い日本語手書きOCRソリューション開発を、最適な学習データ基盤でサポートいたします。
日本語手書きOCRデータセット 日本語手書き文字教師データ OCRデータセット 日本語OCR教師データ

日本語手書き文字OCRデータセット-101人4,538枚

日本語手書き文字の自動認識や文書デジタル化の開発では、多様な筆跡・分野を網羅した高精度な教師データの確保が課題です。特に日本市場では、日本語手書き文字認識データセットや、文字レベル・行レベルの両方に対応したOCR教師データへの需要が高まっています。 弊社が提供する本データセットは、101名の多様な筆跡から収集された4,538枚の手書き画像です。収録内容は、生活・エンタメ・旅行・スポーツ・映画・作文など、実用的な分野を幅広くカバー。 収録環境はA4用紙に手書き。スキャナーで収録。視線レベルのアングルで撮影。データ形式は画像が.jpg、注釈が.json。 アノテーションは高精度です。文字レベルの矩形バウンディングボックス+テキスト転写を付与。行レベルの注釈も同時収録。頂点誤差は3ピクセル以内。バウンディングボックス精度・文字転写精度ともに97%超を確保。 本データセットは、日本語手書き文字認識モデルの学習や、筆跡理解・文書デジタル化アルゴリズム開発に最適。日本語手書き文字教師データ、手書きノート自動変換、フォーム入力自動化、歴史文書デジタルアーカイブなど、幅広い用途にご利用いただけます。多様な筆跡・分野に対応した高精度な日本語手書き認識を、効率的に実装可能です。 さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録分野・アノテーション粒度・データ形式などを柔軟に調整。独自性の高い日本語手書きOCRソリューション開発を、最適な学習データ基盤でサポートいたします。
日本語手書きOCRデータセット 手書き文字認識教師データ 手書きOCRデータセット

105,941枚12言語自然シーンOCRデータセット

多言語対応のOCRシステムやグローバル文書自動処理の開発では、自然シーンに特化した高精度な文字認識データの確保が課題です。特に日本市場では、日本語を含むアジア言語と欧州言語を両方カバーする多言語シーンテキスト認識データセットや、実環境に近い屋外撮影データの需要が高まっています。 弊社が提供する本データセットは、105,941枚の自然シーン画像を収録。対象言語は12言語。アジア言語6言語(日本語・韓国語・インドネシア語・マレー語・ベトナム語・タイ語)と欧州言語6言語(フランス語・ドイツ語・イタリア語・ポルトガル語・ロシア語・スペイン語)をバランスよく包括。 収録環境は実用的な自然シーン中心です。店舗看板・道路標識・ポスター・チケット・漫画表紙・包装指示・メニュー・建物サインなど、多様な実環境を網羅。撮影アングルも見上げ・見下ろし・アイレベルの3種類に対応。 アノテーションは高精度です。行レベルの四角形バウンディングボックスとテキスト転写を付与。頂点誤差は5ピクセル以内。バウンディングボックス精度・文字転写精度ともに97%超を確保。データ形式は画像が.jpg、注釈が.json。 本データセットは、多言語シーンテキスト認識モデルの学習や、屋外文字検出アルゴリズム開発に最適。日本語OCR教師データ、韓国語・タイ語・東南アジア言語対応の自然シーン文字認識、グローバル展開を視野に入れたクロスランゲージOCR基盤の整備など、幅広い用途にご利用いただけます。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録言語・シーン種別・アノテーション粒度・データ形式などを柔軟に調整。GDPR/CCPA/PIPL準拠のプライバシー保護のもと、独自性の高い多言語OCRソリューション開発をサポートいたします。
自然シーンOCR教師データ 屋外文字検出学習データ 道路標識テキスト検出データ OCRデータセット

426,687枚・20言語対応自然シーン&文書画像OCRデータセット

多言語対応のOCRシステムや文書自動処理技術の開発では自然シーンと文書画像の両方に対応した高品質なOCR教師データの確保が課題です。特に日本語・中国語・韓国語を含む多言語OCRデータセットや、実環境に近いシーンテキスト認識学習データの需要が急増中です。 弊社が提供する本データセットは、426,687枚の高解像度画像を収録。対象言語は20言語。繁体字中国語・日本語・韓国語・タイ語・ベトナム語・インドネシア語・マレー語に加え、英語・フランス語・ドイツ語・スペイン語・ロシア語・アラビア語など主要言語を包括。 収録環境は多岐にわたります。自然シーンでは、看板・領収書・ポスター・道路標識・食品パッケージ・広告看板・駅構内サインなどを収録。文書画像では、電子文書・議事録・報告書・マニュアル・書籍・新聞・教材などを網羅。 撮影条件も豊富です。スマートフォン・PCで撮影。見上げ・見下ろし・アイレベルなど複数アングルに対応。背景・照明・画角の多様性を確保。収集精度は95%超を維持。 本データセットは、多言語文字認識モデルの学習や、テキスト検出・レイアウト解析アルゴリズム開発に最適。日本語、中国語・韓国語・東南アジア言語対応の文字認識システム構築、グローバル展開を視野に入れた多言語文書処理基盤の整備など、幅広い用途にご利用いただけます。単一言語では対応困難な多言語・多環境OCRタスクを、効率的に実装可能です。 さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録言語・シーン種別・アノテーション粒度・データ形式などを柔軟に調整。GDPR/CCPA/PIPL準拠のプライバシー保護のもと、独自性の高い多言語OCRソリューション開発をサポートいたします。
多言語OCRデータセット 文字認識学習データ OCR教師データ 日本語OCRデータセット 文書画像OCRデータ レイアウト解析教師データ 中国語韓国語OCRデータ

loading

今すぐデータをカスタマイズ

既製データセットの強み

  • 著作権あり

    著作権あり

    自社版権で すぐ納品可能
  • 安全

    安全

    承認済み 安全で使用可能
  • 専門性高い

    専門性高い

    AIデータの専門家により 設計・作成
  • 多様性に富む

    多様性に富む

    様々な 実際のシーンから収集
  • コスパ高い

    コスパ高い

    カスタマイズより コスパが優れている
  • 効率的

    効率的

    即座に 納品可能
46ae6390-ee42-4a02-9757-79b8b2ccecb9