「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

222,522枚の中国語手書き文字OCRデータ

中国語
手書き
OCR
A4用紙
方眼紙
罫線用紙
ホワイトボード
カラーノート
散文
店舗活動のお知らせ
挨拶
ウィッシュリスト
抜粋
散文
店舗活動のお知らせ
挨拶
ウィッシュリスト
抜粋
見上げる角度
目線の角度

本データの筆記環境は、A4用紙、方眼紙、横長の方眼紙、ホワイトボード、カラー付箋、解答用紙などを含みます。 書写内容は、詩、散文、店のイベント告知、祝福の言葉、ウィッシュリスト、抜粋テキスト、エッセイ、ノートなどを含みます。データの多様性は、さまざまな書写用紙、さまざまな書体、さまざまな書写内容、さまざまな収集角度を含みます。収集角度は平視と仰視です。アノテーションに関しては、行/列レベルのテキストの四角形ボックスと行/列レベルのテキスト文字おこしが行われています。このデータセットは、中国語手書きOCRタスクに使用できます。

有料データセット
このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。
仕様データ仕様
データ規模
222,522枚、2,499,944個の四角形ボックス。
記載環境
A4用紙、方眼紙、横線入り用紙、ホワイトボード、カラーポストイット、解答用紙など
記載内容
詩、散文、店舗のイベント通知、祝福の言葉、ウィッシュリスト、抜粋テキスト、エッセイ、ノートなど
記載方式
横書き、縦書き
収集の多様性
多様な筆記用紙、多様なフォント、多様な筆記内容、多様な収集角度を含みます。
収集設備
スマートフォン
収集角度
水平視点、俯瞰視点
データフォーマット
画像データフォーマット:.jpg、アノテーションドキュメントフォーマット:.json
収集内容
異なるタイプの中国語手書き文字データを収集します。
アノテーショ内容
行レベル/列レベルの四角形アノテーション、行レベル/列レベルの内容転写。
正解率
四角形ボックスの頂点の偏差が5ピクセルを超えない場合を正しい検出とし、検出ボックスの精度は95%以上とする;文字おこしの精度は95%以上とする。
サンプル サンプル
おすすめデータセットおすすめデータセット
5,147件日本語手書きOCRデータセット

日本語手書き文字の自動認識や文書デジタル化の開発では、日本人の自然な筆跡を反映した高精度な教師データの確保が課題です。弊社が提供する本データセットは、日本人548名から収集された5,147枚の手書き画像です。性別は男性244名・女性304名。年齢層は18〜45歳が中心(494名)。実用的な筆跡バリエーションを網羅します。収録環境はA4用紙・罫線入り用紙・方眼用紙など。スマートフォンで撮影。視線レベルのアングルで統一。データ形式は画像が.jpg、注釈が.json。収録コンテンツは多岐にわたります。作文・詩・散文・ニュース・物語など、実用的な日本語テキストを幅広くカバー。日常の手書き表現を自然に反映しています。アノテーションは高精度です。行レベルの四角形バウンディングボックス+テキスト転写を付与。収集精度・文字転写精度ともに97%超を確保。学習用として最適な品質を実現。 本データセットは、日本語手書き文字認識モデルの学習や、筆跡理解・文書デジタル化アルゴリズム開発に最適。日本人筆跡特化の日本語OCR教師データ、手書きノート自動変換、フォーム入力自動化、教育・出版分野のデジタルアーカイブなど、幅広い用途にご利用いただけます。 さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録コンテンツ・アノテーション粒度・データ形式などを柔軟に調整。独自性の高い日本語手書きOCRソリューション開発を、最適な学習データ基盤でサポートいたします。

日本語手書きOCRデータセット 日本語手書き文字教師データ OCRデータセット 日本語OCR教師データ
ご要望をご相談ください

プロジェクトの成熟度

初期検討段階(具体的な仕様は未定)
目標は明確だが、専門的な支援が必要
開発中または最適化フェーズ
データ/アノテーションの専門チーム(明確な仕様あり)

プライバシー保護 に同意する

よくあるご質問

日本語OCRデータは、どのような形式・内容で提供されていますか?

手書き文字、帳票、商品ラベル、看板、公共文書など、実際の業務・生活シーンを想定した多様なデータを提供しています。すべてのデータセットには、行レベル・文字レベルのバウンディングボックスとテキスト転写が含まれ、用途に応じて柔軟にご利用いただけます。各データには詳細な仕様書とサンプルも同梱しており、事前にデータの特徴や適用可能性をご確認いただけます。

英語・日本語など多言語混在の帳票データも収集できますか?

はい、可能です。日本、アメリカ、中国、韓国など主要国を含むグローバルパートナー網を活用し、お客様の指定する業種・地域・フォーマットの実在帳票を現地で収集します。収集と並行して、ネイティブスピーカーによる高精度なアノテーションを即時実施できる体制を整えており、多言語混在文書や業界特化フォーマットにも柔軟に対応します。

多言語や業界特化データにも対応していますか?

はい。日本語(標準語・方言含む)に加え、英語、中国語、韓国語など12言語以上の自然シーンOCRデータを提供しています。製造、物流、小売、金融、公共サービスなど業界別のデータ構成も可能で、お客様のユースケースに最適なデータセットを迅速にご提案・提供いたします。

4e532499-8809-4243-b445-952d2ff2547b

6011dfc1-3e8d-4ee7-8749-cd3c7c8382c9