222,522枚の中国語手書き文字OCRデータ

中国語

手書き

OCR

A4用紙

方眼紙

罫線用紙

ホワイトボード

カラーノート

詩

散文

店舗活動のお知らせ

挨拶

ウィッシュリスト

抜粋

詩

散文

店舗活動のお知らせ

挨拶

ウィッシュリスト

抜粋

見上げる角度

目線の角度

本データの筆記環境は、A4用紙、方眼紙、横長の方眼紙、ホワイトボード、カラー付箋、解答用紙などを含みます。書写内容は、詩、散文、店のイベント告知、祝福の言葉、ウィッシュリスト、抜粋テキスト、エッセイ、ノートなどを含みます。データの多様性は、さまざまな書写用紙、さまざまな書体、さまざまな書写内容、さまざまな収集角度を含みます。収集角度は平視と仰視です。アノテーションに関しては、行/列レベルのテキストの四角形ボックスと行/列レベルのテキスト文字おこしが行われています。このデータセットは、中国語手書きOCRタスクに使用できます。

このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。

データ仕様

データ規模

222,522枚、2,499,944個の四角形ボックス。

記載環境

A4用紙、方眼紙、横線入り用紙、ホワイトボード、カラーポストイット、解答用紙など

記載内容

詩、散文、店舗のイベント通知、祝福の言葉、ウィッシュリスト、抜粋テキスト、エッセイ、ノートなど

記載方式

横書き、縦書き

収集の多様性

多様な筆記用紙、多様なフォント、多様な筆記内容、多様な収集角度を含みます。

収集設備

スマートフォン

収集角度

水平視点、俯瞰視点

データフォーマット

画像データフォーマット：.jpg、アノテーションドキュメントフォーマット：.json

収集内容

異なるタイプの中国語手書き文字データを収集します。

アノテーショ内容

行レベル/列レベルの四角形アノテーション、行レベル/列レベルの内容転写。

正解率

四角形ボックスの頂点の偏差が5ピクセルを超えない場合を正しい検出とし、検出ボックスの精度は95％以上とする；文字おこしの精度は95％以上とする。

よくあるご質問

日本語OCRデータは、どのような形式・内容で提供されていますか？

手書き文字、帳票、商品ラベル、看板、公共文書など、実際の業務・生活シーンを想定した多様なデータを提供しています。すべてのデータセットには、行レベル・文字レベルのバウンディングボックスとテキスト転写が含まれ、用途に応じて柔軟にご利用いただけます。各データには詳細な仕様書とサンプルも同梱しており、事前にデータの特徴や適用可能性をご確認いただけます。

英語・日本語など多言語混在の帳票データも収集できますか？

はい、可能です。日本、アメリカ、中国、韓国など主要国を含むグローバルパートナー網を活用し、お客様の指定する業種・地域・フォーマットの実在帳票を現地で収集します。収集と並行して、ネイティブスピーカーによる高精度なアノテーションを即時実施できる体制を整えており、多言語混在文書や業界特化フォーマットにも柔軟に対応します。

多言語や業界特化データにも対応していますか？

はい。日本語（標準語・方言含む）に加え、英語、中国語、韓国語など12言語以上の自然シーンOCRデータを提供しています。製造、物流、小売、金融、公共サービスなど業界別のデータ構成も可能で、お客様のユースケースに最適なデータセットを迅速にご提案・提供いたします。

222,522枚の中国語手書き文字OCRデータ

中国語 手書き OCR A4用紙 方眼紙 罫線用紙 ホワイトボード カラーノート 詩 散文 店舗活動のお知らせ 挨拶 ウィッシュリスト 抜粋 詩 散文 店舗活動のお知らせ 挨拶 ウィッシュリスト 抜粋 見上げる角度 目線の角度

プロジェクトの成熟度

よくあるご質問