ホーム > 全てのデータセット > OCRデータセット > 57,645枚縦書き文字シーンOCRデータセット

57,645枚縦書き文字シーンOCRデータセット

OCR画像データ

OCRデータセット

縦書きOCRデータセット

縦書き文字教師データ

弊社が提供する本データセットは、57,645枚の高解像度画像を収録。収録バウンディングボックスは528,553個。言語は中国語が中心、英語を一部含む構成です。収録環境は実用的な自然シーン中心。街中の看板・銘板・ビルボード・ポスター・装飾文字・アートレタリング・雑誌表紙など、多様なシーンを網羅。複数フォント・複数撮影角度・多様な照明条件にも対応。アノテーションは高精度かつ柔軟です。縦書きテキストには矩形・多角形・平行四辺形の3形状バウンディングボックスを選択可能。横書きテキストも同様の形状で注釈。テキスト転写情報も包括。頂点誤差は3ピクセル以内。バウンディングボックス精度・文字転写精度ともに97%超を確保。本データセットは、中国語縦書き文字認識モデルの学習や、多形状テキスト検出アルゴリズム開発に最適。シーンテキスト認識、看板文字抽出、ポスター自動解析、多言語縦書き対応OCRパイプラインの構築など、幅広い用途にご利用いただけます。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録シーン・バウンディングボックス形状・アノテーション粒度・データ形式などを柔軟に調整。独自性の高い中国語縦書きOCRソリューション開発を、最適な学習データ基盤でサポートいたします。

このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。

よくあるご質問

日本語OCRデータは、どのような形式・内容で提供されていますか？

手書き文字、帳票、商品ラベル、看板、公共文書など、実際の業務・生活シーンを想定した多様なデータを提供しています。すべてのデータセットには、行レベル・文字レベルのバウンディングボックスとテキスト転写が含まれ、用途に応じて柔軟にご利用いただけます。各データには詳細な仕様書とサンプルも同梱しており、事前にデータの特徴や適用可能性をご確認いただけます。

英語・日本語など多言語混在の帳票データも収集できますか？

はい、可能です。日本、アメリカ、中国、韓国など主要国を含むグローバルパートナー網を活用し、お客様の指定する業種・地域・フォーマットの実在帳票を現地で収集します。収集と並行して、ネイティブスピーカーによる高精度なアノテーションを即時実施できる体制を整えており、多言語混在文書や業界特化フォーマットにも柔軟に対応します。

多言語や業界特化データにも対応していますか？

はい。日本語（標準語・方言含む）に加え、英語、中国語、韓国語など12言語以上の自然シーンOCRデータを提供しています。製造、物流、小売、金融、公共サービスなど業界別のデータ構成も可能で、お客様のユースケースに最適なデータセットを迅速にご提案・提供いたします。

57,645枚縦書き文字シーンOCRデータセット

OCR画像データ OCRデータセット 縦書きOCRデータセット 縦書き文字教師データ

プロジェクトの成熟度

よくあるご質問

OCR画像データ

OCRデータセット

縦書きOCRデータセット

縦書き文字教師データ