[{"@type":"PropertyValue","name":"データ規模","value":"57,645枚、528,553個のボックス"},{"@type":"PropertyValue","name":"収集環境","value":"街並み、看板、広告看板、ポスター、装飾、アート文字、雑誌の表紙などを含む"},{"@type":"PropertyValue","name":"収集の多様性","value":"複数のシーン、複数のフォント"},{"@type":"PropertyValue","name":"言語属性","value":"中国語、英語(少量)"},{"@type":"PropertyValue","name":"アノテーションボックスの方向属性","value":"324,399個の縦書きボックス、204,154個の非縦書きボックス"},{"@type":"PropertyValue","name":"アノテーションボックスの形状属性","value":"34,936個の矩形ボックス、220,716個の多角形ボックス、272,901個の平行四辺形ボックス"},{"@type":"PropertyValue","name":"データフォーマット","value":"画像データフォーマット.jpg、アノテーションファイルフォーマット.json"},{"@type":"PropertyValue","name":"アノテーション内容","value":"列レベルの矩形ボックス(多角形ボックス、平行四辺形ボックス)アノテーションと列レベルの内容転写、非縦書きの矩形ボックス(多角形ボックス、平行四辺形ボックス)アノテーションと非縦書きの内容転写"},{"@type":"PropertyValue","name":"正解率","value":"アノテーションボックスの頂点ズレが3ピクセルを超えない場合を正しい検出し、検出ボックスの正解率は97%以上。文字起こしの正解率は97%以上"}]
{"id":1226,"datatype":"1","titleimg":"https://nexdata.jp/shujutang/static/image/index/datatang_tuxiang_default.webp","type1":"147","type1str":null,"type2":"150","type2str":null,"dataname":"57,645枚縦書き文字シーンOCRデータセット","datazy":[{"title":"データ規模","desc":"データ規模","content":"57,645枚、528,553個のボックス"},{"title":"収集環境","desc":"収集環境","content":"街並み、看板、広告看板、ポスター、装飾、アート文字、雑誌の表紙などを含む"},{"title":"収集の多様性","desc":"収集の多様性","content":"複数のシーン、複数のフォント"},{"title":"言語属性","desc":"言語属性","content":"中国語、英語(少量)"},{"title":"アノテーションボックスの方向属性","desc":"アノテーションボックスの方向属性","content":"324,399個の縦書きボックス、204,154個の非縦書きボックス"},{"title":"アノテーションボックスの形状属性","desc":"アノテーションボックスの形状属性","content":"34,936個の矩形ボックス、220,716個の多角形ボックス、272,901個の平行四辺形ボックス"},{"title":"データフォーマット","desc":"データフォーマット","content":"画像データフォーマット.jpg、アノテーションファイルフォーマット.json"},{"title":"アノテーション内容","desc":"アノテーション内容","content":"列レベルの矩形ボックス(多角形ボックス、平行四辺形ボックス)アノテーションと列レベルの内容転写、非縦書きの矩形ボックス(多角形ボックス、平行四辺形ボックス)アノテーションと非縦書きの内容転写"},{"title":"正解率","desc":"正解率","content":"アノテーションボックスの頂点ズレが3ピクセルを超えない場合を正しい検出し、検出ボックスの正解率は97%以上。文字起こしの正解率は97%以上"}],"datatag":"OCR,Multiple scenes,Multiple fonts","technologydoc":null,"downurl":null,"datainfo":null,"standard":null,"dataylurl":null,"flag":null,"publishtime":null,"createby":null,"createtime":null,"ext1":null,"samplestoreloc":null,"hosturl":null,"datasize":null,"industryPlan":null,"keyInformation":"","samplePresentation":[{"name":"/data/apps/damp/temp/ziptemp/APY230117001_demo1695809214287/APY230117001_demo/054889_demo.jpg","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230117001_demo1695809214287/APY230117001_demo/054889_demo.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=tDNg2Jmp1JEEZiTMQB2hIFr17SI%3D","intro":"","size":0,"progress":100,"type":"jpg"},{"name":"/data/apps/damp/temp/ziptemp/APY230117001_demo1695809214287/APY230117001_demo/056472_demo.jpg","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230117001_demo1695809214287/APY230117001_demo/056472_demo.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=sGLSMlt8%2BocGKzLN0YYIgRrTg78%3D","intro":"","size":0,"progress":100,"type":"jpg"},{"name":"/data/apps/damp/temp/ziptemp/APY230117001_demo1695809214287/APY230117001_demo/054886_demo.jpg","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230117001_demo1695809214287/APY230117001_demo/054886_demo.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=2t3vBygA4k0HDuTQq9h%2ByOBmO8E%3D","intro":"","size":0,"progress":100,"type":"jpg"}],"officialSummary":"弊社が提供する本データセットは、57,645枚の高解像度画像を収録。収録バウンディングボックスは528,553個。言語は中国語が中心、英語を一部含む構成です。収録環境は実用的な自然シーン中心。街中の看板・銘板・ビルボード・ポスター・装飾文字・アートレタリング・雑誌表紙など、多様なシーンを網羅。複数フォント・複数撮影角度・多様な照明条件にも対応。アノテーションは高精度かつ柔軟です。縦書きテキストには矩形・多角形・平行四辺形の3形状バウンディングボックスを選択可能。横書きテキストも同様の形状で注釈。テキスト転写情報も包括。頂点誤差は3ピクセル以内。バウンディングボックス精度・文字転写精度ともに97%超を確保。本データセットは、中国語縦書き文字認識モデルの学習や、多形状テキスト検出アルゴリズム開発に最適。シーンテキスト認識、看板文字抽出、ポスター自動解析、多言語縦書き対応OCRパイプラインの構築など、幅広い用途にご利用いただけます。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録シーン・バウンディングボックス形状・アノテーション粒度・データ形式などを柔軟に調整。独自性の高い中国語縦書きOCRソリューション開発を、最適な学習データ基盤でサポートいたします。","dataexampl":null,"datakeyword":["OCR画像データ","OCRデータセット","縦書きOCRデータセット","縦書き文字教師データ"],"isDelete":null,"ids":null,"idsList":null,"datasetCode":null,"productStatus":null,"tagTypeEn":"Data Type,Language","tagTypeZh":null,"website":null,"samplePresentationList":null,"datazyList":null,"keyInformationList":null,"dataexamplList":null,"bgimg":null,"datazyScriptList":null,"datakeywordListString":null,"sourceShowPage":"ocr","dataShowType":"[{\"code\":\"0\",\"language\":\"ZH\"},{\"code\":\"1\",\"language\":\"ZH\"},{\"code\":\"2\",\"language\":\"EN,JP,PT,DE,KO,FR,ES\"},{\"code\":\"3\",\"language\":\"EN\"},{\"code\":\"4\",\"language\":\"JP\"}]","productNameEn":"57,645 Images - Vertical OCR Data in Text Scenes","BGimg":"","voiceBg":["/shujutang/static/image/comm/audio_bg.webp","/shujutang/static/image/comm/audio_bg2.webp","/shujutang/static/image/comm/audio_bg3.webp","/shujutang/static/image/comm/audio_bg4.webp","/shujutang/static/image/comm/audio_bg5.webp"],"firstList":[{"name":"/data/apps/damp/temp/ziptemp/APY230117001_demo1695809214287/APY230117001_demo/056480_demo.jpg","url":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230117001_demo1695809214287/APY230117001_demo/056480_demo.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=2d2r3%2FYQASEMnhCBsTgJBTu2y74%3D","intro":"","size":0,"progress":100,"type":"jpg"}]}
https://nexdata.jp/shujutang/static/image/index/datatang_tuxiang_default.webp
[{"@type":"ImageObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230117001_demo1695809214287/APY230117001_demo/054889_demo.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=tDNg2Jmp1JEEZiTMQB2hIFr17SI%3D"},{"@type":"ImageObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230117001_demo1695809214287/APY230117001_demo/056472_demo.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=sGLSMlt8%2BocGKzLN0YYIgRrTg78%3D"},{"@type":"ImageObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230117001_demo1695809214287/APY230117001_demo/054886_demo.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=2t3vBygA4k0HDuTQq9h%2ByOBmO8E%3D"},{"@type":"ImageObject","embedUrl":"https://bj-oss-datatang-03.oss-cn-beijing.aliyuncs.com/filesInfoUpload/data/apps/damp/temp/ziptemp/APY230117001_demo1695809214287/APY230117001_demo/056480_demo.jpg?Expires=4102329599&OSSAccessKeyId=LTAI8NWs2pDolLNH&Signature=2d2r3%2FYQASEMnhCBsTgJBTu2y74%3D"}]
57,645枚縦書き文字シーンOCRデータセット
OCR画像データ
OCRデータセット
縦書きOCRデータセット
縦書き文字教師データ
弊社が提供する本データセットは、57,645枚の高解像度画像を収録。収録バウンディングボックスは528,553個。言語は中国語が中心、英語を一部含む構成です。収録環境は実用的な自然シーン中心。街中の看板・銘板・ビルボード・ポスター・装飾文字・アートレタリング・雑誌表紙など、多様なシーンを網羅。複数フォント・複数撮影角度・多様な照明条件にも対応。アノテーションは高精度かつ柔軟です。縦書きテキストには矩形・多角形・平行四辺形の3形状バウンディングボックスを選択可能。横書きテキストも同様の形状で注釈。テキスト転写情報も包括。頂点誤差は3ピクセル以内。バウンディングボックス精度・文字転写精度ともに97%超を確保。本データセットは、中国語縦書き文字認識モデルの学習や、多形状テキスト検出アルゴリズム開発に最適。シーンテキスト認識、看板文字抽出、ポスター自動解析、多言語縦書き対応OCRパイプラインの構築など、幅広い用途にご利用いただけます。さらに、お客様の開発要件に合わせてカスタマイズ対応も可能。収録シーン・バウンディングボックス形状・アノテーション粒度・データ形式などを柔軟に調整。独自性の高い中国語縦書きOCRソリューション開発を、最適な学習データ基盤でサポートいたします。
このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。
![仕様]()
データ仕様
データ規模
57,645枚、528,553個のボックス
収集環境
街並み、看板、広告看板、ポスター、装飾、アート文字、雑誌の表紙などを含む
アノテーションボックスの方向属性
324,399個の縦書きボックス、204,154個の非縦書きボックス
アノテーションボックスの形状属性
34,936個の矩形ボックス、220,716個の多角形ボックス、272,901個の平行四辺形ボックス
データフォーマット
画像データフォーマット.jpg、アノテーションファイルフォーマット.json
アノテーション内容
列レベルの矩形ボックス(多角形ボックス、平行四辺形ボックス)アノテーションと列レベルの内容転写、非縦書きの矩形ボックス(多角形ボックス、平行四辺形ボックス)アノテーションと非縦書きの内容転写
正解率
アノテーションボックスの頂点ズレが3ピクセルを超えない場合を正しい検出し、検出ボックスの正解率は97%以上。文字起こしの正解率は97%以上
![サンプル]()
サンプル
![おすすめデータセット]()
おすすめデータセット
よくあるご質問

日本語OCRデータは、どのような形式・内容で提供されていますか?

手書き文字、帳票、商品ラベル、看板、公共文書など、実際の業務・生活シーンを想定した多様なデータを提供しています。すべてのデータセットには、行レベル・文字レベルのバウンディングボックスとテキスト転写が含まれ、用途に応じて柔軟にご利用いただけます。各データには詳細な仕様書とサンプルも同梱しており、事前にデータの特徴や適用可能性をご確認いただけます。

英語・日本語など多言語混在の帳票データも収集できますか?

はい、可能です。日本、アメリカ、中国、韓国など主要国を含むグローバルパートナー網を活用し、お客様の指定する業種・地域・フォーマットの実在帳票を現地で収集します。収集と並行して、ネイティブスピーカーによる高精度なアノテーションを即時実施できる体制を整えており、多言語混在文書や業界特化フォーマットにも柔軟に対応します。

多言語や業界特化データにも対応していますか?

はい。日本語(標準語・方言含む)に加え、英語、中国語、韓国語など12言語以上の自然シーンOCRデータを提供しています。製造、物流、小売、金融、公共サービスなど業界別のデータ構成も可能で、お客様のユースケースに最適なデータセットを迅速にご提案・提供いたします。
2b167e1d-b4f1-48d8-be6a-bfa2b6a00a4b