「Datatang株式会社」は現在「Nexdata」のブランドとして事業を展開しています。本サイトより最新のAIデータサービスとソリューションをご案内いたします。

jp

Please fill in your name

Mobile phone format error

Please enter the telephone

Please enter your company name

Please enter your company email

Please enter the data requirement

Successful submission! Thank you for your support.

Format error, Please fill in again

Confirm

The data requirement cannot be less than 5 words and cannot be pure numbers

300時間日本語金融自然対話音声データセット

音声認識データセット
日本語音声認識データ
金融分野音声データセット
金融音声データ
金融チャットボット音声データ

実世界の金融シーンにおける多様性に対応するため本日本語音声データセット。実際のインタラクションを反映した口語コーパスを採用しています。金融特有の専門用語や複雑な文脈を自然に含むことでASRやNLPモデルのロバスト性と汎用性を大幅に向上させます。98%の高精度アノテーション済みデータとしてテキストだけでなく時間スタンプや話者分離からノイズ、機密情報まで詳細にラベリングされており、モデルの学習効率と認識精度の最大化に貢献します。低ノイズ環境で収録された16kHz/16bitのWAVフォーマットは前処理の負荷を軽減しディープラーニングにおける本質的な特徴抽出を可能にする理想的なASR学習データです。さらにGDPRやCCPAなど厳格なデータ保護規制に完全準拠しており企業規模のAI開発にも安心してお導入いただけます。

有料データセット
このデータセットは、商用利用や研究目的などに役立つ有償のデータセットです。著作権ありの既製データセットは、AIプロジェクトの飛躍的なスタートに役立ちます。
仕様データ仕様
言語
日本語 (ja-JP)
収録国
日本
フォーマット
16kHz, 16bit, WAV, モノラル
内容カテゴリ
マクロ金融・ミクロ金融
録音環境
低ノイズ環境
アノテーション項目
テキスト, 時間スタンプ, 話者ID, 性別, ノイズ, 機密情報
文字起こし精度
98%
サンプル サンプル
  • Audio

    一方で今日も引き続きバリューや中小型株優位で、セクターローテーションの一環とも言えるのか、

  • Audio

    決算が物足りないと受け止められた、アドバンストマイクロデバイスが急落していました。

  • Audio

    えまず、資料は、ええ最初のデータとしてこういうのを持ってきました。過去二十回取ってきました。

おすすめデータセットおすすめデータセット
48kHz・579時間高音質・話者分離日本語自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質な日本語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した日本語自然会話音声データセットです。日本各地のネイティブ話者による多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。

日本語音声データ 話者分離音声データ 全二重音声データセット 同時双方向音声データセット 日本語自然会話音声データ
423時間フィリピン英語話者分離・自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質なフィリピン英語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録したフィリピン英語自然会話音声データセットです。約800名のフィリピン現地ネイティブスピーカーによる多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。

英語自然会話音声データセット フィリピン英語音声データ フィリピン英語話者分離音声データ
172時間話者分離アメリカ英語自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提にスマートフォンで収録した高品質な英語(米国)の音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した英語(米国)の自然会話音声データセットです。米国内の多様な地域・文化背景を持つネイティブ話者による対話を含み、スマートフォン収録による実使用環境に近い音声として、ASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全双工音声シリーズは、多言語に対応した全二重音声データセットとして提供され、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズにも柔軟に対応します。

英語音声データセット アメリカ英語音声会話データ 話者分離音声データセット 全二重音声データセット
200時間韓国語話者分離・自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質な韓国語音声データセットです。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。本セットは、提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した韓国語自然会話音声データセットです。約200名の韓国ネイティブスピーカーによる多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。

韓国語音声データセット 韓国語自然会話音声データ 韓国語話者分離音声データ 韓国語音声認識データ
205時間話者分離日本語自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質な日本語音声データセットです。有効時間205時間。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。そして、本セットは提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録した日本語自然会話音声データセットです。日本各地のネイティブ話者による多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。 当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。

日本語音声データ 話者分離音声データ 全二重音声データセット 同時双方向音声データセット 日本語自然会話音声データ
211時間タイ語話者分離自然会話音声データセット

本データは、フルデュプレックス(全二重)対話を前提に収録した高品質なタイ語音声データセットです。有効時間211時間。半二重方式では再現が難しい同時発話や重なり発話、自然な相槌や割込みを含み、双方向に同時進行する対話を再現した同時双方向音声データセットとして、リアルタイム対話AIや次世代ASRの研究開発に適しています。そして、本セットは提示されたトピックリストから収録者が複数の得意分野を選択し、自然な流れで会話を展開して収録したタイ語自然会話音声データセットです。タイ各地のネイティブ話者による多様な対話を含み、高音質収録によりASRの音響・言語モデル学習、声紋識別、対話システム評価など幅広い研究用途に活用できます。データは各種プライバシー保護規制に準拠して管理されています。 当社の全二重音声データセットシリーズは、日本語をはじめ、英語、韓国語など多言語に対応し、書き起こしテキスト、発話タイムスタンプ、話者ID、性別などの詳細アノテーションを標準搭載しています。また、話者ごとの独立音声を含む話者分離音声データセットとしても利用可能で、収録条件や話者属性、ラベル仕様のカスタマイズ収集・作成にも柔軟に対応します。

タイ語音声データセット タイ語自然会話音声データ タイ語話者分離音声データ タイ語音声認識データセット
ご要望をご相談ください

プロジェクトの成熟度

初期検討段階(具体的な仕様は未定)
目標は明確だが、専門的な支援が必要
開発中または最適化フェーズ
データ/アノテーションの専門チーム(明確な仕様あり)

プライバシー保護 に同意する

よくあるご質問

日本語の音声認識データにはどのようなバリエーションがありますか?

子どもの日常会話、モノローグ、講義、バラエティなど幅広いジャンルを含むリアルな対話音声が収録されており、話者 ID、性別、年齢、アクセントなどもアノテーションされています。

データの多様性は実際のユースケースに役立ちますか?

はい、リアルな対話と幅広い話者属性を収録しており、日本のさまざまな環境での音声認識モデルに対応可能です。

納品までのスピードはどの程度ですか?

既製データセットは最短1日で納品可能で、カスタム収集・アノテーションも迅速対応可能です。

e14d7e52-0fb8-4a41-931c-e45cce1085e7

6a8d8504-9988-4be6-a5a3-5f4d0a619161