インターネット上のデータの利用について | 先進的音声翻訳研究開発推進センター | UCRI

先進的音声翻訳研究開発推進センター（ASTREC）では、インターネット上で公開されている音声・動画・テキストのデータを取得し、音声認識・音声合成、機械翻訳・自然言語処理技術の研究・開発のために利用します。

また、上記データから得た統計情報や学習済みモデルは第三者に提供することがあります。さらに、統計情報や学習済みモデルは商用利用に提供することがあります。

データを収集するサイト: 1. 内閣官房長官記者会見　https://www.kantei.go.jp/jp/tyoukanpress/index.html; 2. 政府広報オンライン「官公庁サイト一覧」からリンクされている府省等サイト　https://www.gov-online.go.jp/governmentlinks/; 3. The NewsReader MEANTIME corpus　http://www.newsreader-project.eu/results/data/wikinews/; 4. VoxEL benchmark dataset　https://users.dcc.uchile.cl/~hrosales/VoxEL.html; 5. Linked-DocRED　https://github.com/alteca/Linked-DocRED; 6. 日本国内の都道府県および市区町村のWebサイト（一覧）