|
12月13日、TechCrunchは12月12日にハーバード大学とGoogleが100万冊のパブリックドメイン書籍をAIトレーニングデータセットとして共同で公開すると発表したと報じた。 AIの学習に必要なデータは高価ですが、資金力のあるテクノロジー企業にとってはより適しています。そのため、ハーバード大学は、著作権が切れたディケンズ、ダンテ、シェイクスピアといった古典作家を含む、様々なジャンル、言語、作家を網羅した約100万冊のパブリックドメイン書籍を含むデータセットを公開する予定です。 この新しいデータセットはまだ公開されておらず、具体的な公開方法や時期も不明ですが、Googleの長年のプロジェクトであるGoogleブックスから生まれたものです。そのため、Googleはこの「貴重な資産」の広範な公開に協力する予定です。 ハーバード大学は今年3月には既に「機関データ・イニシアチブ(IDI)」を発表し、AIに「正当なデータのための信頼できるチャネル」を提供することを目指していると述べていたと伝えられている。同イニシアチブが正式に発足した後、マイクロソフトとOpenAIから資金提供を受けたことが正式に発表された。 IDIのエグゼクティブディレクター、グレッグ・レパート氏は、このデータセットは研究機関やAIスタートアップを含む様々な組織に大規模言語モデルの訓練を支援するために利用できるようにすることで、「公平な競争環境」を提供することを目指していると述べた。(清遠) |
ハーバード大学とGoogleは、AIトレーニング用の法的データを提供するために、パブリックドメインの書籍100万冊を公開しました。
関連するおすすめ記事
-
何小鵬:全く新しい XPeng G6 と G9 は 3 月 13 日に発表され、真の飛躍的発展の実現を目指します。
-
テスラの第4四半期の収益は257億700万ドルで、純利益は前年同期比71%減少した。
-
英国の新規制が論争を巻き起こす。グーグルとイーロン・マスクのXはテクノロジー企業が「逃げ出す」可能性があると主張。
-
報道によると、ByteDanceはSeed Edgeというコードネームで呼ばれるAGIと呼ばれる長期研究プログラムを開始したとのことだ。
-
インテル幹部:「ファウンドリーが完全に独立した子会社になるべきかどうかについては、まださらなる議論が必要です。」
-
テスラは、イーロン・マスクに対する560億ドルの賠償請求が株主によって2度承認されたものの2度拒否されたことを受けて控訴した。