SHOUJIKE

ハーバード大学とGoogleは、AIトレーニング用の法的データを提供するために、パブリックドメインの書籍100万冊を公開しました。

12月13日、TechCrunchは12月12日にハーバード大学とGoogleが100万冊のパブリックドメイン書籍をAIトレーニングデータセットとして共同で公開すると発表したと報じた。

AIの学習に必要なデータは高価ですが、資金力のあるテクノロジー企業にとってはより適しています。そのため、ハーバード大学は、著作権が切れたディケンズ、ダンテ、シェイクスピアといった古典作家を含む、様々なジャンル、言語、作家を網羅した約100万冊のパブリックドメイン書籍を含むデータセットを公開する予定です。

この新しいデータセットはまだ公開されておらず、具体的な公開方法や時期も不明ですが、Googleの長年のプロジェクトであるGoogleブックスから生まれたものです。そのため、Googleはこの「貴重な資産」の広範な公開に協力する予定です。

ハーバード大学は今年3月には既に「機関データ・イニシアチブ(IDI)」を発表し、AIに「正当なデータのための信頼できるチャネル」を提供することを目指していると述べていたと伝えられている。同イニシアチブが正式に発足した後、マイクロソフトとOpenAIから資金提供を受けたことが正式に発表された。

IDIのエグゼクティブディレクター、グレッグ・レパート氏は、このデータセットは研究機関やAIスタートアップを含む様々な組織に大規模言語モデルの訓練を支援するために利用できるようにすることで、「公平な競争環境」を提供することを目指していると述べた。(清遠)