オープンソース大言語モデル bloom, Cerebras-GPT
bloomとCerebras-GPTは、ともに大規模な言語モデルであり、オープンソースで公開されています。しかし、その開発背景や目的、特徴は異なります。この記事では、それぞれの言語モデルについて紹介します。
bloomとは
bloomは、EleutherAIという非営利の研究団体が開発した大規模な言語モデルです。bloomは、GPT-3のような現代を代表する大規模言語モデルは大手ハイテク企業が開発したものであり、一般にはアクセスできないことに問題意識を持ち、オープンソースで自由に利用できる言語モデルを作ることを目指しました。
bloomは、パラメータ数が約18億のGPT-2をベースにしており、約1.6兆個のトークンからなるオープンウェブテキストコーパス(OWT2)というデータセットで学習されました。OWT2は、Common Crawlというインターネット上のウェブページを収集したデータセットから作られたもので、GPT-3が学習したCommon Crawlよりも新しいデータを含んでいます。
bloomは、2022年8月にHugging FaceというAIプラットフォームに公開されました。Hugging Faceでは、bloomをAPIやライブラリを通じて簡単に利用できるようになっています。また、bloomのソースコードや学習データもGitHubで公開されており、誰でも再現や改良ができます。
bloomの特徴は、オープンソースであることだけではありません。bloomは、GPT-2やGPT-3と比較しても高い性能を示すことが報告されています。例えば、GLUEという自然言語理解のベンチマークでは、GPT-2よりも約10ポイント高く、GPT-3よりも約5ポイント高いスコアを達成しました。また、Zero-Shot Text-to-SQLというテキストからSQL文を生成するタスクでは、GPT-2やGPT-3よりも正確にSQL文を生成することができました。
これらの結果は、bloomが新しいデータセットで学習したことや、学習時に使用したテクニックが効果的だったことを示しています。bloomは、学習時にChinchillaという手法を採用しました。Chinchillaは、DeepMindが2022年3月に発表した手法であり、トークンレベルではなく文章レベルでマスクドランゲージモデリング(MLM)を行うことで、文脈理解や生成能力を向上させることができるとされています。