大規模語言模型現狀的總結截至2023年4月末

Автор: ThinDeep, 12 мая, 2023

去年末以來，引起了廣泛關注的ChatGPT以及其內部版本GPT-3.5和GPT-4，都是由名為OpenAI的美國企業獨家提供的大規模語言模型（LLM），並得到了Microsoft的強力支持。

與此相應，Meta公司推出了LLaMA（LaMa），隨後出現了一系列衍生模型，包括在LLaMA與ChatGPT的13,000次對話數據上進行微調的Alpaca（阿爾帕卡），以及在Alpaca和ShareGPT（與GPT的對話由志願者公開提供的數據）上進行微調的Vicuna（維庫尼亞）等。

然而，由於Meta公司的意向，LLaMA被限制為「僅限學術用途」。此外，

根據OpenAI的使用條款，GPT的輸出結果不能用於創建能夠對抗GPT的強大人工智能，這就限制了Alpaca和Vicuna在學術研究目的以外的應用（有時也被形容為「污染」）。

特別是Vicuna經過志願者的不斷改進，可以在家庭使用的計算機上運行，如果能應用於企業內部信息系統或遊戲軟件等領域，將會非常有用。因此，限制其僅用於學術目的是非常可惜的。

為了克服這種情況，Databricks公司創建了一個由其5000名員工創建的「乾淨」的1.5萬次對話數據集，並以「Dolly-v2」的形式對外公開。這是首個完全開放且自由的大規模語言模型。

此外，去年將圖像生成AI民主化的Stability.ai也使用自行構建的開放數據集，推出了「乾淨且自由」的大規模語言模型StableLM，引起了廣泛關注。

此外，還出現了名為RedPajama的項目，該項目旨在創建與LLaMA相等的開放數據集。這種情況就像是目前發生了「不自由的大規模語言模型與自由的大規模語言模型的小競爭」。由於出現了太多的技術、數據集和模型，所以我們試著將其整理成表格如下：

這些項目之間存在競爭，每個項目都具有不同的特點和限制，形成了一個多元且具有競爭力的大規模語言模型生態系統。

以下是截至2023年4月末的大規模語言模型現狀的總結：

GPT-3.5和GPT-4：由OpenAI開發並得到Microsoft的支持，是獨家提供的大規模語言模型（LLM）。它們是ChatGPT的內部版本，具有強大的語言生成能力。
LLaMA（LaMa）：由Meta公司開發，被限制為僅限學術用途的大規模語言模型。它的使用受到限制，並且無法用於商業或非學術目的。
Alpaca和Vicuna：這些是基於LLaMA和ChatGPT的對話數據進行微調的派生模型。它們具有改進的功能，但同樣受到限制，只能用於學術研究目的。
Dolly-v2：由Databricks公司創建的完全開放且自由的大規模語言模型。它基於一個由該公司的5000名員工創建的乾淨數據集，具有廣泛的應用潛力。
StableLM：由Stability.ai推出的乾淨且自由的大規模語言模型。它使用他們自己構建的開放數據集，引起了廣泛關注。
RedPajama：一個開放項目，旨在創建與LLaMA相等的數據集，但具體細節尚未提供。

這些大規模語言模型之間存在競爭，每個模型都有不同的特點和限制。這種多樣性促使大規模語言模型領域出現百花繚乱的局面，並為研究和應用提供了更多選擇。

Blog comments

Теги блога