去年末以來,引起了廣泛關注的ChatGPT以及其內部版本GPT-3.5和GPT-4,都是由名為OpenAI的美國企業獨家提供的大規模語言模型(LLM),並得到了Microsoft的強力支持。
與此相應,Meta公司推出了LLaMA(LaMa),隨後出現了一系列衍生模型,包括在LLaMA與ChatGPT的13,000次對話數據上進行微調的Alpaca(阿爾帕卡),以及在Alpaca和ShareGPT(與GPT的對話由志願者公開提供的數據)上進行微調的Vicuna(維庫尼亞)等。
然而,由於Meta公司的意向,LLaMA被限制為「僅限學術用途」。此外,
根據OpenAI的使用條款,GPT的輸出結果不能用於創建能夠對抗GPT的強大人工智能,這就限制了Alpaca和Vicuna在學術研究目的以外的應用(有時也被形容為「污染」)。
特別是Vicuna經過志願者的不斷改進,可以在家庭使用的計算機上運行,如果能應用於企業內部信息系統或遊戲軟件等領域,將會非常有用。因此,限制其僅用於學術目的是非常可惜的。
為了克服這種情況,Databricks公司創建了一個由其5000名員工創建的「乾淨」的1.5萬次對話數據集,並以「Dolly-v2」的形式對外公開。這是首個完全開放且自由的大規模語言模型。
此外,去年將圖像生成AI民主化的Stability.ai也使用自行構建的開放數據集,推出了「乾淨且自由」的大規模語言模型StableLM,引起了廣泛關注。
此外,還出現了名為RedPajama的項目,該項目旨在創建與LLaMA相等的開放數據集。這種情況就像是目前發生了「不自由的大規模語言模型與自由的大規模語言模型的小競爭」。由於出現了太多的技術、數據集和模型,所以我們試著將其整理成表格如下:
這些項目之間存在競爭,每個項目都具有不同的特點和限制,形成了一個多元且具有競爭力的大規模語言模型生態系統。
https://www.itmedia.co.jp/news/articles/2304/25/news156.html
以下是截至2023年4月末的大規模語言模型現狀的總結:
- GPT-3.5和GPT-4:由OpenAI開發並得到Microsoft的支持,是獨家提供的大規模語言模型(LLM)。它們是ChatGPT的內部版本,具有強大的語言生成能力。
- LLaMA(LaMa):由Meta公司開發,被限制為僅限學術用途的大規模語言模型。它的使用受到限制,並且無法用於商業或非學術目的。
- Alpaca和Vicuna:這些是基於LLaMA和ChatGPT的對話數據進行微調的派生模型。它們具有改進的功能,但同樣受到限制,只能用於學術研究目的。
- Dolly-v2:由Databricks公司創建的完全開放且自由的大規模語言模型。它基於一個由該公司的5000名員工創建的乾淨數據集,具有廣泛的應用潛力。
- StableLM:由Stability.ai推出的乾淨且自由的大規模語言模型。它使用他們自己構建的開放數據集,引起了廣泛關注。
- RedPajama:一個開放項目,旨在創建與LLaMA相等的數據集,但具體細節尚未提供。
這些大規模語言模型之間存在競爭,每個模型都有不同的特點和限制。這種多樣性促使大規模語言模型領域出現百花繚乱的局面,並為研究和應用提供了更多選擇。
Blog comments