當談到生成式人工智慧時,開源社區接受了 Meta AI 的 LLaMA(Large Language Model Meta AI),該系統於二月份發布。Meta 提供了多種大小的 LLaMA(7B、13B、33B和65B參數),但一開始僅限於經過批准的研究人員和機構,然而,在三月初泄漏到網上供任何人下載時,它就成為完全開放源代碼。
開發人員對 Meta 的 LLaMA 趨之若鶩,因為與 GPT 和其他熱門的 LLM 相比,LLaMA 的權重可以調整。這使開發人員能夠在應用程序(例如聊天機器人和虛擬助手)中創建更高級別和更自然的語言交互。LLaMA 與 OpenAI 的 GPT 3 模型沒有太大的區別,除了 Meta 共享了權重。其他主要的 LLM 沒有這樣做。
在 AI 模型的上下文中,“權重”是指模型在培訓過程中學習的參數。這些參數存儲在文件中,並在推論或預測階段使用。具體而言,Meta 釋放了 LLaMA 的模型權重,供研究社區在非商業許可下使用。其他功能強大的 LLM,例如 GPT,通常僅通過有限的 API 可以訪問。
您必須通過 OpenAI 訪問 API,但實際上您無法下載模型或在計算機上運行它,您無法自訂任何內容,基本上什麼都不能做。換句話說,對於開發人員來說,LLaMA 更易於適應。這對當前的 LLM 領導者,例如 OpenAI 和 Google,可能非常具有破壞性。
財務和法律應用案例是對微調和本地主機架設的好選擇。一些大型公司可能希望超越僅微調,並使用自己的數據預先訓練整個模型。到目前為止,分類任務也很受歡迎,例如毒性預測、垃圾郵件分類和客戶滿意度排名。
開發人員可以使用的工具之一來微調 LLaMA 是 LoRA(Large Language Models 的低秩適應)。這種轉換器方法很有吸引力,因為它允許訓練整個 LLM,同時使變壓器的其餘部分保持凍結-這導致更少的參數和更快的訓練時間。 LoRA 是轉換器方法中的一種類型,它使用數學技巧將大型矩陣分解為較小的矩陣,從而減少參數並提高存儲效率。實際上,這意味著您可以在更短的時間內進行微調。
開發人員和微調
了解如何使用語言模型將是開發人員有用的技能,但對他們來說,除非他們有非常特定的需求,否則不需要負責在公司微調模型。對於小公司和沒有敏感信息的公司,他們可以使用像 GPT 這樣的通用工具,而對於大型公司,將會有一名團隊成員負責微調模型。
結論
LLaMA 看起來是開發人員想要更靈活使用大型語言模型的絕佳選擇。儘管微調變得越來越可接近,但仍然是一種專門技能,不是每個開發人員都需要學習。無論是否進行微調,開發人員越來越需要了解如何使用 LLM 來改進其應用程序中的某些任務和工作流程。因此,尤其是因為 LLaMA 比 GPT 和其他熱門的 LLM 更開放,所以值得一看。
為何開發者會湧向 LLaMA,Meta 的開源 LLM?
James Huang | 2023.05.09
在 Insights
#
AI
Adapter Method
Ai Models
Apis
Artificial Intelligence
Chatbots
Classification Tasks
Customer Satisfaction Ranking
Dev
Developers
Fine-Tuning
Generative Ai
Gpt
Large Language Model Meta Ai
Llama
Lora
Machine Learning
Metai
Natural Language Interactions
Neural Networks
Open Source Community
Operation Efficiency
Parameters
Software Development
Spam Classification
Toxicity Prediction
Virtual Assistants