Unleash the full potential of your business in the digital world


為何開發者會湧向 LLaMA,Meta 的開源 LLM?

James Huang | 2023.05.09

當談到生成式人工智慧時,開源社區接受了 Meta AI 的 LLaMA(Large Language Model Meta AI),該系統於二月份發布。Meta 提供了多種大小的 LLaMA(7B、13B、33B和65B參數),但一開始僅限於經過批准的研究人員和機構,然而,在三月初泄漏到網上供任何人下載時,它就成為完全開放源代碼。 開發人員對 Meta 的 LLaMA 趨之若鶩,因為與 GPT 和其他熱門的 LLM 相比,LLaMA 的權重可以調整。這使開發人員能夠在應用程序(例如聊天機器人和虛擬助手)中創建更高級別和更自然的語言交互。LLaMA 與 OpenAI 的 GPT 3 模型沒有太大的區別,除了 Meta 共享了權重。其他主要的 LLM 沒有這樣做。 在 AI 模型的上下文中,“權重”是指模型在培訓過程中學習的參數。這些參數存儲在文件中,並在推論或預測階段使用。具體而言,Meta 釋放了 LLaMA 的模型權重,供研究社區在非商業許可下使用。其他功能強大的 LLM,例如 GPT,通常僅通過有限的 API 可以訪問。 您必須通過 OpenAI 訪問 API,但實際上您無法下載模型或在計算機上運行它,您無法自訂任何內容,基本上什麼都不能做。換句話說,對於開發人員來說,LLaMA 更易於適應。這對當前的 LLM 領導者,例如 OpenAI 和 Google,可能非常具有破壞性。 財務和法律應用案例是對微調和本地主機架設的好選擇。一些大型公司可能希望超越僅微調,並使用自己的數據預先訓練整個模型。到目前為止,分類任務也很受歡迎,例如毒性預測、垃圾郵件分類和客戶滿意度排名。 開發人員可以使用的工具之一來微調 LLaMA 是 LoRA(Large Language Models 的低秩適應)。這種轉換器方法很有吸引力,因為它允許訓練整個 LLM,同時使變壓器的其餘部分保持凍結-這導致更少的參數和更快的訓練時間。 LoRA 是轉換器方法中的一種類型,它使用數學技巧將大型矩陣分解為較小的矩陣,從而減少參數並提高存儲效率。實際上,這意味著您可以在更短的時間內進行微調。 開發人員和微調
了解如何使用語言模型將是開發人員有用的技能,但對他們來說,除非他們有非常特定的需求,否則不需要負責在公司微調模型。對於小公司和沒有敏感信息的公司,他們可以使用像 GPT 這樣的通用工具,而對於大型公司,將會有一名團隊成員負責微調模型。 結論
LLaMA 看起來是開發人員想要更靈活使用大型語言模型的絕佳選擇。儘管微調變得越來越可接近,但仍然是一種專門技能,不是每個開發人員都需要學習。無論是否進行微調,開發人員越來越需要了解如何使用 LLM 來改進其應用程序中的某些任務和工作流程。因此,尤其是因為 LLaMA 比 GPT 和其他熱門的 LLM 更開放,所以值得一看。

為何開發者會湧向 LLaMA,Meta 的開源 LLM?
MERCURY TECHNOLOGY SOLUTION, James Huang 9 5月, 2023
分享這個貼文
馬爾科姆·葛拉威爾:大衛擊敗歌利亞的真正原因