在令人著迷且快速發展的人工智慧領域中,最令人興奮的進展之一就是AI文本生成的發展。例如,AI模型能夠自動創建標題、文章和劇本,從而提高生產力並節省時間和成本。 GPT-3抱歉,沒有提供任何文本進行翻譯。 盛開抱歉,沒有提供任何文本進行翻譯。 BERT抱歉,沒有提供任何文本進行翻譯。 亞裔莉莎TM和其他大型語言模型一樣,可以生產出非常類似人類的文本。這既令人興奮,又令人擔憂。這些技術進步使我們能夠以前所未有的方式發揮創造力,但也打開了欺騙的大門。而且,這些模型越好,越難區分人寫的文本和人工智能生成的文本。
自發布以來 ChatGPT全球各地的人們一直在測試這些人工智慧模型的極限並使用它們來獲取知識。然而,一些學生甚至使用它們來解決作業和考試,這挑戰了這種技術的道德影響。尤其是這些模型已變得足夠複雜,可以模仿人類的寫作風格並在多個段落中保持上下文,即使它們的錯誤很小,仍需要修正。
這引出了一個重要的問題,這是我經常被問到的問題:
我們如何判斷文字是人寫的還是由人工智慧生成的?
這個問題對研究界來說並不新鮮;檢測 AI 生成的文本稱為「深度偽造文本檢測」。今天,有不同的工具可以用來檢測文本是人寫的還是 AI 生成的,例如 OpenAI 的 GPT-2.但是這些工具是如何工作的呢?
目前有不同的方法來檢測人工智慧生成的文本。隨著用於生成這些文本的模型變得更加先進,正在研究和實施新技術來檢測這些文本。
本文將探索可用於檢測 AI 生成文本的四種不同統計方法。
讓我們馬上開始吧...
N-gram 分析
N-gram 分析
N-gram是指一個給定文本樣本中,由 N 個單詞或標記按順序排列而成的序列。在N-gram中,“N”表示N-gram包含的單詞數量。例如:
- 紐約。
- 三劍客(3-gram)。
- 該團體定期會面(4個字)。
分析文本中不同 N-gram 的頻率可以確定模式。例如,在我們剛剛過去的三個 N-gram 範例中,第一個最常見,第三個最不常見。透過追蹤不同的 N-gram,我們可以決定它們在 AI 生成的文本中比在人類撰寫的文本中更常或更少。例如,AI 可能比人類作家更常使用特定的詞語或詞組。透過對由人和 AI 生成的數據進行訓練,我們可以找出 AI 與人類在使用 N-gram 頻率方面的關係。
困惑。
困惑
如果您在英語詞典中查找perplexed一詞,您會發現其定義為“驚訝或震驚”。但是,在AI和NLP的特定上下文中,尤其是困惑度度量如何自信地預測文本的語言模型。通過量化模型需要多長時間才能回應新文本來估計模型的困惑度。換句話說,模型對新文本的“驚訝”程度。例如,一個AI生成的文本可能會降低模型的困惑度;模型預測文本的能力越好,困惑度越低。困惑度的計算速度快,這使它比其他方法更具有優勢。
爆發性
爆發性
在自然語言處理中,Slava Katz定義爆發性(burstiness)為某些詞彙在文件或一組文件中以“爆發”的形式出現的現象。其想法是,當一個詞在一個文件中使用一次時,它很可能會在同一文件中再次使用。由人類所撰寫的文本與AI生成的文本展現出不同的爆發性模式。因為它們沒有選擇其他同義詞所需的認知過程,所以它們傾向於重複使用同一個詞彙多次。
文體學。
風格分析學
文體分析學是對語言風格的研究,可以用來識別作者或文本來源(人類對機器人)。每個人使用語言的方式都不同。有些人喜歡簡短的句子,有些人喜歡長句子。人們使用分號、破折號(和其他獨特的標點符號)的方式也各不相同。此外,有些人比較多使用被動語態,而有些人使用更複雜的詞彙。由人工智慧生成的文本可能會展現出不同的文體特徵,即使是多次談論同一主題。由於人工智慧沒有風格,這些不同的風格可用於檢測機器人是否寫作文本。
最後的想法
隨著人工智慧的發展,我們需要更先進和複雜的工具來檢測 AI 產生的文本,以避免錯誤信息和欺騙。雖然這是當今非常活躍的研究領域,研究人員已經開發出檢測 AI 撰寫的文本的工具。普林斯頓大學的 Edward Tian 就是這樣一個例子。 Tian 開發了一個實驗性工具,名為: GPTZero 使用「困惑度」和「爆發度」估計 AI 生成內容的可能性。另一個例子是華盛頓大學的教授和 NLP 研究員 Noah Smith,他的研究專注於人類撰寫文本意圖的獨特質量。AI 生成的文本通常需要更有意圖性和一致性,這可能隨著這些語言模型的改進而改變。本文探討的方法都不是絕對可靠的。通常需要結合不同的技術和廣泛的訓練集,才能建立現實中的 AI 生成文本分類器。