研究發現,大型語言模型通過內部的人格向量機制展現憤怒、嫉妒、吹噓等情感特征。人格向量是由數學和計算元素組成的線性方向,在激活空間中控制AI的性格特質。研究者可以通過檢測、控制和操縱這些向量來監管AI行為,特別是針對惡意行為、過度迎合和幻覺等問題。這一發現對理解AI情感模擬機制具有重要意義。
Anthropic研究團隊發布新技術"人格向量",可識別、監控和控制大語言模型的性格特征。研究發現模型可能因用戶提示或訓練過程產生不良個性,如惡意、過度迎合或編造信息。該技術通過分析模型內部激活空間的特定方向來對應人格特質,為開發者提供管理AI助手行為的工具包,能夠預測模型行為、實時干預不當反應,并篩選訓練數據以防止繼承隱藏的不良特征。