Apple的偏好排名指南:洩漏的文件揭示了人工智慧產生的回應的評分系統
蘋果的一份文件揭示瞭如何根據傷害性、真實性、滿意度等對人工智慧數位助理的回應進行評分。 蘋果公司對數位助理回應進行評分的內部策略已被洩露——它提供了一個罕見的內部視角,讓我們了解該公司如何判斷人工智慧的回答是「好」還是「有害」。 這份洩漏的 170 頁文件由 Search Engine Land 獨家獲得並審查,標題為《Preference Ranking V3.3 Vendor》,標記為《Apple 機密 – 僅供內部使用》,日期為 1 月 27 日。 它列出了人工評論者用來評分數位助理回覆的系統。答案將根據真實性、危害性、簡潔性和整體用戶滿意度等類別進行評判。 這個過程不僅僅是核實事實。它旨在確保人工智慧產生的回應對用戶來說是有用、安全的並且感覺自然。 蘋果對 AI 響應的評分規則 該文件概述了一個結構化、多步驟的工作流程: 數位助理的評分規則 需要明確的是:這些準則並非旨在評估網路內容。該指南用於評估人工智慧生成的數位助理的回應。 (我們懷疑這是針對 Apple Intelligence 的,但也可能是 Siri,或者兩者兼而有之——這一部分尚不清楚。) 文件稱,用戶通常會隨意或含糊地打字,就像在真實聊天中一樣。因此,回應需要準確、像人性化、並且能夠回應細微差別,同時考慮語氣和本地化問題。 摘自文檔: 評分分為六個類別: 按照指示 蘋果的人工智慧評估員會對其遵循使用者指示的準確程度進行評分。此評分僅針對助手是否按照要求的方式執行了所要求的操作。 評估人員必須識別明確的(明確說明的)和隱含的(暗示或推斷的)指示: 評估者需要開啟連結、解釋上下文,甚至回顧對話中的先前內容,以充分了解使用者的要求。 根據答案遵循提示的徹底程度進行評分: 語言 指南部分非常強調與使用者所在地點的匹配 — — 不僅是語言,還有其背後的文化和地理背景。 …