欧洲高清一区二区,亚洲免费视频一区二区,欧美老妇交乱视频

法學(xué)碩士在人為干預(yù)下變得更加隱蔽地種族主義

日期：2025-08-23 來源：本站作者：admin 瀏覽：77

核心提示：　　　　　　即使這兩句話的意思相同，模型也更有可能將“臟”、“懶”和“愚蠢”等形容詞應(yīng)用于AAE的使用者，而不是標(biāo)準(zhǔn)美式英

　　即使這兩句話的意思相同，模型也更有可能將“臟”、“懶”和“愚蠢”等形容詞應(yīng)用于AAE的使用者，而不是標(biāo)準(zhǔn)美式英語(SAE)的使用者。這些模型將說AAE的人與聲望較低的工作聯(lián)系起來(或者根本不把他們與工作聯(lián)系起來)，當(dāng)被要求對一個(gè)假設(shè)的刑事被告作出判決時(shí)，他們更有可能建議判處死刑。

　　一個(gè)更值得注意的發(fā)現(xiàn)可能是研究人員在試圖解決這種偏見的方式中指出的一個(gè)缺陷。

　　為了清除模型中的仇恨觀點(diǎn)，OpenAI、meta和谷歌等公司使用反饋培訓(xùn)，即人工調(diào)整模型對某些提示的反應(yīng)方式。這個(gè)過程通常被稱為“對齊”，旨在重新校準(zhǔn)神經(jīng)網(wǎng)絡(luò)中的數(shù)百萬個(gè)連接，并使模型更好地符合期望值。

　　這種方法很好地對抗了明顯的刻板印象，領(lǐng)先的公司已經(jīng)采用了近10年。例如，如果用戶提示GPT-2說出對黑人的刻板印象，它可能會列出“可疑的”、“激進(jìn)的”和“激進(jìn)的”，但根據(jù)論文，GPT-4不再回應(yīng)這些聯(lián)想。

　　然而，這種方法在研究人員在研究中使用非裔美國人英語時(shí)引發(fā)的隱性刻板印象上失敗了，該研究發(fā)表在arXiv上，尚未經(jīng)過同行評審。他們說，部分原因是公司沒有意識到方言偏見是一個(gè)問題。訓(xùn)練一個(gè)模型不回應(yīng)公然的種族主義問題也比訓(xùn)練它不對整個(gè)方言做出負(fù)面反應(yīng)更容易。

　　“反饋訓(xùn)練教會模型考慮自己的種族主義，”艾倫人工智能研究所(Allen Institute for AI)研究員、該論文的合著者瓦倫丁·霍夫曼(Valentin Hofmann)說。“但方言偏見打開了更深層次。”

　　擁抱臉公司的倫理研究員阿維吉特·高希(Avijit Ghosh)沒有參與這項(xiàng)研究，他說，這一發(fā)現(xiàn)讓人們對公司解決偏見的方法產(chǎn)生了質(zhì)疑。

　　他說:“這種模式拒絕吐出種族主義的輸出，只不過是一個(gè)很容易被打破的脆弱的過濾器。”

打賞

更多>同類文章

• 必看新教程“點(diǎn)點(diǎn)四川長牌有掛嗎!詳細(xì)開掛教程	• Angel Reese在她的播客上對嘉賓有點(diǎn)粗魯，不想
• 必看教程“中至二人麻將開掛免費(fèi)”其實(shí)確實(shí)有掛	• 媒體部長凱瑟琳·馬丁會見RTé主席，討論瑞安·
• 教育和支持是幫助女性在工作中度過更年期的關(guān)鍵	• 教程輔助“新永和大廳有透視掛嗎!詳細(xì)開掛教程