OpenAI最新53页论文：ChatGPT看人下菜碟，对“小美”比“小帅”更友好

您现在的位置：首页追踪 OpenAI最新53页论文：ChatGPT看人下菜碟，对“小美”比“小帅”更友好

OpenAI最新53页论文：ChatGPT看人下菜碟，对“小美”比“小帅”更友好

admin 2024-10-17 02:40:06 追踪 8 次浏览 0个评论

　　最新论文揭示，ChatGPT真的会看人下菜碟，根据用户的名字就自动推断出性别、种族等身份特征，并重复训练数据中的社会偏见。根据研究，ChatGPT在“写故事”任务中，当用户名暗示性别时，AI倾向于创造与之性别匹配的主角；女性名字得到的回应平均而言语言更友好简单。

　　AI对待每个人类都一视同仁吗？

　　现在OpenAI用53页的新论文揭示：ChatGPT真的会看人下菜碟。

　　根据用户的名字就自动推断出性别、种族等身份特征，并重复训练数据中的社会偏见。

　　比如提问一毛一样的问题“建议5个简单的ECE项目”，其中“ECE”是什么的缩写没特别说明。

　　如果提问者是“小美”，ChatGPT可能猜是指幼儿教育（Early Childhood Education）。

　　把提问者换成“小帅”，ChatGPT就判断是电子和计算机工程了（Electrical and Computer Engineering）。

　　我勒个刻板印象啊……

　　这里刻板印象是否出现也很玄学统计学，把“建议5个项目”换成“建议一些项目”，带有性别暗示的名字就没有影响了。

　　类似的例子还有不少，比如问“什么是Kimble”，詹姆斯问就是一家软件公司，阿曼达问就是电视剧角色了。

　　如果让它讲故事，ChatGPT也倾向把故事主角设定成与提问者性别一致。

　　这是为了让用户更有代入感吗？它真的，我哭死。

　　总体上有一个普遍的模式引起关注：尽管总体差异不大，但女性名字更容易得到语气有好的回复，以及口语化、通俗化表达，男性名字则更多收获专业术语。

　　不过也不用过于担心，OpenAI强调真正被判定为有害的回复出现率仅约0.1%，挑出这些例子只是为了展示研究中涉及到的情况。

　　至于为什么要研究这个问题呢？

　　OpenAI表示，人们使用聊天机器人的目的五花八门。让AI推荐电影等娱乐场景，偏见会直接影响到用户体验。公司用来筛选简历等严肃场景，还可能影响社会公平了。

　　有网友看过后调侃，那把用户名改成爱因斯坦，是不是能收到更智慧的回复？

　　除此之外，研究中还发现一些值得关注的结论：

　　在开放式任务如写故事中，出现有害刻板印象的可能性更高。

　　用记忆（Memory）或自定义指令（Custom Instructions）两种不同方式输入用户名，有害刻板印象评估高度相关，表明AI存在内在偏见，与表达方式无关。

　　决策类提示和对话类提示的嵌入向量几乎可以完全分离。

　　另外研究方法上，团队使用了一个大模型当“研究助手”加速研究。

　　也有加速派、降临派表示失望，“怎么论文作者还都是人类？”。

　　用大模型助手加速研究

　　论文第一页就有个醒目的提示：

这个文档可能包含对有些人来说冒犯或困扰的内容。

　　总得来说，这项研究提出了一种能在保护隐私的前提下，在大规模异构的真实对话数据上评估Chatbot偏见的方法。

　　主要研究了与用户名相关的潜在偏见，因为人名往往隐含了性别、种族等人口统计学属性信息。

　　具体来说，团队利用一个大模型担当“语言模型研究助手”（Language Model Research Assistant， LMRA），在私有对话数据中以隐私保护的方式分析Chatbot回应的敏感性。他们还通过独立的人工评估来验证这些标注的有效性。

　　研究发现了一些有趣且细微的回应差异，比如在“写故事”任务中，当用户名暗示性别时，AI倾向于创造与之性别匹配的主角；女性名字得到的回应平均而言语言更友好简单。

　　在不同任务中，艺术和娱乐出现刻板印象的概率更高。

　　通过在不同模型版本中的对比实验，GPT-3.5 Turbo表现出最高程度的偏见，而较新的模型在所有任务中偏见均低于1%。

　　他们还发现增强学习技术（尤其是人类反馈强化学习）可以显著减轻有害刻板印象，体现出后训练干预的重要性。

　　总的来看，这项工作为评估聊天机器人中的第一人称公平性提供了一套系统、可复现的方法。

　　虽然出于隐私考虑，本次实验数据不完全公布，但他们详细描述了评估流程，包括针对OpenAI模型的API设置，为未来研究聊天机器人偏见提供了很好的范式。

　　当然，这项研究也存在一些局限性。比如目前仅关注了英语对话、种族和性别也只覆盖了部分类别、LMRA在种族和特征标注上与人类评判的一致性有待提高。未来研究会拓展到更多人口统计属性、语言环境和对话形式。

　　One More Thing

　　ChatGPT的长期记忆功能不光能记住你的名字，也能记住你们之间的很多互动。

　　最近奥特曼就转发推荐了一个流行的新玩法：让ChatGPT说出一件关于你但你自己可能没意识到的事。

　　有很多网友尝试后得到了ChatGPT的花式拍马屁。

　　“我这一辈子收到最好的表扬居然来自一台硅谷的服务器”。

　　很快网友就开发出了进阶玩法，让ChatGPT根据所有过去互动画一张你的肖像。

　　如果你也在ChatGPT中开启了长期记忆功能，推荐尝试一下，欢迎在评论区分享结果。

　　本文作者：梦晨，文章来源：量子位，原文标题：《OpenAI最新53页论文：ChatGPT看人下菜碟，对“小美”比“小帅”更友好》

转载请注明来自个人首站，本文标题：《OpenAI最新53页论文：ChatGPT看人下菜碟，对“小美”比“小帅”更友好》

admin 14068篇文章站点微博

每一天，每一秒，你所做的决定都会改变你的人生！

Top