网络专业的网站建设,岳溥庥网站建设,泰安市网站建设公司,自己做外贸自己做网站来源#xff1a;网络大数据摘要#xff1a;当使用谷歌翻译将西班牙语的新闻翻译为英语时#xff0c;涉及到女性的短语通常都会翻译为“他说”或“他写道”。当使用谷歌翻译将西班牙语的新闻翻译为英语时#xff0c;涉及到女性的短语通常都会翻译为“他说”或“他写道”。常… 来源网络大数据摘要当使用谷歌翻译将西班牙语的新闻翻译为英语时涉及到女性的短语通常都会翻译为“他说”或“他写道”。当使用谷歌翻译将西班牙语的新闻翻译为英语时涉及到女性的短语通常都会翻译为“他说”或“他写道”。常用于处理和分析大量自然语言数据的词嵌入(Word Embedding)算法通常会将欧美名字预测为令人愉快的人物形象而将非裔美国人名预测为令人不愉快的人物形象。这些只是AI应用歧视特定人群中的一小部分案例还有更多未被发现。正如很多学者所指出的偏颇决策并非AI独有但随着AI的影响范围逐渐扩大使得这个问题的解决变得尤为重要。实际上偏见问题的普遍性意味着我们需要系统的解决方案下文我们列出了几种可能的策略。有偏数据无论是在学术界还是工业界从发行的出版物和媒体等公开刊物和报道来看计算机科学家们均倾向于通过训练更加复杂的算法而获得荣誉而对于数据收集、数据处理和数据组织相对关注较少。AI产生偏差的主要原因在于训练数据。大部分机器学习任务都基于大规模的、带标注的数据集进行训练。例如针对图片分类的深度神经网络通常基于ImageNet进行训练而ImageNet上有着超过1400万张的标注图像集。在自然语言处理中标准算法一般基于具有数十亿个单词的语料库进行训练。研究人员通常使用特定查询关键词通过爬取类似谷歌图像、谷歌新闻等网页来搜集数据或者通过整合例如维基百科等比较容易获取的数据源上的信息来构建数据集。这些数据集后续通常由研究生或众包平台如亚马逊众包平台(Amazon Mechanical Turk)进行标注处理。这些处理方法可能会无意识地让数据产生性别、种族和文化偏见。通常来说数据中包含的某些群体占比较高而另一些群体则占比较少。ImageNet作为推动计算机视觉研究的训练数据源其中超过45% 的数据来源于美国用户而这些数据提供者仅占全世界人口的 4%。相比之下中国和印度用户总共贡献了 3% 的数据而这些国家的人口占据了全世界人口的36% 。这种地理多样性的缺乏从某种情况下解释了为何计算机视觉算法会将一张美国传统新娘的照片标记为“新娘”、“礼服”、“女人”、“婚礼”而将另一张北印度新娘的照片则标记为“表演艺术”和“服装”。在医学领域机器学习预测器可能特别容易受到有偏数据集的影响因为医学数据的生产和标注成本非常高。去年研究人员使用深度学习从照片中识别皮肤癌。他们在129,450张图片集上进行模型训练其中60% 的图片来源于从谷歌图片。但是其中有不到5%的图片是属于深色皮肤人群的并且该算法并未在深色皮肤人群上进行过测试。因此这个分类器对不同人群的性能可能会有显著变化。造成偏差的另一个原因是算法本身。典型的机器学习程序会尝试最大化训练数据的整体预测准确性。如果训练数据中一组特定群体的出现频率明显超过其他群体则程序将会针对此类群体的数据进行优化来提供整体准确率。一般计算机科学家基于“测试数据集”进行算法评估但测试集通常是原始训练集的随机子样本所以也有可能存在同样的偏差。有缺陷的算法可以通过循环反馈放大偏差。想象一下根据统计学训练的系统例如谷歌翻译其默认使用的是男性代名词。这种模式是由英语语料库中男性与女性代名词比例2:1的情况造成的。更糟的是每一次翻译程序默认翻译为“他说”都会增加相应男性代名词出现在网页上的几率——这可能会潜在地影响来之不易数据纠偏进展。得益于大规模的社会变革才使得男女代名词的比例从20世纪60年代的4:1下降到现在的2:1。平衡倾斜数据中的偏差常常会反映出制度建设和社会权利关系的深层次和隐性失衡。以维基百科为例它似乎是一个丰富多样的数据源。但是该网站的传记条目中只有不到18%是关于女性的。从女性文章链接到男性文章的次数远大于反过来链接的次数这使得男性更容易被搜索引擎获取到。男性还更多的被浪漫伴侣和家庭的相关文章所提及。因此建立训练数据集时必须注意算法调优情况和社会意识行为。具体而言应该采取措施来确保数据集具有多样性并且不代表特定群体。这意味着不能再采用简单的分类——“男/女”、“黑/白”等等——这些分类很难表达性别和种族身份的复杂性。一些学者已经开始对此展开工作。计算机科学家最近发现商业面部识别系统在识别肤色较深的女性相比肤色较浅的男性会更容易产生性别分类错误错误率分别为35%和0.8%。为解决这个问题研究人员重新构建了一个由1,270个人组成的新的图像数据集来均衡性别和种族比例。使用这些数据重新训练和微调后的面部分类算法应该可以提高其准确性。为了帮助确定偏差来源我们建议注释者使用标准化元数据对训练数据集的内容进行系统化的标注。一些研究小组已经在设计包含机器学习数据集的元数据和“有效标签”的“数据表”。含机器学习数据集的元数据和“营养标每个训练数据集都应有相关信息来说明该数据集是如何收集以及是如何对数据进行注释的。如果数据包含有关人员的信息则应提供有关地理、性别、种族和其他人口统计信息的摘要。如果数据标签是通过众包完成的那么应该包括有关人群参与者的基本信息以及他们给出的确切请求或指示。数据管理者应尽可能提供与数据相关的准确描述。例如在刑事司法数据的例子中了解模型训练过哪些“犯罪”类型数据有助于应用和解释该模型。内置修复程序许多期刊已经要求作者提供类似的实验数据信息作为出版的先决条件。例如Nature要求作者将所有微阵列数据上传到开放存取库Gene Expression Omnibus——这就有需要作者提交实验协议的元数据。我们鼓励像国际机器学习会议这样的会议组织者去提出类似的要求将标准化的元数据作为最终提交和同行评审过程的重要组成部分。数据存储库的主机(例如OpenML)和AI竞争平台(例如Kaggle)也应该这样做。最重要的是计算机科学家应该努力开发更加完善的算法来消除数据中存在的人的偏见。目前研究者正在探寻各种方法来解决数据偏差的问题其中之一是纳入约束本质上就是推动机器学习模型以确保它在不同的子群体和类似的个体之间实现公平的算法。一种相关的方法是改变学习算法以减少其对敏感属性如种族、性别和收入等以及与这些特征相关的信息的依赖。这种新产生的去除偏差的方法很有潜力但需要通过实践的检验与完善。然而不可回避的问题是种族、性别和其他相关信息是需要被准确记录的。除非有很好的实例否则很难知道应该对模型施加哪些约束或更正。相关方法也要求算法设计者可以先验地确定他们想要避免哪些类型的偏差。一种互补的方法是使用机器学习本身来识别和量化算法和数据中的偏差。 我们称之为进行AI审计其中审计员是一种系统地探测原始机器学习模型以识别模型和训练数据中的偏差的算法。以我们最近工作中使用的一种流行的机器学习方法——词嵌入为例来量化美国的历史成见。词嵌入将每个英语单词映射到空间中的点(几何向量)这样向量之间的距离就能捕获对应单词之间的语义相似性。它捕捉了类比关系例如man是kingwoman是queen。我们开发了一种算法——AI审计员来查询其他性别类比的嵌入。这表明“man”是“doctor”而“woman”是“nurse”;“man”是“computer programmer”而“woman”是“homemaker”“。一旦审核员在单词嵌入和原始文本数据中揭示了历史成见就可以通过修改单词向量的位置来减少偏差。此外通过评估成见的演变过程对历史文本进行训练的算法可能会有消除偏差的作用。例如从1910年到1990年谷歌图书每十年的美国文本数据嵌入一次就会发现这期间美国人对亚裔的态度令人非常震惊且变化无常。1910年美国人对亚裔的描述为“怪异”和“野蛮”。到1990年在第二次世界大战后和20世纪80年代的移民浪潮时期美国人的态度发生了巨大转变又用“抑制”和“敏感”来描述亚裔。根源性方法计算机科学家、伦理学家、社会科学家和其他许多人都在努力提高数据和AI的公平性我们也是时候考虑一下何为公平了。数据展现了这个世界的本来面貌还是被塑造成人们想要它成为的样子?同样一个人工智能工具是否应该用来评估一份工作的候选人以及这个人是否能很好地融入工作环境? 谁又应该决定优先考虑哪种公平观念?为了解决这些问题并评估训练数据和算法的更广泛影响机器学习研究人员必须与社会科学家以及人文、性别、医学、环境和法律等方面的专家进行交流。当前正在努力促进这种合作包括我们在加州斯坦福大学参加的“以人为本的AI”计划。这种参与必须从本科阶段开始这个阶段的学生不仅要了解算法的工作原理同时还要研究AI的社会背景。设备、程序和流程塑造了我们的态度、行为和文化。AI正在改变经济和社会改变我们沟通和工作的方式重塑治理模式和政治环境。我们的社会长期忍受着不平等AI绝不能与此沆瀣一气。未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
相关文章: