如何理解机器学习中的偏见和公平(Aporia)

语言: CN / TW / HK

持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第18天,点击查看活动详情

机器学习和大数据正变得越来越流行,它们对社会的影响也在不断扩大。许多行业越来越依赖机器学习算法和人工智能模型来做出每天影响企业和个人的关键决策。

了解偏见和公平的概念,以及它们如何在数据和机器学习中表现出来,有助于确保您在实践可靠的人工智能和治理。

什么是机器学习公平性?

如今,机器学习系统已被纳入并集成到我们所依赖的无数行业和企业中,包括金融机构、房地产业、食品和饮料、零售业等。因此,他们必须满足社会和法律标准,才能做出公平和包容的决定。

但是,当我们使用“公平”这个词时,我们的实际意思是什么?

我们可以确定我们不希望模型基于宗教、种族、性别、残疾和政治取向等特征而产生负面偏见。

以最简单的形式,我们可以将公平定义为不同个体取得的平等结果,除非可以在他们之间以有意义的区分形式得出真正的理由。事实上,我们仍在定义一个全新的词汇和一套概念来谈论公平。

我们为什么要关心机器学习的公平性?

如果我们基于与决策过程无关的偏见和特征做出决策,我们的世界将不会变得更美好。如果存在这样一个世界,我们作为个人成为歧视的受害者只是时间问题。

以下是过去几年的一些案例,其中 ML 系统的设计并非带有偏见,但在付诸实践时,事实证明它们具有偏见并且对公众有害:

  • COMPAS – 替代性制裁的惩罚性罪犯管理分析 (COMPAS) 是美国法院用来评估被告成为惯犯可能性的案件管理和决策支持工具。根据 ProPublica 的说法,COMPAS 系统错误地预测黑人被告的再犯风险比实际情况要高。
  • 亚马逊招聘算法——2014 年,亚马逊致力于一个项目,以自动化申请人简历审查流程。亚马逊在被发现歧视女性后决定关闭其实验性的机器学习招聘工具。
  • Apple Card – Apple Card 是由 Apple Inc. 创建并由 Goldman Sachs 发行的信用卡。它于 2019 年 8 月推出。使用几个月后,客户开始抱怨该卡的算法歧视女性。

机器学习中的偏见是什么?

机器学习的本质中存在一个固有缺陷:您的系统将从数据中学习,从而使其面临被反映在该数据中的人为偏见的风险。

本质上,偏见是模型预测的结果由于错误的假设而系统地扭曲的现象。 有偏见的模型是当我们在训练集上训练我们的模型并在测试集上评估我们的模型时产生大量损失或错误的模型。

数据中可能存在哪些类型的偏差?

image.png

常见的陷阱

受保护的属性代理

受保护的属性是法律上不能区分的特性或特征。它可以包括年龄、性别、种族、肤色、性取向、宗教、原籍国、婚姻状况等等。

即使受保护的属性没有出现在用于 ML 模型的数据集中,它仍可能通过代理(与受保护属性具有统计关系的属性)存在。

有偏见的标签

用于训练 ML 模型的训练集可以由在标记过程中可能存在偏见的人进行标记。例如,在一个预测求职者成功率的系统中,如果标记是由一个有偏见的人(有意或无意)完成的,ML 模型将学习它接收到的标记数据集中存在的偏见。

有偏抽样

如果模型已经具有初始偏差,则可能会随着时间的推移导致偏差退化。如果用于训练模型的数据集依赖于受污染模型做出的决策,则可能会发生这种情况。

想象一个偏向男性申请者的“招聘 HR”ML 模型。如果该模型具有歧视性,则会雇用更少的女性申请人。即使雇用的女性申请人的成功率更高,在模型处理输入数据后,来自受歧视人群的样本也会减少,因此考虑就业的女性也会减少。

image.png

数据有限

在某些情况下,从特定人群中收集的数据是有限的,例如,当只收集了有限数量的学习数据时,或者当受歧视人群的某些特征缺失时。这可能导致模型不足以预测该人群。

如何避免模型偏差并确保公平?

不幸的是,没有神奇的解决方案。事实上,ML 公平性是一个复杂的问题。首先,对于公平性定义或指标没有共识。此外,防止不公平做法的关键是一个过程,而不是具体的行动项目。

采取积极的方法

在每个 ML 项目的研究阶段,从一开始就考虑到 ML 的公平性。

  • 为公平设定具体目标
  • 考虑 ML 项目的目标受众
  • 确定可能受到歧视的各方
  • 设计用于反映公平问题和目标的指标和算法
  • 查找过去的其他类似场景和陷阱

四个主要的剖面处理

数据挖掘

在数据挖掘步骤中,根据一个或多个受保护的属性来衡量数据分布是很重要的。应该优先定义数据代表性的指标,并确保有足够的数据和标签供少数群体使用。

注意你的目标。子组的期望分布不一定需要与总体相对应。在许多情况下,提高模型在少数子组上的性能需要对该组进行过采样。

模型训练

定义团队模型中公平问题和偏见的指标和测量方法。在模型训练期间使用这些措施。在训练期间遵循这种做法可以让您选择超参数以实现公平性和性能的良好平衡。

后期处理

测量测试数据集的公平性指标!比较不同子组的预测值分布。此外,比较不同保护组的性能指标(例如:准确性、混淆矩阵、RMSE 等)。

服务于监控

在现实世界中,衡量和监控生产中的公平性指标至关重要。这一步非常重要,因为它将能够快速检测和缓解公平问题(例如:关于公平的预测漂移)。您可以使用许多工具来降低 ML 偏见的风险并确保公平,包括 Aporia 的自定义 ML 监控解决方案

通过 ML 模型监控检测偏差并确保公平

构建机器学习模型通常需要使用泛化技术。 这些推论技术通常可以提高模型的性能,但是,有时它会依赖于宗教、种族、性别、残疾和政治取向等特征,从而牺牲某些人群的利益。 作为数据科学家,我们有责任监控我们的模型并在必要时对其进行改进,以防止这种情况发生。 因此,下次将机器学习模型部署到生产环境时,请记住考虑偏见和公平性?

原文链接:Understanding Bias & Fairness in Machine Learning