我们需要对《算法霸权》的威胁重视起来


我的经历

在看这本书之前,我对算法模型带来的恶了解不多,但是回想起来,还是有那么几件事情让人不寒而栗。

一个就是“大数据杀熟”的事情,千人千面,之前我们理解的、或者电商承诺的千人千面,是根据自己的兴趣、喜好推荐不同的物品,现在根据不同人的经济能力、教育水平,甚至可以在价格上千人千面。此时,穷人和富人的界限也不是那么清晰了,办了会员卡的人可能看到的是更高的价格。

另外一个是,我之前了解的一个事例,据说,某外卖平台中的一个外卖员总是能在算法规定的完成派单时间内,早早完成,后来经过调查,发现骑手在派单时,发现了一条捷径,这条捷径不在算法平台中体现,因此出现远超算法预期的行为,当这个漏洞被补上的时候,骑手的派单时间被压缩了。那么,如果之后这个捷径被堵上,不让过,那么骑手得到的就是超时,罚款。整个过程中,算法在干什么?它在一步步地压缩骑手的活动空间,扩大利润空间,但是当空间变化时,模型能及时调整回原来的状态吗?我持否定态度,另外我看见一个算法工程师在不断用绳子勒死自己,因为也有一些模型在评估他们的行为,而他们研究出来的技术就扑向自己迈向死亡的道路。

我自己也有一些算法方面的经验,是医学方面的,到没有上面那么“骇人听闻”,但是也是让人不舒服的。众所周知,算法的准确,需要大量的数据,对于医学来说,就需要大量的病人的数据。有时候,当数据不足时,我们希望更多的数据时,殊不知这意味着更多的病人感染奇怪的疾病,想想有点可怕。回想big shot电影中,布拉德皮特饰演的Ben,对Charlie等两人说,“如果你们的策略或者模型成功了,那意味着无数人的失业,美国将陷入经济衰退。”

WMD的兴起

数学杀伤性武器WMD

作者在书中创造了一个新的概念——数学杀伤性武器”(Weapons of Math Destruction,简写成WMD),用于描述数据在人们的日常生活中扮演的不可或缺但又充满威胁性的角色。

数学应用助推数据经济,但这些应用的建立是基于不可靠的人类所做的选择。有些选择无疑是出于好意,但也有许多模型把人类的偏见、误解和偏爱编入了软件系统,而这些系统正日益在更大程度上操控着我们的生活。

其杀伤性的源头,还是来自于人类本身,因为这些模型和工具所需要的输入全部由人类产生。但是:

由于数学的功能特别强大,一旦其与科技相结合,其所造成的混乱和不幸也会成倍增长,它使得一个有着巨大缺陷的系统加速运转,进一步扩大规模。

因此,这样的场景出现了,人类的各种缺陷,通过数学这种工具被无限放大了,而且由于计算能力的提高,这种放大的缺陷反过来给人类社会造成更大的破坏,但是其黑盒属性使得它们难以为人们察觉。

WMD的特点

作者在文中通过3个问题引出了WMD的特点:

第一个问题:如果参与者知道自己是被模型评估的对象,或知道模型目的是什么,那么该模型还是不透明的吗?

第二个问题特别困难:模型违反国民主体的利益吗?简单来说,模型是不是不公平的?它会破坏或毁灭一些人的生活吗?

第三个问题:该模型是否有应用场景呈指数增长的潜力?用统计学家的话来说就是,该模型能否规模化?

这三个问题总结了WMD的3个特点:

  • 不透明;
  • 规模化;
  • 毁灭性;

不透明

如果需要对数学模型有深入地理解,需要有相当深厚的专业知识,这对于普通人显然要求过高,甚至对一些初级的数据科学从业人员,也是比较困难的。

人们无从了解模型的具体运作方式,这意味着人们很难对模型给出的分数提出质疑或者抗议。

这种情况,造成的结果是:

这就是数学杀伤性武器的本质——将问题分析的部分外包给程序员和统计师,而他们的原则通常就是,机器说了算

对于不公正的人类决定,人们可以抗议甚至诉讼,但是:

你不能状告一个数学杀伤性武器。这也是我们说数学杀伤性武器具有极为可怕的破坏力的原因之一。模型不会倾听,也不会屈服,对诱惑、威胁和哄骗以及逻辑通通充耳不闻,即使被评估者有充足的理由怀疑得出结论的数据被污染。

当这种情况非常平常时,人们的态度也发生了转变:

人们对模型得出的结论毫无争议,从不上诉,即使结论是错误的或是有害的。

另外一个不透明的原因在于:

许多公司竭尽所能地隐藏它们的模型运算结果,甚至隐藏模型的存在。

因为,这是企业利润的来源,在当今大数据时代,也是他们压榨甚至剥削的核心手段,因此给模型披上面纱是再好不过的事情。对于模型可能造成问题,

但是一般来说,数学模型操作者不会思考这些可能的错误。他们看重的反馈是金钱,这也是他们的根本动机。

规模化

数学杀伤性武器擅长处理巨量数据,而且处理成本很低,这也是它们的优势所在。

规模化增强了数学杀伤性武器的破坏力,想想那些预测你喜欢哪一类商品的模型,在ms甚至ns级别上就能猜到你的喜好,比你的父母、妻子甚至自己都要了解你,而且多个预测操作,可以同时完成,这种规模化的效应,想想就让人害怕,如果将这种喜好换成对人的缺点的预测呢?对人的患病的预测呢?

另外一点,当今社会中各种模型之间都有互联互通的关系,但你在一个局部上出现问题,可能就会在全局上出现问题。此时,我想起之前美国流浪汉为啥这么多的一个解释,美国的信用体系太发达了,人一旦犯错,就会堕入万丈深渊,欠账了,信用就变差,就没办法租房了,也没办法使用信用卡了,子女进入好的学区也是不可能的,找工作也会看信用分,总之,就是一个螺旋式下降的趋势。中国目前还没有这么严格体系,因此如果一个人犯了错,可以换个地方从新再来。不知道,这种在数学模型上的落后,从这种角度来看,是一件好事呢。

毁灭性

因为规模化,因此其造成的伤害也是毁灭性的。这种毁灭性,作者提出了一个观点,

数学杀伤性武器的另一个常见特征,即其结果往往更倾向于惩罚穷人。

想想在拼多多上购物的人,应该是中产或者平民的比例更高一点吧。那些排着队投简历的人中,富裕或者有背景的家庭也是不多的,所以某种程度上也是对的。

特权阶级更多地与具体的人打交道,而大众则被机器操控。

因此,当模型带来的伤害总是为穷人承受时,这种威胁对于整个社会也愈发严重,撕裂、对立和仇恨蔓延开来。有人说,这是社会进步必然会带来的代价,但是看看说这些话的人,往往不在这些模型的打击面上,因此当他们面对这种情况时,我想起大明1573中赵贞吉说的那句话“为今之计,只能苦一苦百姓了。。”

面对这种局面,人们必须随着具体情况的改变而对模型改变。

但是错误总会出现,因为模型的本质就是简化。没有模型能囊括现实世界的所有复杂因素或者人类交流上的所有细微差别。

而且,毁灭性的源头在于模型设计的目的,这决定了模型到底是干什么的,目标是谁,有何好处,它的假设是什么。

一个模型的信息盲点能够反映建模者的判断和优先级序列。

我们自己的价值观和欲望会影响我们的选择,包括我们选择去搜集的数据和我们要问的问题。而模型正是用数学工具包装出来的各种主观观点。

我们不仅要问是谁设计的模型,还要问设计模型的人或者组织机构要达成什么目的。

同时,也要看谁在控制数据模型:

和很多数学杀伤性武器一样,数学以造福广大消费者为表象,其实质则是最大化卖家的短期利润。

WMD做的恶及其原因

但重点不是有没有人受益,而是有很多人受害。这些数学杀伤性武器关闭了亿万人的机会之门,通常只是因为一些微不足道的理由,而且不予他们上诉的机会。因此,它们仍然是不公平的模型。

作恶的形式

书中作者举出了各种例子来说明,WMD造成的各种危害。

  • 2008年金融危机时,作者作为参与者见证了华尔街使用数据模型窃取美国民众辛苦赚来的钱;
  • 排名模型对于学校声誉的打击,以及促成各种华而不实的攀比、营销等,而这些成本均被转移到普通的民众身上。而名校们对这些排名模型的免疫力更高,但是普通人上这些名校的概率远远低于特权阶层;
  • 掠夺式广告,将最穷的一批人往悬崖边上再推一把,各种信用机构和盈利性大学通过用户画像,从而推定制的信息,利用规模化的特点,重点“照顾”那些穷人,不管是发薪日贷款还是无意义的大学;
  • 犯罪预测模型,使得一次犯错,终生犯错变得相当普遍,这是WMD的规模性和毁灭性的集中体现,美国监狱中大量的犯人就是最好的证据,将普通人变成犯人的效率不断提升;
  • 找工作时,通过对于简历的“高效率”筛选,使得普通和经济条件不好的候选人早早被剔除,而特权阶级可以通过人类的介入或者资源公司的帮助来包装自己的简历;

在圣经中的马太福音中有这样一句话“凡有的,还要加倍给他,叫他多余;没有的,连他所有的也要夺过来”,WMD无疑在充分利用自己的“优势”来帮助实现这一目标。

WMD被误用的几点原因

WMD在整个社会中存在着误用,其原因从作者的书中各种零散的描述中,大致可分为两类:

人的原因

即所谓的“误用”其实是人为的,因为模型是对于真实情况的简化,但是只要能带来利润,这种简化所损失的信息,而带来的各种问题就可以视而不见,马克思的资本论中提到“为了100%的利润,资本就敢践踏一切人间法律”,何况是模型的简单误用呢!

还有模型本身的“原罪”

模型的设计是基于一系列的假设,例如:

因为数学模型的本质是基于过去的数据推测未来,其基本假设是:模式会重复。

这种假设的具体体现在:

  • 一个简历普通的人,是不可能有能力的;
  • 经常购买便宜货的人,其购买行为会一直持续;
  • 欠债的人,还会欠债;

这里,我同意这一点,这是符合贝叶斯原理的,先验概率高,后验概率一般也会高,但是不绝对,而模型将不绝对视为绝对,进行了简化。

另外在模型设计和使用过程中,还有其他的一些因素:

  • 辛普森悖论的影响; 在某个条件下,两组数据在分别讨论时都满足了某种性质,可是一旦合并考虑,就可能导致相反的结论。
  • 替代变量的误用 在算法模型中,需要很多的变量,用来量化一些难以量化的东西,比如“贫穷”很难量化,一个月工资是多少,如果对于一个人,一个月赚500元,肯定是穷的,但是发现它是学生,那么衡量贫穷应该把职业加进来。 但是量化一个东西,涉及到的变量很多,不可能将所有涉及到的全部列出来,甚至他们之间的以来关系,如果你了解机器学习算法,肯定知道独立同分布假设和各种消除依赖性的方法,如PCA等等。但是,模型是一个简化,只要有效果,对于替代的是否合理,是无人不关心。即便不合理,当涉及到规模化时,个体的错误也会被忽视。只有当规模化时,发现大量的错误时,也就是准确性降低时,才会有人注意。
  • 通过一般性的原则来预测个体

    “一般人’的水平可以用于衡量整个人口但往往无法用于评估个人。

    一个例子:抽烟的人有50%的概率会患上肺癌,你抽烟,所以你有50%的可能性得肺癌。这种说法对吗?当然是错误的,这是一种的典型统计学谬误。但是,在数学模型中,大量使用这种方式来运行,你的行为和算法训练中输入的数据一致,就会得到与算法期待的输出一致,并不会根据你的特质有所改变,这种称之为“人工智能”,有时候是一种讽刺!

如何面对WMD

从结尾中,可以大致了解作者的思考和态度:

  • 数学创造的模型在承诺了效率、精准后,但是并没有实现好,而且造成很大的问题;
  • 数学模型产生的威胁,使得社会撕裂,民主被践踏,贫富愈发悬殊;

为了应对数学模型带来的威胁,首先:

正如大多数数学杀伤性武器一样,核心问题主要在于模型的目标。把目标由压榨大众变更为帮助大众,数学杀伤性武器的危险性就解除了,甚至可以反过来变成一种正面力量。

并且需要全社会的行动,才能达到目标:

  • 数据科学工程师需要像希波克拉底一样宣誓,不作恶,谨慎应对每个模型;
  • 靠企业来解决模型的威胁是不现实的,因为这是他们利润的来源,而公平只是副产品;
  • 学术界需要参与进来,培养相关的人才,以便应对威胁;
  • 政府应该发挥关键作用,建立规范,加强监管,像一二次工业革命一样;

总结

这本书其实对于每个研究算法模型的人都应该读一下,我们过于强调和宣传“机器学习”和“人工智能”的优点,诚然,在技术变革开始时期,为了突破腐朽、落后的技术枷锁,有时候是不可避免的,但是当这类技术已经大行其道甚至被编入小学生教材时,我们就应该以一种审慎、批判的态度去看待它,而不是继续忽视。如果继续片面地宣传其优点,不是存在利益关系,就是我们自己也犯了模型简化的错误了。


文章作者: alex Li
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 alex Li !
  目录