authorImg 黑爪

理工背景的文学、艺术爱好者,读书人,业余写作者、翻译者。

技术垄断不是一座密不透风的墙

导读

读完媒体的跟踪报道,和几个大学的研究,基本上就是两个字:绝望。

网友“廖师傅廖师傅”的不满,几乎“见者有份”,激起了很多人对自己经历的讲诉。

微博网友“廖师傅廖师傅”自述了被大数据“杀熟”的经历微博网友“廖师傅廖师傅”自述了被大数据“杀熟”的经历

我跟家人读书都有个“顺藤摸瓜”的毛病,经常顺着一本书,能带出一串来,难免时常会遇到稀奇古怪已经绝版的书。在搜这类稀奇古怪绝版书的过程中,网站返回给我的结果,往往售价几十刀,而卖家不是收藏范就是文艺风;与此同时,返回给我家人的结果,售价则通常在1分到1刀之间,加上从2、3刀到8、9刀不等的邮费,明显就是让买家出运费把废纸拉走,帮忙腾地方。

我们俩都是对模式(pattern)敏感的人,很快这个经济学家嘴里的“价格差异”,在我这里不知不觉简直变成了“智商差异”。显然我被那些网站贴上了“人傻钱多快来懵”的标签,而他则成了“又穷又精搞不定”的典范。

这就是传说中神奇的User Profiling干的好事。

User profiling,可以说成给用户画轮廓,对用户分析,将用户归档,等等,它极大地依赖数据。这个数据包括了用户的各种网络行为:爱去的网站,爱点击的图标,通常是买“最新到货”,还是直奔“换季优惠”……这些都构成我们作为用户的轮廓。商家拿这个profiing来做什么呢?光鲜的说法是,更好地为用户服务,再好听些,是提供更精准更个性化的服务

然而从上面的例子不难看出,它更主要的用途,其实是为每个用户私家定制独享价格,从而在每一笔交易中实现收益最大化

从这个意义上看,我们不久前还在沾沾自喜于如今可以鼠标一点就货比三家,从价格到服务,充分的信息和丰富的选择,让消费者真的有了上帝的感觉。一转眼却发现,商家已经反过来在挑选我们了。

商家之所以能够这么做——同样的商品和服务面对不同客户有不同价格——其立足点在于,每个人的心里存在的不同上限。User profiling就用来帮商家找到每个人的这个“痛点”上限,这从本质上跟传统市场的讨价还价无异,只不过传统市场是在讨和还的交流过程中来寻求摸索彼此的“痛点”,而电商则是通过“数据”或者“大数据”这个工具来实现。

动态价格,或者说价格差异,在有些场合是双赢的,比如红眼航班,航空公司既减少了空座率,对价格敏感而时间灵活的旅客也省了钱。但是当人们并不知道有更好的价格存在,或者知道了却因为种种原因而不能方便享受到更好的价格时,这样的价格差异就是对消费者的伤害。

《华尔街日报》2012年有过一篇调查报道,调查发现各主要电商都会利用地理位置来确定不同的价格。猛的一想,这让我升起了一种希望,以为这么做可以让低收入地区的人群受益,可我想错了。恰恰相反,高收入地区调查过程中所显示的价格,远远好过低收入地区,其原因是,贫困区商业不发达,没有太多零售店与电商竞争,因此他们用不着提供低价也能让客户掏腰包。

但是真正让消费者担心的,恐怕还不是这些我们已经看见的:“廖师傅廖师傅”揭露的,和《华尔街日报》报道的。我们不安的,是背后究竟还有多少我们尚不知道的“猫腻”。

在享受互联网的便利和“免费”服务时,可能忽略了一个古老的常识,那就是“天下没有免费午餐”。尽管很多人可能也听说过,互联网经济的商业模型是通过看似免费的服务来吸引用户,从而收集、监测数据,最终将这些信息变现。但是接下来的问题是,那些数据拿去做什么了?最常见的回答是,用到了精准广告投放,以及差别定价上。

差别定价的英文,由于与各种歧视用了同一个词,因而经常被误读为歧视定价,事实上按照维基的定义,它是微观经济学领域内的一种定价策略,同一个商家将同种商品或极其类似的商品在不同的市场上以不同价格来交易,制定的基础一般是不同市场对价格的接受程度。所以它既无涉歧视,也不违法。

但跟“廖师傅廖师傅”所激起的反应一样,这事自电商一开始到近年普及以来,每隔几年就会掀起一波激烈的讨论,引发媒体的跟踪调查,甚至学界的研究课题。

笔者对比了美国东北大学和加泰罗尼亚理工大学的两篇论文发现,地理因素是这些电商区别定价的主要参数,而地理因素中,某一用户所处的位置(无论是由邮编,还是有IP地址来确定)周边多少公里内,有无实体店竞争对手,又最为显著。其次是用户的经济状况——可能是实际的经济状况,也可能是消费习惯所表现出来的经济状况,比如在买一台吸尘器之前,你是否已经浏览了好几个不同的电商网站,搜索过该产品的优惠券等等,其结果极有可能导致1000元出头的商品,出现100元左右的价格差异。此外,用户所使用的平台以及操作系统、浏览器等等,在加泰罗尼亚理工大学的研究结果中,表现出不影响价格;而晚了四年进行的美国东北大学的研究则显示,用户所使用的操作系统、浏览器已成为明显影响因素

除差别定价外,搜索结果差异,是电商获取更大营业收入的另一手段。与差别定价不一样,当不同用户搜索某一类商品时,网站根据所该用户的profile,返回给不同用户可能接受的不同价位区间的产品,比如同样的书,给我推荐的是“收藏品”,给我家人推荐的则是“废品”。这样的推荐,对用户的最后选择通常产生极大的影响,消费行为通常极少会发生在推荐页面的第二页之后。因此无论是通用搜索引擎还是电商自带的搜索,是他们(或者说他们制定的算法)决定了这一差异。

据统计门户statista.com,2017年全球电商销售额占全球零售销售总额的10.1%,预计这一数字到2021年将达到15.5%,如果聚焦于特定商品种类例如服装、书籍、办公用品等,只能更大。影响面之大,难怪互联网巨头对用户数据的收集,电商定价算法的不透明性所引发的不安和讨论越来越多。

首先,设计和实现欠佳的算法会导致意外(甚至荒唐)价格的出现。最著名的例子是2011年,加州大学伯克利分校的生物学家Michael Eisen在自己的博客上发表了一篇文章,说他让学生去买一本1992年出版的关于果蝇的经典教科书,该书当时已绝版,亚马逊共列出17本,其中15本是二手书,价格大约都在30多刀,另外2本是新书,一本标价170多万,另一本标价210多万。在教授当天的不断“点击”刺激下,这两本天价书的价格继续疯涨,但是无论怎么涨,他们之间的价格关系每天一次按照某两个固定值在调整,保持着恒定。这说明一个问题,背后有算法在维持一个恒定的竞争对手价格。直到几个星期后,一本涨到1800多万,另一本涨到2300多万,才终于有人发现。当然这只是极端的程序错误个例,但它提醒了我们,公众和监管部门对算法定价之流行,而我们对其知之甚少这两个事实。

上图:开出天价的果蝇教科书上图:开出天价的果蝇教科书

还是以亚马逊为例,卖家们究竟运用了怎样的算法定价策略,这些策略有多普及,以及最终它们对消费者的购物怎样产生影响,才是我们迫切想要了解的事。亚马逊作为世界最大的电商网站,一个真正的市场平台,并且提供专门支持算法定价的应用开发者平台API,所以理解了亚马逊的做法,基本上也就摸到了整个电商的脉络。但是除了依靠研究人员采集公开信息进行调查、分析,作出的推论外,公众并无更好的途径对其定价算法得到明确的了解。

美国东北大学的那项为期四个月的研究,选择了1641种最受欢迎的产品,每个产品选择了销量前20位的卖家,每隔25分钟采集一次信息,信息包括价格、评分等。

首先了解的,当然是它的所谓“黄金购物车”Buy Box,这是每个卖家都想要抢占的位置。根据统计数据显示,有82%的亚马逊交易都是通过这一“黄金购物车”完成。它出现在每个产品的页面,包括产品价格、物流信息、卖家名称,以及最诱人的:购买键。在大部分产品都有不止一个卖家的情况下,谁进入这个Buy Box,成为该产品的默认卖家,由亚马逊的算法决定。而Buy Box算法所采用的具体特性和权重,属于平台机密

尽管亚马逊也公开过一点关于哪些特性被Buy Box算法所采用,但是这些公开的是否完整,以及每个指标的权重多少,都无从得知。各种卖家进驻指南里,宣称自己熟谙该算法的,基本也都是吹牛。从理论上说,如果一个产品有 n 个卖家,其价格为 P = {p1, · · · , pn},Buy Box算法就是一个函数B(P) → pi, pi ∈ P,其他卖家所提供的相应商品便被降级至后续页面。

近一两年来,不时有通过机器学习手段来模拟的尝试,但至目前为止,也都是尝试。其次,了解这些卖家各自的动态定价。最后,对算法定价的卖家和非算法定价的卖家进行了比较,算法定价的卖家的销售明显强于非算法定价的卖家:高评分,即便价格并非最低,也有更高几率进入Buy Box。

读完媒体的跟踪报道,和几个大学的研究,基本上就是两个字:绝望。除了一大堆摸不着门道的猫腻事件,和一篇又一篇的算法分析证明该平台机密无从一窥全貌之外,可做的事情似乎只有等待:等立法要求透明。

不过这倒让我想起了一个故事。普林斯顿大学教授奥利·艾森菲特(Orally Ashenfelter)是一名经济学家,但他酷爱葡萄酒,爱的不光是品酒,更让他感兴趣的,是成就一瓶(批)好酒背后的因素。在经济学家的眼里,买红酒无异于投资,而如何确保投资成功是经济学家的一种本能。他的日常工作是从大量数据中寻找出隐藏信息。于是他试图也从大量数据中找出波尔多酒的秘密来,是哪些因素,怎样确定了红酒的品质(也就是日后的价格)?最终,他用1952年至1980年间这28年的数据,建立了一个统计模型,最后简化为这样公式:

红酒品质 = 12.145 + 0.00117 冬季降雨量 + 0.0614 生长季平均温度 - 0.00386 收货季降雨量

艾森菲特对自己的模型十分自信,并据此打破了品酒界对1986年酒的神秘崇拜。他的这一做法招致了红酒行业的公愤。一时间各权威品酒杂志、权威品酒人纷纷对他进行取笑和攻击。但他相信数据,相信自己的研究手段,相信农作物的品质在后期技术成熟的情况下,产品的优劣就是取决于年复一年的气候,他更相信历史天气数据与酒价格之间的相关性。于是在一片嘲笑中,艾森菲特把数据代入上面的公式,勇敢断言了1989年和1990年两年的波尔多酒将成为“世纪之酒”,价格将会超过过去35年里任何一年出产的酒。这一推断在当时把他自己搞成了“世纪笑料”。如今回望,他的预测却是惊人地准确。

他捅破了一个葡萄酒卖家以及葡萄酒品鉴作家们不愿意公众了解的秘密,威胁到了品酒界的权威和神秘和利益。但是,这世上不存在密不透风的墙,就像电商定价算法的神秘一样。数据是眼下电商的法宝、武器,似乎令消费者无能为力;但是艾森菲特的故事告诉我们,当年也是数据,去掉了品酒师身上裹的那一层神秘。

参考文献:

1. Le Chen,Alan Mislove,and Christo Wilson. An Empirical Analysis of Algorithmic Pricing on Amazon Marketplace. International World Wide Web Conference Committee (IW3C2). 2016

2. Jakub Mikiansy, László Gyarmati, Vijay Erramilli, and Nikolaos Laoutaris. Detecting price and search discrimination on the Internet. 2012

【责任编辑:贾嘉】
show