基廷斯指数
出自 MBA智库百科(https://wiki.mbalib.com/)
基廷斯指数(动态分配指数)
目录 |
20世纪70年代,联合利华公司请年轻的数学家约翰·基廷斯帮助他们优化药物试验。令人意想不到的是,基廷斯竟然解开了一道难住了一代数学家的难题。基廷斯(牛津大学统计学教授)认真地思考了联合利华提出的问题:已知有几种不同的化合物,如何以最快的速度确定哪种化合物可能对哪种疾病有效?基廷斯把这个问题变成了尽可能简单的形式:有多个可选方案,每个可选方案得到回报的概率不同,可分配的精力(金钱或时间)是确定的。于是,这个问题变成了多臂老虎机问题的另外一个化身。无论是追逐利润的制药公司,还是他们所在的医药行业,都经常需要面对探索与利用如何取舍的竞争需要。制药公司希望投入到研发部门的资金可以帮助他们发明新药,但是他们同时还希望现在正在帮助他们赚钱的生产线继续开足马力。医生在开处方时,肯定希望病人在现有条件下得到最好的治疗,但是他们也希望实验研究可以找到更有效的治疗手段。
显而易见,在这两种情况中,我们都无法确定相关的剩余时间到底是什么。从某种意义上讲,制药公司和医生一样,都对不确定的未来感兴趣。制药公司希望可以永远存在下去,而医药行业则希望取得突破,甚至希望在人们出生之前就可以向他们提供帮助。不过,他们对当前时间的重视程度更高:今天就把病人治愈,其价值高于让病人一周以后,甚至一年以后才康复,利润方面当然同样如此。经济学家把这种重现在、轻将来的概念称作“贴现”。基廷斯在研究多臂老虎机问题时采用的就是这些术语,这是他与之前的研究人员不同的地方。在他的构想中,他的目标不是在固定时间段里追求最大回报,而是在时间无限长但是价值被打折扣的未来追逐最有利的结果。
这种贴现在我们自己的生活中并不鲜见。如果你准备在一座城市逗留10天,那么你在选择餐厅时就要记住逗留时间已经确定这个事实,但是,如果你居住在这座城市,时间就没有多大意义了。此时,你也许会想,时间越久,回报贬值的程度就越大:你更关心的是今天的晚餐,而不是明天的晚餐,并且对明天晚餐的关心程度又高于一年之后的晚餐。至于关心程度到底有多大差别,取决于你采用的“贴现函数”。基廷斯设置的条件是回报价值呈几何级数贬值,也就是说,每次去餐厅进餐的价值是上一次的分数倍。如果你认为每天被车撞的可能性为1%,那么在评估明天晚餐的价值时,就应该把它设定为今天晚餐价值的99%,因为你有可能根本没有机会享受明天的晚餐。设定了这种几何贴现条件之后,基廷斯提出了这样一个策略:分别考察多臂老虎机的各个拉把,然后计算出各个拉把自己的价值。通过一个别出心裁的设想——贿赂,基廷斯完成了自己的研究,并且认为这个策略“至少可以给出一个效果不错的近似估计”。
在《交易还是不交易》(Deal or No Deal)这个热门电视节目中,参赛者要从26个箱子中选择一个。箱子里装有奖金,金额1美元~100万美元不等。随着游戏的进行,一位被称作银行家的神秘人物就会时不时出现。他愿意支付给参赛者金额不等的一笔钱,条件是参赛者不要打开他选中的那只箱子。参赛者需要做出选择,或者接受这笔实实在在的钱,或者选择装在箱子里的数额不确定的奖金。基廷斯发现(尽管多年之后第一期《交易还是不交易》节目才播出),多臂老虎机问题与之并无区别。我们对每一台老虎机都知之甚少,甚至一无所知,但是它们都有某个保底回报率。如果摆在我们面前的不是老虎机,而是它的回报率,那么我们肯定不会去玩老虎机游戏。这个数字(基廷斯称之为“动态分配指数”,现在全世界都把它叫作“基廷斯指数”)告诉我们一条显而易见的赌博策略:一定要选择指数最高的那个拉把。
基廷斯指数为我们指出了一个轻而易举地解决多臂老虎机问题的方法。但是,这并不是说这个难题已经彻底得到解决,也不意味着基廷斯指数可以帮助我们处理日常生活中所有探索与利用的取舍问题。原因之一是基廷斯指数只有在某些强假设条件下才是最优策略。各种各样的行为经济学与行为心理学实验都不建议人们对未来奖励实行几何贴现(即每次拉动拉把的价值都是上一次的分数倍)的做法。此外,如果不同方案之间的转换需要付出成本,那么基廷斯指数就不再是最有效的策略。(邻居家的草地看起来可能真的更绿一些,但这并不是我们翻过篱笆的理由,更不用说通过二次抵押贷款把邻居家的房子买下来了。)更重要的是,在匆忙之间很难计算出基廷斯指数。如果随身携带一张指数表,你可以找到晚餐的最佳选择,但是你得到的好处可能还不足以弥补你需要付出的时间和精力。(“等一等,我可以解决这个问题。这家餐厅的好评率是29/35,另一家的好评是13/16,因此它们的基廷斯指数分别是……嘿,人呢?”)
- [美]布莱恩·克里斯汀 [美]汤姆·格里菲思. 算法之美[M].中信出版集团, 2018