POST TIME:2018-12-03 21:15
Netflix在互联网时代的成功,是一件非常值得回味的事。
作为一家以租赁起家,以流媒体平台这种不算很新锐的企业特征,获得了世界科技领域的遍及认同,甚至能够与巨头一较高下。Netflix显然不止是在内容和品牌宣传上作对了一些事情。
好比说,有长期使用Netflix经验的伴侣(虽然目前在国内有点难),必定会对Netflix的个性保举系统留有深刻印象。事实上,Netflix在内容保举上的技术实力与效率一直广泛受到业界认同
按照Netflix提供的官方数据,使用个性保举系统之后,其平台用户的不雅观看率提升了 3 到 4 倍,而基于个性保举系统打开的视频数量,是从最受欢迎列表打开数量的 4 倍。
在国内,“千人千面”“内容找人”近两年也是很热门的话题。但很少有人分析内容保举系统的内部逻辑,以及更好的内容保举系统需要哪些因素。
比来广受期待的漫威剧《捍卫者联盟》在Netflix放出之后,Netflix官方展示了他们基于这部剧做的内容保举尝试与数据实验。以此为契机,我们或许可以一窥“别人家的保举引擎”。
懂算法的同时要懂内容《捍卫者联盟》之所以特别,原因在于它就像《复仇者联盟》一样(好多联盟啊),是几个各自有独立剧集的超级英雄组合到一起的“混合剧”。
对于Netflix来说,这部剧的价值在于这四位英雄有各自的受众群体(铁拳应该没有中国受众吧),而组合起来的人设与故事是否能覆盖各自人群之和,还是应该推向新的人群呢?
(四个独立英雄受众有差别的不雅观影爱好和关键词标记 )
针对这个问题,Netflix将《捍卫者联盟》当做了一块试验田,他们将密切关注这部剧的数据走向,而且对差别身份标识的用户实行差别的保举策略。测试结果将形成新的机制,用来确定如何向差别的兴趣组提供“混搭剧”保举,同时也可以按照反馈来确定以后是否要制作更多差别剧集人物的组合剧。
比拟于国内的主流内容保举引擎(无论是信息、短视频还是视频)通常采取以用户为中心,按照用户浏览、保藏、付费等行为来建构个性化保举体系,Netflix让我们看到了另一种可能:以内容特征为中心,去分析差别内容可以保举给谁,如何保举,甚至是否要调整内容。“更懂内容的个性保举”不但建立在对内容文本特征的驾驭上,更重要的是技术能力足够支撑这种创造力。
不然从用户、内容双向互动来匹配保举机制,将是一个工作量巨大且错误率高企的任务。那么问题来了,站在Netflix保举系统背后的,究竟是一个什么样的技术体系呢?
好戏的基础,,是一个足够大的舞台简单来描绘的话,Netflix个性内容保举机制的特色,就是要在保证用户使用流畅的前提下,尽心尽力的装备更多、更复杂的算法组合。
具体的算法我们一会再聊。首先要弄清楚的问题是Netflix内容保举系统的底层基础是什么。
假设我们认为,更多的算法和技术,可以带来更巧妙的运算和结果,而且彼此制约出趋向合理的结论。那么平台的第一要务就是要保证运算能力可以负担复杂的算法与数据挖掘技术运行,而且保证平台可以敏捷轻松的加入后续越来越多的算法。
那么第一个问题就是运算能力的保证。我们知道,人工智能的多元算法要求的运算力特别高,传统的CPU+办事器模式在成本上很难满足复杂的AI系统运行。
而Netflix是最先尝试在AWS上使用GPU实现分布式神经网络的企业之一。虽然今天这种组合正在逐渐成为标配,但在几年前使用GPU代替大型集群的CPU作为平台支撑是一个创举。
这样不但保证了计算力的不变,还为更多的人工智能投入平台运用提供了契机。别的Netflix还率先把大量运算任务交给了云端,在AWS上进行分配式计算,确保了运算的高效率。
别的,我们可以注意到,Netflix在进行内容保举运算的时候使用的是三种计算方式相结合:在线计算、离线计算和接近在线计算。
之所以要进行分工,是要保证运算复杂度和运算效率不变统一。其中在线计算用来响应必需即刻完成的交互行为,确保用户指令得到实时响应。而离线计算因为没有时间限制,可以在运算平台上完成更复杂的算法运行和更大的数据量处理。这种运算的工作模式是系统从用户处收集数据,然后回到后端进行运算分析,再通过后期的交互表示在内容保举上。