深度解读推动视联网成长的三个核心要素

2019-08-11 10:22

前言：

在上一期报告《“视联网”：以视频为核心的下一代互联网展望》中，我们论述了视联网的意义、趋势和影响。报告提出，视频具有高带宽、便利性强等优势，将是下一代可穿戴式智能设备的首要互联网入口。

视联网就是以视频作为主要信息传递介质和功能载体的下一代互联网形态，将颠覆当前图文生态的互联网形态，引发新一轮互联网生态的激烈竞争。要实现视联网，需要突破通讯带宽、视频识别和视频互动等三个方面的难点。而5G的普及以及AI技术的突破将是解决这三个难点的重要抓手。

因此，报告将视联网的发展趋势划分为四阶段：初步应用AI技术的婴儿期、AI技术成熟的成长期、视联网生态形成的青年期以及与智能硬件完美结合的成熟期。

当前，我们正处于视联网的婴儿期。那么，在技术快速进步的当下，我们离实现视联网的成熟期还有多远？视联网究竟是一个遥不可及的概念还是一个即将到来的重大趋势？在5G＋AI的时代中，我们又将如何一步步实现视联网的四个阶段？

本期报告将回答这些问题。围绕视联网的实现路径，报告将深度解读推动视联网成长的三个核心要素，挖掘视联网发展的“一主一次一辅”三条路径，为视联网的发展与生态建立提供具备操作性的发展规划。

第一章：探寻视联网的实现路径

为了探寻视联网的实现路径，有必要更深入的分析视联网的起点与终点，从中提炼出推动视联网成长的核心要素。

视联网的婴儿期：“预期－推送”应用模式

在视联网的起点，人们刚刚学会如何利用AI技术打破视频的信息壁，并能够利用视频信息进行初步的商业应用。在这一阶段中，对于视频信息的解读和利用是比较有限的，表现为数据维度较少、可辨识的类别有限。这主要是受限于视频数据的数据量和标识量。

当前以深度学习神经网络算法为主流的AI技术需要大量经过标识的数据样本作为训练AI算法的养料。通常，计算机要达到可商用的识别能力，需要上百个差异化的数据样本的反复调试。但数据的标识和算法的训练需要大量的人力投入，同时视频内容的版权和信息安全问题也制约了视频数据的传播。人力与数据共同限制着视频识别能力的提升。

为了最大化的利用识别出的有限信息，“婴儿期”的视联网应用表现出了典型的“预期－推送”模式。在这一模式中，本质上是利用外部已有的用户大数据和行为心理学对视频观众的心态和行为进行预测，挑选出被认为是最能引起观众共鸣的场景。进而，集中人力和数据让计算机学会识别这些场景，并在全网视频中找出此类场景中，推送与之相关的应用服务。例如，针对视频中的团队聚餐事件，可以分为提出聚餐、进入餐厅、点菜、吃的热火朝天和结账等五个场景。通过数据分析和常识判断，吃的热火朝天的场景最能引起人们对吃的情感共鸣，这时候就可以集中资源让计算机学会识别“吃的热火朝天”场景，进而在此类场景中大规模自动化地推送与吃相关的应用服务，比如外卖广告。

深度解读推动视联网成长的三个核心要素

基于“预期－推送”模式，视联网的早期参与者开发出了广告和电商两类应用模式。这两者相对于其他互联网服务而言，具有商业模式较轻、变现速度较快的特点，并且对于视频场景的需求也较为明确。

广告业务的基本形式在于视频场景与广告内涵的匹配。通过解析视频内容中蕴含的人物、物体、动作、地标等信息，可以寻找到与广告品牌内涵相一致的视频场景，进而实现广告品牌价值与视频内容场景相互匹配。这种模式下，可以创造出视频场景广告这一全新的广告形式，大幅提高广告曝光的接受度和回报率。

深度解读推动视联网成长的三个核心要素

电商业务的核心是满足视频观众的场景消费冲动。视频可以带来强烈的情感渲染和共鸣，刺激观众在特定场景下对特定商品形成消费冲动。当前的视频服务可以通过解析视频场景的注意力指数，在合适的视频位置推送与场景关联度最高的商品，促进商品的销售转化。

“预期－推送”模式的主要问题以及发展方向都在于如何提高“预期”的准确性。对于观众行为的预期越是准确，推送服务的商业价值也就越大。就目前的模式而言，“预期”在理论上有两重错配的可能。一是预期的用户行为与实际行为不符，表现为大数据分析与个体实际行为间的差异，在当前阶段难以解决；二是实际视频内容与所需视频场景不符合，来自于视频识别过程中的错判，需要提高识别的准确率来解决。

视联网的成熟期：“实时－调用”应用模式

技术的发展将为人带来更大的便利。从技术便利性的角度出发，我们可以对视联网的成熟形态作出大胆而又合乎情理的想象。

在视联网的成熟期，借助可穿戴智能设备、尤其是智能眼镜的普及，人所见的一切信息都将被摄像头捕捉并在极短的时间内处理成计算机可以识别的视频信息。此时，人们从视觉信息中激发的所有需求都能得到直接的响应。通过语言、手势、眼动捕捉等多种形式，计算机能够接收到人们提出的需求，并结合捕捉到的视频信息获悉需求的具体内容和对象，进而调用互联网的相关应用和服务来满足人的需求。

最终，以一种极为便利的交互形式（可能是AR、VR或MR）将应用和服务反馈在人机交互的虚拟层上，形成了我们理想中的成熟的视联网模式。在这一阶段中，“实时”与“调用”将是描述应用模式最为核心的关键词，与“婴儿期”的“预期－推送”模式形成鲜明的对比。

当然，这并不意味着“预期－推送”模式将被被完全取代，更可能是作为“实时－调用”模式的一种补充。

深度解读推动视联网成长的三个核心要素

“实时”强调的是视频解析能力的全面性和即时性。这一时期的视频内容将在各个维度被全面解析，人眼观察所能认知的一切信息都将被计算机捕获，甚至超越人眼的可辨识范畴的信息都将被计算机掌握。并且，这种识别能力将是极为迅速的，视觉所及的一切内容在形成需求前都将被计算机解析，从而响应人们随时可能激发的任意需求。

深度解读推动视联网成长的三个核心要素

“调用”强调的是互联网服务与视频内容的完美结合，包含了互联网服务的全面链接和服务形式的因地制宜两重含义，是视联网生态成熟的重要标志。在这一时期，互联网中的各类服务和应用将以小程序的形式与视频内容全方位打通，人们在观看视频过程中激发出的需求将可以十分便利的调用对应的互联网服务来满足。例如，对于景点不了解就调用百科小程序，对于商品感兴趣就调用电商小程序。同时，不同形式的互联网服务将以最恰当的互动形式呈现给人们，实现体验的最优化。

推动“视联网”成长的核心要素

对比当前“婴儿期”的视联网模式和理想中的“成熟期”视联网模式，可以发现“视联网”的成长需要在以下三个方面形成突破：

视频识别能力是推动视联网发展的核心能力，也是视联网的实现基础。可以说，视频识别的精度和速度决定了视联网链接的广度和深度。速度上的提升能提高视联网的适用范围，越快的识别速度意味着观众可以更迅速的与视频内容产生互动。识别的精度和维度的提升有助于提高视联网的链接深度。更多维度和更高精度的识别才能精准定位用户需求，进而深耕具体的需求内容，调用最为合适的互联网服务。

视频小程序生态是视联网的价值体现。通过多样的视频内小程序链接丰富的互联网服务，将视频识别的技术能力转化为给视频观众带来服务的功能模块，在生态集聚中实现产业价值的最大化。视频小程序生态是建立视频识别能力之上的。如何最大化利用既有的视频识别能力，链接尽可能多且好的互联网服务、为视频观众提供最为便利性的服务，是视频小程序生态建设的核心问题。

软硬件协同进程：视联网真正走向成熟，还需要软硬件层面的协同发展，促进视联网的快速推广与应用落地。这其中的协同包括处理芯片、通讯带宽、摄影设备、互动设备等。这就要求在硬件设计层面就尽可能囊括视联网的软件应用，包括识别算法、互动程序等。

第二章：视联网的发展路径：“一主一次一辅”

围绕视联网成长的三个核心要素，可以明确视联网发展的主要路径，具体分为“一主一次一辅”的三条发展路径。

仔细辨析三条路径的发展前景，可以发现，视联网的成熟期离我们并不遥远。

主线：视频识别能力从量变到质变

视频识别能力的进步是视联网发展的核心主线。视联网从婴儿期向成熟期的发展，需要视频识别能力变得更快、更准、维度更多。尤其是在维度层面，视频识别不仅是对单个元素，例如人脸、物体、商标等的识别，更需要对多元素组合而成的场景、连贯发展的事件等进行识别，以保证人的相关需求都能得到响应。

从当前的技术条件来看，视频识别能力的进步主要取决于数据积累和算法迭代两个方面。其中，算法迭代往往是可遇而不可求的，当前人工智能算法的突破也是建立在数十年理论研究和天才的灵光一闪之上。

与之相比，利用当前深度学习算法实现视频识别能力的提升是可预期和可实现的。其中的关键在于数据积累引起的识别能力从量变到质变。

深度学习算法的特点在于可以通过不断的数据积累，让计算机对于已标注的单元识别能力越来越精准。与此同时，更多的数据又有助于写出更优化的算法，提高计算机对于视频的识别速度。

随着被标注的元素和事件维度越来越丰富，计算机可识别的元素广度和事件深度也在不断增加。

深度解读推动视联网成长的三个核心要素

在这个量的积累过程中，计算机的识别能力正在不断接近人眼的识别能力，而当计算机能完全识别所有人眼能够捕捉到的信息，就完成了从量变到质变的过程。在此之后，起码在精确度和识别维度方面，计算机已经能够胜任实时处理的要求。

在处理速度方面，随着摩尔定律继续发挥作用，能够满足实时处理能力的视频处理专用芯片也将很快诞生，推动视频识别能力走向成熟。

在阻碍方面，视频标注所需的大量人力成本或许会成为制约视频识别能力快速发展的主要阻碍。为了应对这一问题，一方面需要投入更多资源研发数据需求量更少的算法，另一方面也可以建立研发联盟，由头部企业联合起来共同承担成本，可以避免在视频识别技术上的重复投入。

次线：视频小程序生态的建设与优化

视频小程序生态的逐步壮大和优化是视联网发展的次线。之所以是次线，是由于视频小程序生态需要建立在较强的视频识别能力之上。一个完善的视频小程序生态可以将视频识别技术创造出的价值最大化，为更多的人提供服务和便利。

深度解读推动视联网成长的三个核心要素

而要形成一个完善的视频小程序生态，最为重要的就是建立一个针对视频互动技术的开发者生态，让开发者有动力和激励围绕视频识别技术的进步不断研发新服务和更新已有视频小程序。

对比手机应用市场和小程序等生态的建立，视频互动技术的开发者生态，乃至视频小程序生态的建立，需要在以下三个方面加以努力。

一是市场和流量规模。市场规模越大，越能吸引开发者加入研发新的应用程序，而越多的应用程序，越能吸引顾客进一步扩大市场规模。但对于全新的视频小程序生态而言，市场规模从零开始，应该如何做到冷启动，形成良性循环？首要的目标应是做大流量规模，以一两款核心小程序为卖点，让视频小程序生态接入尽可能多的视频播放平台，获得足够的曝光机会。也正因此，视频小程序生态的先发者往往能占据很大的优势。

二是小程序生态的管理水平。视频小程序生态的建立能带来巨大的市场价值，也必然面临激烈的竞争。不同视频生态间的竞争考察的不仅是视频识别的技术能力，同样考察企业对于小程序生态的管理能力，包括如何在开发者、流量方和平台方之间分配收益、如何管理审核小程序的规范性和合法性、如何激励开发者为新技术研发新应用等。完善的生态管理机制将大幅增加视频小程序生态的亲和度，进而加快开发者生态的形成。

三是开发环境的便利度。一个良好的开发生态的建立还需要便利的开发环境，包括开发语言的难易程度、功能模块的完善程度、应用更新的便利程度等。

视联网中的小程序生态必然将引发激烈的竞争，以上三个角度将是企业建立护城河，打造行业标准的重要方面。

辅线：软硬件协同进程的不断推进

软硬件协同指的是将特定的软件功能内嵌在硬件之中，通过有针对性的资源优化，从而加快处理速度、减少功耗等。软硬件协同之所以是辅线，一方面是由于缺失硬件配套并不妨碍视联网产业生态的建立，另一方面则是硬件投入成本高，软硬件协同需要大规模市场的刺激，对于新生的视联网生态而言，过早的介入硬件开发不利于在软件开发上的精益求精。

但是，通过软硬件协同，可以大幅减少视联网落地应用和走向成熟的时间。例如，在摄像头中直接加载视频识别能力，可以大幅减少视频识别所需的时间和成本；在视频播放设备（如投影、眼镜、电视等）中内嵌视频互动生态，可以极大的拓展视联网生态的应用范围。

第三章：视联网发展的前景预期

在分析了视联网的核心发展要素和实现路径之后，回顾视联网发展的四个阶段，可以更为详尽的解析各个阶段的状态和市场规模，描绘一个更为清晰的视联网发展前景。

深度解读推动视联网成长的三个核心要素