编者按:本文来自腾讯即时通信部商务副总监刘硕裴,以下投稿观点属个人观点,不代表公司立场,其微信公众号:小 Q 逗你玩。
这一周IT圈只有一个焦点——李氏高富帅,他们不仅抓住了大众的眼球,还引来大批女粉丝的口水。 重金收购糯米算是掀起波澜一个大浪,散碎银两收购悠悠村也就是引起了一阵涟漪,而发布知识图谱搜索功能才是最有噱头的巨浪。
说到知识图谱,听起来熟悉又有点陌生。之前大家可能更熟悉的图谱是社交图谱和兴趣图谱。这分别是facebook和twitter所打造的互联网新概念。社交图谱指的是社会化关系,人与人的线上关系。这就是基于社交网络大数据挖掘产生的奇妙化学反应。而且这一模型为facebook的社交广告奠定了坚实的基础,其整体收入的80%都是来自于这类形式的广告。而兴趣图谱则是人与事物的关系,这是媒体属性和社交属性的交织形态所产生奇妙的关系,twitter是最好的代表。而说到当下的知识图谱,google是行业内的领航者。去年5月google发布了整合大量开源知识库(主要是维基百科)并加入用户数据沉淀的知识图谱搜索功能,这的确优化了搜索结果的质量,并给用户带来纵横交错的新兴趣点。
对比国外巨头对于图谱概念的推广,国内互联网先锋也都有所涉猎。
社交图谱在中国的落地自不必说,自然是腾讯,QQ圈子和SOSO华尔兹都是在这个方向的尝试。QQ圈子的产品逻辑是通过QQ昵称的备注进行交叉验证实现关系链背书,再通过系统算法实现智能分组。SOSO华尔兹则是通过新闻信息和明星的关键词匹配,试图打造明星关系链新闻矩阵,这距离社交图谱虽然有些差距,但是方向是赢得用户口碑的,记得当年产品发力的时候,在腾讯网新闻内容页下部都有新闻主角的社交图谱展示,而且点击率非常高!(侧面印证门户用户都是很八卦的!)
兴趣图谱既然是twitter推崇的,在国内自然是新浪微博会大展身手的领域。新浪微博在这个方向的尝试还是比较单薄,没有在微博最火爆的时候把这些好友间的兴趣点进行商业化引爆,现在只能为了拉活跃和应用安装量做些初级的尝试。相反新浪微博的好基友阿里却在一个看似没有社交场景的商业模块通过大数据挖掘做出了很多兴趣图谱的功能呈现,感兴趣的朋友可以搜索“淘宝数据盛典”。
新浪微博好友推荐&应用推荐机制
知识图谱对“语义识别”技术门槛极高,对社会化开源内容有很强的支撑需求,且是依赖大量用户的行为数据库的产品形态。所以即便是全球技术最牛的 google也不过是去年才发布出来。当去年年底搜狗发布了第一个中文的知识图谱——知立方的时候,引起业内不少惊叹的目光。从基础功能点看,搜狗抓住了大众用户的日常搜索诉求——搜八卦,特别是明星、电影、热点新闻等在正常主流媒体不容易找到的信息。比如最近火热的全才明星郭敬明,一直被调侃身高,但众说纷纭,大众也不知道听谁的,这下有了知立方,就一目了然。再比如娱乐圈最有眼球效应的就是各种绯闻,看过太多捕风捉影之后,很多用户可能都不知道肥姐还是“乾隆皇帝”的前妻。
在搜狗发布知识图谱半年多后,百度也发布了自己的知识图谱,切入点和搜狗一样,都是从大众眼球入手。有趣的发现是NBA最有影响力的球星之一(也是我的最爱)勒布朗·詹姆斯的身高居然不能显示出来?而且置顶的百度知道的答案有问题,2米6的答案给人的误解是2米60,而不是正确的2米06。这点细节没有做好,我只能说百度的产品经理没有热火队的忠实粉丝。
八卦并不只在当下,顺着历史的长河往上游走,也能感受到知识图谱带来的神奇体验。(见下图)搜狗不仅给出了标准答案,而且把推理说明用一句话注明,增强了信服力也更直观。对比一下百度大会上高调发布的百度知识图谱,看起来还没有把UGC信息做出筛选并合成简洁的答案。这对于手握着百度百科、百度知道、百度指数、搜索风云榜的搜索老大来说,数据库挖掘和整合还处于初级阶段。
八卦等娱乐类信息搜索量一直都在搜索引擎中占比巨大,所以从这类信息入手是民心所向,不过我相信知识图谱更大的作用是基于知识库的教育革命——为莘莘学子盘活天文地理数理化的繁杂信息。比如在搜狗里输入:3.14或0.618会出现如下的结果,这些相似度很高的结果还会引起学生用户的好奇心,探索数字背后的秘密。虽然这些内容大都摘自百度百科并且可以一键跳转到百度百科里面,但是最新上线的百度知识图谱里却没有这些丰富的展现。
说到了知识图谱可以帮到寒窗苦读的学子,那也要关注一下学子的父母是否也能从中获益。如今食品安全问题是国人最纠结的,海外的奶粉不能信了,周边的餐厅不敢去了,这逼得曾经不开灶的家庭都纷纷系上围裙,自给自足丰衣足食。关注膳食搭配的白领们也越来越懂得“只选对的,不选贵的”。这时候通过知识图谱的食品分析,清晰地了解热量的供需如何实现完美的平衡。可以说这样的结果直观具体,右侧还有其它品类做对比分析,非常贴心的用户体验。反观百度知识图谱,只是提供了一个减肥网站的信息作为阿拉丁的展现结果。
现阶段来看两家国内搜索巨头在知识图谱上尝试,各有所长。百度刚刚发布还缺少很多内容补足和内部平台整合,但拥有知道、百科、贴吧这些社会化数据库是非常让人羡慕的,要看内部跨部门协作是否可以合力断金。不过搜狗还是有先发优势,积累的优化经验比较足。再加上搜狐矩阵战略的门户、视频、游戏等信息知识库为其持续输血,会在后续的横向领域扩散打下内容基础。
在语义分析上看,搜狗的三驾马车中的浏览器和输入法为其储备了丰富的用户行为数据,所以这是搜狗搜索在用户数据库上非常贴合用户习惯的一个利器。当然,搜狗的知识图谱还是任重道远:从用户体验看,很多行业还没有覆盖到,内容源非常依赖百度百科这样的竞争对手数据库(短期看,很难脱离百度百科)。从商业价值看,知识图谱的结果页会大大削弱广告主的曝光量,特别是右侧的广告栏全部被替换成“知立方”的结果;另外,这样的展示也使得SEO行业的玩法需要相应的调整,不然结果页第一屏基本上都看不到优化的结果链接;再长远一点看,知识图谱最终会把搜索引擎的“中转站”的模式转变成“终点站”,用户一站式的获取搜索结果,如何脱离CPC的商业模式是一个巨大的挑战!
知识图谱并不能全面定义为下一代搜索引擎,但它是引领者。记得07年在香港读书时,一位哈佛博士和我们分享什么是下一代搜索引擎。他举了一个例子:搜索框输入“4X4”,得到的结果不仅仅是左下图,而第一个结果应该是一辆悍马。理由是互联网用户是不会傻到不能算出这个乘法结果,而关注四驱车的人必定是高端用户群,高端用户就一定给他最好的产品。由他的例子让我想到,互联网用户是不会不知道apple是苹果的英文,而搜索apple的用户应该就是在打算购买或询问售后的诉求,于是乎今天的google的结果第一页结果页左侧没有介绍apple是什么样的植物。这或许就是下一代搜索引擎的发展方向!
主题配图来自:stateofseo