找回密码
 立即注册
  • QQ空间
  • 回复
  • 收藏

网络营销 AdTime副总裁李麒:智慧大数据 互联网

【本网网 直播】2015年7月30日,由本网咨询主办的2015中国互联网创新峰会在广州举办。
以下是AdTime副总裁李麒发表以“智慧大数据 互联网+ 的强大引擎”为主题的演讲实录。

(图为AdTime副总裁李麒)

李麟:尊敬的各位来宾、女士们、先生们,大家上午好!我是AdTime公司的李麟,非常高兴再次参加本网的大会,今天的主题是关于互联网创新,同时非常高兴与在座各位沟通与交流。刚才我在台下听了各位演讲的嘉宾,非常精彩,受益匪浅。
从今年开始,“互联网+”非常火爆,从国家层面以及到行业落地,都非常火。上周我参加中国互联网大会的时候也提到了关于“互联网+”的一些思想,今天我跟大家分享一个主题,还是偏重于技术一点的,就是智慧大数据互联网+的强引擎,这也是比较贴合于AdTime的,因为它是技术出身。
说到大数据,每个人强调的互联网+思想是不一样的,比如有人强调产业互联网或者互联网产业化,马化腾把腾讯看成一个连接器,我们在不同行业看到的问题点都不同,AdTime也是一样的,AdTime认为大数据是互联网+的一个核心引擎,跟我今天讲的主题正好是能够对应的。为什么这么说呢?我们可以试想一下,一个传统企业从产品制造、生产,包括上市以后,要做一些营销策略,它上市之后有些消费者要去关心它的售后服务,凭借的是一些经验、人为的更多一点,或者是凭借市场的一些积累。在整个高速信息化、互联网时代,都已经以工业4.0为基础,所有的销售数据、CRM数据、营销、电商数据,一切的核心都是以数据为基础、数据为中心、数据为网,怎么实现互联网+的落地,是尤为重要的。这是对整个大数据和互联网+的引擎关系。
熟悉AdTime的人都知道它是做技术出身,我也是做技术出身的,以前是做程序的。有些东西是必须要落地的,落实到执行层面,今年AdTime有几个变化,我们在年初把企业定位为帮助传统的制造业和传统企业转型,互联网化以及国际化,在国际化道路上,我们还有很长的一段道路要走,我们初步在新加坡、马来西亚和旧金山建立了分支机构,包括与一些国外的研究组织建了一些战略合作,包括与华为建立全球战略合作,与国内一些院校成立实验室,是真正把互联网+,把大数据产业真正执行好、落地好,帮助一些传统企业转型。我们的定位发生了一些改变,除了我们会帮助传统企业进行转型,另外就是我们立足于大数据,以互联网为核心,我们会开放很多能力,无论在数字营销领域,还是业务移动化领域,包括数据商业化领域进行开放,把业务、应用、技术真正贯穿,帮助这些企业实现互联网+的战略。
AdTime所拥有的这些核心,简单总结就是两个:一是大数据商业化的应用业务。二是ATLAS,也就是我们数字营销业务。这张图说明AdTime利用产品、技术、核心开发能力,在整个数字化产业方面如何去做,我们拥有大数据,一会儿我会跟大家详细分享大数据是怎么做的,怎么真正成为核心引擎的,我们汇聚多方数据,我们可以把数据真正形成高可用、高价值的数据,进而在AdTime做策略指导,在传播上,形成一个闭环,为各行各业提供解决方案。
ATLAS云图,也是AdTime最为核心的技术之一,我今天讲的东西偏技术,也不排除我用一些通俗易懂的例子给大家介绍。我先解释一下为什么叫云图,云图是代表海量的处理能力,对于数据的可视化方面。云图的功能很简单,它一方面把用户的行为数据,另外就是把媒体的表现数据相结合,这些数据一方面可以形成给数字营销提供网络画像,提供轮廓,找到精准人群。当然他还有很多很附属的服务,比如我们提供了对于企业口碑、产品在互联网上的舆情分析,包括资讯业务、数据服务,我们的数据服务应用得比较广泛,跟本网有合作,包括跟第三方的服务机构,我们会出一些报告,比如AdTime出品,我们曾经服务过很多五百强的企业。我们现在在做一些创业,比如娱乐行业,我们给变形金刚以及大陆地区传播的策略,以及城市魔咒,预测票房,以及传播策略怎么订,中国大陆地区怎么看与国外电影的区别,我们帮助浙江卫视、江苏卫视《非诚勿扰》提升收视率。我们在不断尝试各种应用。
说到云图,我们的核心技术和数据来源都来自于它,从05年开始我们一直包括国家和政府来做一些服务,多多少少都用到了云图的一些核心技术。我们在多年服务这些机构,我们所积累的数据,包括部署的设备,以及我们的服务经验促成了为什么AdTime能够拥有海量的数据来源,我们目前在35个城市都部署了AIO的设备,拥有3个主机房,500多台核心服务器,组织云图架构,进行海量数据处理。
在整个云图拥有四个核心技术,实现全方位的深度数据挖掘,包括对于网络流量的分析、网民行为分析、网站内容分析、访问请求分析。对于网络流量分析,主要有三个网络行为,人群的特征主要还是以三个方面的行为为核心的,包括搜索行为、浏览行为,以及累积的一些行为,也就是他历史累积的一些行为,长期关注某些内容,我们采用的是追踪ID,进行强关联。我再简单提一下,因为我们当时帮助一些政府机关来做这个服务的时候,借着很多项目,比如国家的015、016,我们当时做是类似于互联网网民行为研究,当然是偏向于国家战略层面做咨询的,跟今天的数字营销有一点区别,那时候叫数据大集中,从那个时候到现在一直在做网络流量的分析。第二是对网民行为分析,比如他有跨站的行为,一个用户开始看了爱奇艺,现在用了新浪。建立了专有的历史行为轮廓之后就可以知道这个爱好和行为是怎样的。
对于网站内容分析,我们有些核心的东西,通过应用层的爬虫,它不同于百度爬虫,而是深入爬虫,包括语音分析,我们可以分析用户为什么对这个页面感觉兴趣,包括他有什么样的关联词,来判断网站页面是不是有价值的,然后进行分析。
访问请求分析技术,可以在不同区域,不同地点,能够进行用户的访问需求分析,包括时间、地域,非常准确地定义到比如你在淘宝之后买了之后是不是放入到购物车里面,到这个行为都是完全可以把它进行回溯的。
通过这四个核心技术关联在一起形成AdTime云计算中心对处理、分析、挖掘、关联行为,把流量、行为、内容以及访问进行强强关联,进行深度处理。这是对于整个判断,整个用户历史访问请求,以及当时实时的分析。我们对网站的访问需求以及上网的记录,形成一个数据中心。
我们用到了很多核心技术,我们的技术不光用到云图上,现在业界的主流核心技术,大家都类似,差不多,比如我们采用谷歌的架构平台,在整个广告运用,比如数字营销,我们推送广告的时候,也可以很平滑进行拓展,也是非常低成本的。我不是搞硬件的,主要是做软件,做云这块,但是我同事一直在做硬件研究,我们有一个团队专门来做,包括陈伟专门做大数据研发,改良了我原来基于英特尔X86的简单部署,所有改变之后,就是基于这个技术建构。这套整体来说在业界技术架构是非常先进的,包括我们采用了海量存储的子系统以及运算能力,包括我们对于广告的处理能力,我觉得在整个技术领域都是非常先进的。
我举几个例子,可能大家看着越来越晕了,太偏技术的,我今天讲的话题也是有准备过的,因为互联网创新峰会,肯定要偏技术一点,而且这也是代表一些业界前沿的东西,所以我讲的东西不足支出,欢迎大家批评指正。我们主要采用PC+SATA,对历史数据存储,采用SAAS就可以了,这是当前最主流的部署之一。屏滑可扩展的分布式运算子系统,采用列存储和内部数据库结构,单点*亿条记录的范围查询小于1000ms,为传统数据库的1/10,一定要整个架构做充足的工作,包括在广告上,广告怎么推送,内容推送请求、PV、UV怎么界定。包括在整个云图的数据架构,可构建于虚拟化硬件平台,采用开放的Hadoop分布式计算框架,集成了数据挖掘和BI算法,精确匹配用户需求并按时间维度进行广告投放,投放后实时监控投放效果后进行动态调整。现在只有国家级才可以做大数据,乃至阿里巴巴、阿里妈妈做的都是基于自己的小数据,但大小数据只是一个概念,我们把整个大数据的落地和价值全都是低估的,实际上它可以做更多的事情。我们的云图可以构建这种平台,帮助广告主实现,不光这个平台可以自己用,也可以借力到其他的广告主,帮助给其他企业自建系统,它是很开放的。
包括Hadoop系统架构,采用分布式文件系统,包括文件调度,以及Hive怎么做应用模型,在建模的时候,我们把网站、域名结合在一起,在统计学角度如何把PV、UV、去重同步到前面的基础数据库里面去,包括年龄、性别、爱好、收入怎么做关联,特别是和内容页怎么做关联,这里面有很多核心的技术在里面,包括利用爬虫技术,怎么做分布式多线程,抓取信息合并进数据模型,关联后怎么建模以及数据的调度,再串成一个逻辑分析,这里面有很多算法。提到算法,ATLAS的CI数据算法是我们跟哥伦比亚一起研发的,是基于统计学原理的人工技能,互联网思维跟人类的思维一样,既丰富又复杂,在行为中最关键的是关健词,因为用户的访问页面和他喜欢的内容都是可以通过关健词来刻划的,用户的行为可以分显性和隐性的特征,包括显性特征如何推理到隐性特征,包括年龄、社会属性。再进行内容的、分类、特征,和关键类别的关健词相匹配,然后得到了一个轮廓,比如关心劲舞团的,青少年占85%。在部署的时候,云图采用跟用户身份识别采用一对一的关系,是强强关联的,AD模式:通过Aridus镜像数据得到IP对应用户分,IDC模式,通过基于TCP拦截的Cookie插入跟踪用户身份,强强关联的用户身份识别里面根本不存在所谓的隐私,这是可以保障的。整个CI、集体智慧是非常先进的,大家觉得这个事靠谱就一定靠谱,基于CI的内容做分类,包括怎么做网站内容,以及怎么做核心类聚,包括我们怎么把用户的特征从显性过渡到隐性,进行深入挖掘。基于神经元网络的反馈,逐步完善的用户分群,包括UV到PV,全都是自动的。这里面用户的行为特征模型,从泛行为、自然属性、隐性的,以及显性的全部关联了,相同频率出现的思想进行加权。
用户偏好模型的协调过滤,相似度的计算方法有:余弦相似形和Pearson相关系数,大家可以拍一下,基于用户协调偏好的过滤。我讲了这么多技术的东西,无论是用户行为分析还是海量用户行为分析,包括到国家层面,为国家提供一些战略咨询,云图用了很多和关键技术,时间关系,我不细讲,感兴趣,我们可以下来交流。无论是大规模的数据分析能力以及行为特征以及类体系的多元技术,这些技术都是可以共享的,包括AdTime来说,我们都是很开放的,我们的DAP全都是开源状态,大家感兴趣,也是可以帮助企业以及传统公司建设大数据平台,帮助我们的数据营销。希望AdTime用先进的技术,我们的核心能力,为在座的各位提供优质的服务。谢谢大家!
            (本文为本网网独家原创稿件 转载请注明出处)
养卡人-信用卡之家www.Yangkaren.com】
回复

使用道具 举报

说点什么

您需要登录后才可以回帖 登录 | 立即注册
HOT • 推荐

神回复

© 2018 养卡人社区

中国互联网举报中心 # 跟帖评论自律管理承诺书 违法和不良信息举报: 免责声明:本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布、编辑整理上传,如有侵权内容联系发稿人,对此类作品本站仅提供交流平台,不为其版权负责。阅读本站内容因误导等因素而造成的损失本站不承担连带责任。当政府机关依照法定程序要求披露信息时,论坛均得免责。