DSP

计算广告学学习笔记

2019-07-13 12:27发布

1.广告的目的和效果

1.1 广告的目的

1)  什么是广告? 定义:广告是由已确定的出资人通过各种媒介进行的有关产品的,通常是有偿的,有组织的综合的劝服性的非人员的信息传播活动。 不权威,未必认同。广告与搜索、推荐有类似的地方。 2)  广告的主体: 出资人;媒介,受众。 3)本质功能: 借助某种有广泛受众的媒介的力量,完成较低成本的用户接触(reach)。 4)分类 品牌广告:提升较长时期的离线转化率 效果广告(direct response):短时期内明确的用户转化行为诉求。(例如:购买、注册、募捐等)。

1.2广告有效性模型

1)阶段: 选择(1曝光,2关注),解释(3理解,4信息接受),态度(5保持,6购买) 2)原则: 广告位天然属性;不要打断用户;明确推荐原因;符合用户兴趣或需求;用户能理解的兴趣范围;与关注程度相匹配的理解门槛;广告商/广告认可度;广告位认可度;艺术-记忆效果;价格敏感范围。

1.3广告和营销的区别

广告:潜在客户 销售:有明确的需求者

1.4在线广告特点

1)技术和计算导向(传统广告是创意和关系导向) 数字媒体的特点使精细的受众定向; 技术使得广告决策和交易朝着计算驱动的方向发展。 2)可衡量性 点击效果可以直接收集 3)标准化 技术投放和精准定向促进了在线广告的标准化 4)媒体概念的差异化(向demand端靠近)   美国广告行业协会:iab,as,ana

1.5在线广告市场

1)需求方,供给方 2)media、adnet、adx、ssp、dsp、advertiser

1.6计算广告核心问题和挑战

1)核心问题 find the best match between a given u,in agiven c,and a suitable a 2)从优化角度: 特征提取:受众定向(对 uc打标签) 微观优化:ctr预测 宏观优化:竞价市场机制 受限优化:在线分配(量受限如何提高质) 强化学习:探索和利用 个性化重定向:推荐技术 3)从系统角度: 候选查询:实时索引 特征存储:nosql 离线学习:hadoop 在线学习:流计算 交易市场:实时竞价 4)主要的挑战 : 大规模(页面用户量大;高并发;低延迟) 动态性(用户的关注和兴趣变化快) 丰富的查询信息(标签比搜索要多) 探索和利用

1.7常用广告系统开源工具

hadoop平台 hbase-列存储,nosql数据库,java pig-类似sql的方式 hive-类似sql的方式,需要对数据预处理   在线部分: zookeeper-分布式环境下解决一致性问题 elephant-bird: 开源工具:经过大流量验证 跨语言服务搭建工具-thrift 跨语言服务快速搭建(c++,java,python,ruby,c#...) 用struct定义语言无关的数据结构 用service定义rpc服务接口 上述声明放入idl文件,自动生成服务框架代码 类似工具:hadoop子项目avro,google的protobuf

2合约广告系统

2.1合约广告简介

1)合约广告系统解决什么问题? 2)直接媒体购买(传统的方式) 供给方——广告排期系统(帮助媒体进行多个合同排期;不进行受众定向) 需求方——代理商(帮助广告商策划和执行排期;经验和人工) 代表——4a 3)担保式投送和广告投放 担保式投送(卖流量) 广告投放机(服务器端完成决策,受众定向)

2.2在线分配问题

算法相关问题

2.3 hadoop

涉及到大数据计算的公司都在使用 1)概况 apache开源项目 hadoop核心功能:高可靠性,高效率的分布式 文件系统 海量数据处理的编程框架 3)  目标 可扩展性;经济型;可靠性

3.受众定向

3.1 受众定向的概念

1)概念 auc上的标签体系 受众定向即为auc打标签的过程 上下文标签可以认为是即时受众标签 2)作用 建立面向广告组的流量售卖体系 为各个估计模块(如ctr预测)提供原始特征

3.2 行为定向

1)九种重要的原始行为(按信息强度排序) transaction(交易,如淘宝),pre-transaction(如商品浏览),paidsearch click,ad click, search, share,page view,ad view。(demand端强,suply端弱)。 用户的标签 2)行为定向的其他问题 以用户ID为key组织行为 长期兴趣:滑动窗口,时间衰减方式 3)受众定向评测 行为阈值(reach)与ctr成反比(不递减说明tageting没意义)

3.3上下文定向(contextual targeting)

1)near-line上下文定向系统(系统原理) 用在线cache系统存储url-〉特征表以提供实时访问 不存在的url返回空,触发爬虫和特征提取 设置cache系统合适的失效时间以完成特征自动更新

3.4 页面主题分析(topic model)

1)概念 是发现一组文档中抽象的主题。 2)怎么做(算法相关) 常用模型图(包括plsi,lda,gap等) 经验贝叶斯

3.5数据加工和交易

1)精准广告是什么 数据源-〉定向系统-〉投放机 2)精准广告业务若干错误观念 3)有价值的数据 用户标识 用户行为(被动行为价值低,主动行为有效,靠近demand有效,热点行为去掉) 广告商(demand)数据 用户属性和精确地理位置 社交网络 4)数据管理平台(DMP,催生的商业模式) 目的(为网站提供数据加工和对外交易;加工跨媒体用户标签,在交易市场中售卖;是否应该直接从事广告交易存在争议) 关键特征(定制化用户划分;统一的对外数据接口) dmp系统架构(离线挖掘,综合各个网站的行为) date highway工具(scribe,大规模日志收集) 5)典型企业:bluekai

4 竞价广告系统

4.1位置拍卖理论

1)竞价系统理论 位置拍卖(position auctions) 对称纳什均衡 2)定价机制 vcg机制:某对象的收费应等于给他人带来的价值损害 广义第二高价(简单易行,为在线广告系统广泛采用)

4.2广告网络概念(ad networks)

1)广告网络是什么(网盟?) connects advertisers to web sites that wantto host advertisements 自行估计给定(a,u,c)组合的ctr 2)主要特征 竞价系统 淡化广告位概念 最合适的计价方式为cpc 不足:不易支持定制化用户划分 3)系统架构 主要包括ad retrieval,ad ranking,page,user等模块

4.3广告检索

因为广告量大所以需要,google为百万数量级。与搜索类似。 1)布尔表达式检索(与搜索的区别) 广告投放条件过滤可以视为布尔表达式检索问题 布尔表达式检索的一些概念 基本思想 2)长query情况下的相关性检索

4.4流量预测

什么是流量预测,有什么用

4.5 zookeeper

1)应用场景 在基于消息传递通信模型的分布式环境下解决一致性问题的基础服务 2)paxos算法

4.6点击率预测与逻辑回归

最重要的算法模块 regression比ranking更合适一些(不仅要排序,还要预估ctr),广泛使用此模型。 特征:每个特征对应一个权重

4.7 逻辑回归优化

算法相关部分

4.8动态特征

多层次点击反馈 在标签组合维度上聚合点击反馈统计作为ctr预测的特征 优势:工程架构扩展性强(与在线学习相比);对auc组合支持较强 缺点:在线特征的存储量大,更新要求高                      

4.9探索与利用

算法相关

5 搜索广告与广告网络Demand技术

5.1搜索广告

1)特点 特殊形式:上下文定向重要;上下文标签为关键词;位置北南东三个区域。 查询词扩展(query expansion):基于推荐,语义,收益 2)用户相关的搜索广告决策 搜索结果不宜做个性化 广告展示条数是可以深度个性化的 可以根据同一session内的行为调整广告结果 3)短时用户行为反馈 一个sessin内的行为或短时间内的行为 根据短时间的行为为用户打标签 工具:流式计算,s4,storm等

5.2流式计算平台

storm 大规模实时数据处理框架,自动完成数据分发和可靠性管理 与mr区别在于调度数据而非计算 开发者只需要关注处理逻辑 数据流基本在网络和内存中进行,极端情况下会读写磁盘 编程类似hadoop

5.3广告购买平台

广告网络demand端技术 1)广告购买平台 产品目标:allows advertisers buy audience across publishers and ad networks 关键特征:连接到不同媒体和网络;roi优化能力; 2)典型公司:efficientfrontier  

6 广告交易市场

6.1广告交易市场

1)目的 2)关键特征:rtb;按展示收费(交给demand方)

6.2实时竞价

1)两个阶段cookiemapping,ad call 2)主要技术点 adx与dsp之间的用户身份同步cm;dsp数量众多时的服务和带宽成本优化

6.3 cookie mapping

主要考虑三个问题,谁发起?从哪里发起?谁存储mapping表? 1)用户浏览有dsp代码的广告主网站(dsp-adx): dsp(demand网站)发起,demand存储mapping表。 2)用户浏览媒体网站(媒体-dmp) 媒体发起,表存在媒体

6.4 supply sid platform

代表媒体利益 1)变现方式:直接销售(合约);网盟(adnetwork);rtb

6.5  demand sideplatform

1)目的 allows digital advertisers to mangemultiple ad exchange and data exchange accounts through one interface 2)特征 定制化用户划分 跨媒体流量采购 支持RTB 3)代表企业: invitemedia 4)dsp系统架构

6.6 dsp流量预测

1)问题 dsp需要预测流量以决定采买策略 2)思路 由于dsp无法拿到所有流量情况,因此无法像供给方那样进行流量预测 如何利用历史投放数据是关键

6.7 点击价值估计

比较难做 1)应用场景 dsp的实时出价(相对最难) 广告网络中的出价工具 智能定价(根据流量质量定价) 2)挑战: 非常悉数的训练数据 与广告主类型强烈相关的行为模式 3)原则 模型估计时,用较大的bias换较小的variance,达到稳健 充分利用广告商类型的层级结构,以及转化流程上的特征

6.8  dsp重定向

非常核心的功能 1)重定向的分类 网站重定向;搜索重定向;个性化重定向(推荐相关产品;对广告主而言,站外推荐引擎)。 2)推荐算法: 基于协同过滤(内存方法,模型方法) 基于内容的算法 3)公司:magne+ic、criteo   根据广告主自己的用户群进行   4)新课推荐(look-alike) 问题: 中小电商,老用户数量不够 某些类型广告商(如银行),大多数用户无法通过重定向渠道捕捉 解决办法: 种子用户,通过行为相似性找潜在客户 其他

6.9 需求端推荐方法

从demand角度看推荐 站内推荐 站外推荐

6.10 广告流量交易方式

程序交易 优先销售 市场往demand方向发展