内容时效性是什么?如何判断内容时效性周期?
时效性2.内容时效性的识别短时效内容识别方案设计3.短时效内容的分发总结
1.为什么要识别内容的时效性?
没有区分文章时效性推荐的问题:
短时效的内容不能得到及时曝光也不能快速地消失,给用户很强地迟滞感。等看到的时候已经没有意义了;短失效文章错误推荐。譬如发布会预告的文章,不应该在发布会召开之后再给用户推荐出来;长时效的内容被浪费,有些知识类,文学类内容日久弥新,太快地被埋没了比较可惜。控制推荐有效池的量:提高推荐的效果并控制成本。
用户是否在意内容的时效性?
这是我们库中不同类别的内容从进文开始随着时间变化点击率的变化,可以看到不同的内容虽然变化的速度不同,但是都是沿着开始高,快速下降,然后缓慢下降的趋势。也说明了用户是能清楚感知内容的时效性的。点击率的拐点就是这类内容合适的过期点,因为这些内容再放到内容池里面也产生不了多的价值,不如让给新内容。这个假设也是本文的基础。
我们有什么预期?
因此需要引入文章时效性的概念,给每篇文章一个推荐时效性范围(起始,结束时间),在推荐时,仅推荐当前时间在时效性范围内的文章。适当地可以对短时效的内容进行加权。
需要做什么?
识别:首先我们得清楚什么是短时效的内容,什么是长时效的内容,也就是说能判断内容的有效期?分发1:需要优化推荐机制对老的内容进行衰减。分发2:然后推荐池能够定义内容的时效,过期废弃;
2.内容时效性的识别
首先我们需要识别内容的时效性。我们把内容分层短时效(3天内)、普通时效(一个月)和长时效(半年)。具体对时效的定义可以根据产品内容需要定制。
短时效内容识别方案设计
我们先谈谈短时效内容怎么识别,能够识别短时效后,长时效也就对应地能够识别了。
如何识别短时效内容-初级
人工判断:运营经验判断。通常可以设置要闻分类:根据内容所属分类定义时效性:时效性分类(股评、市场行情、体育赛事、天气等)。可以定义为3天;时间特征提取:从标题和内容中提取时间,作为截止时间【正则】:对体育和财经,从title+摘要+内容首句 提取时间。其它分类只从title中提取时间提取粗粒度的时间: 今日/明日…7月21日…26日…下周一/星期六…提取细粒度的时间: 凌晨/上午/下午/晚上….11:21/10时20分…对时间进行过滤。比如:过滤掉 提取的时间跟文章发布时间差很远的,特别是提取的时间早于发布时间的。布时间是晚上,提取的时间是”今天”,把截止时间延长到凌晨。提取到多个不同的时间时,需要解决时间冲突。详细分类:(根据tag + 特征词) 预估时效【正则】。体育类的特征词如: 三节战报, 首节,半场,技术统计….财经类的特征词如: 盘前,盘中,最新,快讯,午评….资讯类,“最新新闻”、“滚动新闻”、“即时新闻”、“最新原创”、“最近更新”例如 tag == “news_sports” and “半场” in title, 把时效估计为1小时。例如 tag == “news_sports”时,title或摘要或首段中出现2到3支不同的球队时,认为是一场比赛,时效截止到今天晚上24点。白名单机制:常发短时效内容的账号的发文。
如何识别短时效内容-进阶
模型:抽取特征进行短时效性预测:来源、分类、文章长度、截止时间、相对时间、hint词、 根据文章在社交网站转发,评论,喜欢量、站内阅读量、互联网上被转载量,展示量 随时间衰减速度来估算,同时考虑动作源的权威度。 短时效性新闻:【模型】站外监控:监控微博、头条、百度等资讯平台的热门内容【要闻】
3.短时效内容的分发
最后说说短时效内容怎么分发才能突出短时效的特点。
内容快速通道
首先保证及时进文,现在很多内容平台都是从别的地方同步过来,然后还要经过机器审核,人工审核,时间上很难保障。因此要确保这两部流程的时效性。
快审快发;快速定投;
推荐干预
短时效内容因为积累的消费数据较少,而且生命周期短,需要更快速被曝光,也快速地被清理,因此需要对短时效内容时效内进行加权,过期后进行降权。
加权函数衰减函数
人工干预
人工干预主要有如下的方式
推送:短时效内容,要闻及时推送;要闻:设置过期时间;关键词/正则 加权,设置过期时间;话题运营;热搜词配置。
总结
本文简单介绍了内容时效性方面有什么问题?怎么处理内容时效性的问题,从识别到分发,相信读者对时效性有了更深的理解。长时效的内容跟短时效其实是类似的,这里不再赘述。后续有新的实验进展会继续同步。
如果还想了解“内容时效性是什么?如何判断内容时效性周期?”相关问题,可以联系官方电话,也可以点击屏幕右侧的咨询按钮。