猫眼电影 李明辉 - 机器学习票房预估中的实战
2020-02-27 725浏览
- 1.机器学习在票房预估中的实战 李明辉 猫眼电影高级技术专家
- 2.
- 3.内容提纲 行业背景 技术体系 预测算法 工作展望
- 4.内容提纲 行业背景 技术体系 预测算法 工作展望
- 5.行业背景 机遇与风险 • 中国电影市场高速发展 • 高风险、投资回报率难以预测 • 大投入未必有大产出 • 预测工具的缺失 票房预测的意义 • 投资:预估投资回报率,控制风险 • 宣发:营销成本控制 • 上映:智能排片,利益最大化
- 6.行业背景
- 7.行业背景
- 8.行业背景 票房预测的难点 • 中国电影处于野蛮生长期 • 信息量很大,但是垃圾更多 • 可供参考或学习的样本量少 • 有些感性特征难以量化 影响票房的因素 • 题材(受众群范围) • 卡司阵容(粉丝群范围) • 影片质量(口碑效应) • 档期(同行竞争) • 宣传力度(主动传播) • 非市场因素
- 9.行业背景 票房预测的难点 • 中国电影处于野蛮生长期 • 信息量很大,但是垃圾更多 • 可供参考或学习的样本量少 • 有些感性特征难以量化 影响票房的因素 • 题材(受众群范围) • 卡司阵容(粉丝群范围) • 影片质量(口碑效应) • 档期(同行竞争) • 宣传力度(主动传播) • 非市场因素 24亿元?
- 10.行业背景 • 票房预测的发展阶段 萌芽阶段(1915~1960) 对变量(因素)的摸索 • 高昂的拷贝价格 • 制片需要了解影片的质量 • 盖洛普研究影响票房的因素 初级阶段(1980~2006) 复杂因素分析模型的建立 电视的发展、刺激电影行业控制风险 巴里•利特曼票房回归模型 斯格特·苏凯的竞争市场预测模型 机器学习模型BPNN 发展阶段(2006~2013) 采用单一数据源为核心的分析 • 基于博客的票房预测模型 • 基于新闻报道的票房预测模型 • 基于Twitter进行票房预测的模型 • 基于google搜索引擎的预测模型 • 基于维基百科的预测模型
- 11.行业背景 • 国内的票房预测服务 猫眼 淘宝 腾讯 百度 艺恩 时光 一起拍电影 票房透视镜
- 12.行业背景 • 票房预测服务的分布 全国实时票房 影院实时票房 次日票房预测 总票房预测 猫眼 ✔️ ✔️ ✔️ ✔️ 淘宝 ✔️ 腾讯 ✔️ ✔️ 百度 ✔️ ✔️ ✔️ 艺恩 ✔️ 时光 ✔️ 一起拍 犀牛娱乐 ✔️ ✔️ ✔️ ✔️
- 13.内容提纲 行业背景 技术体系 预测算法 工作展望
- 14.技术体系 实时票房 • 每部影片在全国、各影院、 城市的票房、排片、人次、 平均票价等 天级票房 • 每部影片在全国次日票房 预测 • 前一日17点、21点 总票房 • 每部影片在整个上映周期 的全国票房预测 • 首映日、首周末时间节点 预售票房 天级票房预测结果
- 15.技术体系 合作影院售票数 据 猫眼交易数据 基础数据 全 国 实 时 票 房 天 级 票 房 预 测 总 票 房 预 测 影 院 城市 实 地区 时 实时 票 票房 房 预测服务 猫眼专业版
- 16.技术体系 实时 票房 总票 房 天级 票房
- 17.内容提纲 行业背景 技术体系 预测算法 工作展望
- 18.实时票房
- 19.案例:《我不是潘金莲》 11.18首映:万达排 片低于其他院线 冯小刚《潘金莲至 王健林的一封信》 王思聪反击 曝光度激增 票房
- 20.实时票房 • 猫眼的数据优势 – 与90%以上的影院合作,对接18种售票系统 – 拥有详细的影院场次及座位状态 影院 售票系统 座位图
- 21.实时票房 • 猫眼的数据优势 – 与90%以上的影院合作,对接18种售票系统 – 拥有详细的影院场次及座位状态 问题:不可选 ≠ 已售 影院 售票系统 座位图
- 22.实时票房 • 问题定义 – 已知猫眼合作影院(占全国约90%)每部电影、每个场次的实时座位图数据 – 预测每部电影在全国全部影院的实时票房总和 • 难点 – 数据噪音:座位图中状态不明确 – 数据不完备:非全部影院 • 解决方案 – 数据抽样:以部分样本为基础,估计全量
- 23.实时票房 • 统计模型 猫眼合作影院 n个场次 “高质量”影院 m个场次 售票数量X 抽样 统计 估计 全国总量 猫眼总量 X-高质量 ?????? × ?????? × ?????? ???????????? = ???????????? ∗ ???????????? ???????????? ∗ ????????????−1
- 24.实时票房 修正 历史alpha值计算 影院黑 白名单 离线计算 数据清洗 票价处理 实时票数计算 实时票房计算 实时大盘计算 影院实时票房计算 地区实时票房计算 在线计算
- 25.实时票房 • 效果对比
- 26.天级票房预测
- 27.天级票房预测 • 猫眼的优势 – 在线售票系统:直接的交易数据,预售票房、排片场次等 – 精准的实时票房为天级票房提供可靠的特征 • 问题定义 – 次日票房预测 – 前一日21:00 – 前一日17:00 • 难点 – 影片数量少 – 异常数据
- 28.天级票房预测 • 基本假设 – 票房 = 票价*人次 = 票价*场次*场均人次 – log(票房) = log(票价)+log(场次)+log(场均人次) – y=w1*x1+w2*x2+...
- 29.天级票房预测 • 基本假设 – 票房 = 票价*人次 = 票价*场次*场均人次 – log(票房) = log(票价)+log(场次)+log(场均人次) – y=w1*x1+w2*x2+...
- 30.天级票房预测 • 线性回归模型 在此处键入公式。 ?????? ?????? = ?????????????????? + ?????? = ??????1 ∗ ??????1 + ??????2 ∗ ??????2 + ⋯ + ???????????? ∗ ???????????? + ?????? 1 loss = ?????? ?????? − ?????????????????? 2
- 31.天级票房预测 • 模型算法 – 多元线性回归(LR) – GA特征选择算法 特征大类 实时票房 特征小类 特征 日票房 dailyBox(t-1, t) 平均票价 avgPrice(t-1, t) 上映场次 totalShow(t-1, t) 人次 totalView(t-1, t) 大盘票房 sumDailyBox(t-1, t) dailybox(t-2, t) avgPrice(t-2, t) totalShow(t-2, t) totalView(t-2, t) sumDailyBox(t-2, t) dailybox(t-2, t-1) dailybox(t-1, t-1) avgPrice(t-2, t-1) totalShow(t-2, t-1) totalShow(t-1, t-1) totalView(t-2, t-1) totalView(t-1, t-1) sumDailyBox(t-2, t-1) 大盘人次 sumTotalView(t-1, t) sumTotalView(t-2, t) sumTotalView(t-2, t-1) 猫眼订单 日票房 黄金时间 上映上次 座位数 节假日特征 节假日 组合特征 ... maoyanOrder(t-1,t) hotShow(t-1,t) hotSeat(t-1,t) holiday(t-1) maoyanOrder(t-1,t-1) holiday(t) holiday(t+1)
- 32.天级票房预测 • 模型拆分
- 33.天级票房预测 • 模型拆分 天级票房预 测模型 首映日模型 非首映日 模型 工作日模型 节假日模型 周 周二周周周 一 ~ 五六日 型四型型型 型 首 次 周 周 型 型
- 34.天级票房预测 • 效果对比 猫眼比竞对提前发布12个小时 R10=预测误差在10%以内的样本占比
- 35.天级票房预测 首映日准 确度98% 总票房准 确度95%
- 36.总票房预测
- 37.总票房预测
- 38.总票房预测 • 问题定义 首映日 首周末 速度与激情8
- 39.总票房预测 • 层次模型 总票房预测模型 首映日模型 首周末模型 亿级 千万级 春节&国庆节 周二型 周四型 周五型 春节&国庆节 跳水型 非跳水型 跳水型 非跳水型
- 40.总票房预测 • 模型算法 特征大类 特征小类 天级票房 票房 票房走势 排片比 票房比 场均人次 特征 box(t=1) (box(t=3)box(t=4)) / box(t=3) showRate(t=1) boxRate(t=1) avgViewer(t=1) 影片属性 猫眼想看数 wishNum 档期 竞争 猫眼评分 score 影片类型 type 上映年月 month 竞争影片想看 数 rivalWishNum 竞争影片数量 rivalNum box(t=2) box(t=3) box(t=4) 影响因素 票房的体量 (box(t=1)-box(t=4)) (box(t=3)-box(t=1)) / box(t=1) / box(t=1) 口碑 showRate(t=2) boxRate(t=2) showRate(t=3) boxRate(t=3) showRate(t=4) 票房的体量 boxRate(t=4) 票房的体量 avgViewer(t=4) 票房的体量 口碑 口碑 year 档期 其他影片的影响 其他影片的影响
- 41.总票房预测 • 支持向量回归模型(SVR) – 损失函数: – 目标函数:
- 42.总票房预测 • 支持向量回归模型(SVR) – 损失函数: – 目标函数: – 优点: • 特征维度大于样本数时,仍然适用 • 小样本情况下,模型泛化性强 • 非线性核函数,可解决非线性的回归问题
- 43.总票房预测 • 效果对比 – 数据统计时间:2017春节~2017.4月底下线,共计27部过2000万,19部过亿 猫眼比竞对提前发布12个小时
- 44.总票房预测 • 效果示例 28 350000 亿 300000 250000 200000 150000 100000 50000 0 14/04/2017 30 亿 19/04/2017 24/04/2017 速度与激情8 29/04/2017 04/05/2017 09/05/2017 阿尔法猫预测 累计总票房 14/05/2017 19/05/2017 26. 7亿 24/05/2017
- 45.总票房预测 • 效果示例 13 亿 3 亿 2 亿
- 46.内容提纲 行业背景 技术体系 预测算法 工作展望
- 47.工作展望 票房预测的基础:提高效果、提前时间点、方法创新 • 洞察票房内在规律,不断探索新的方法 • 正在尝试预测票房走势、预售比 • 交互式预测系统:总票房、天级票房 • 天级票房再提前1~2天的小目标 • 总票房预测提前1个月的大目标 应用拓展 • 影片排片:排片助手=>智能排片 • 发行营销:参与营销计划,票补的优化 • 树立票房预测的行业标杆
- 48.