Qcon北京2018 《深度学习在视频搜索领域的实践》 刘尚堃pdf

2020-03-01 58浏览

  • 1.̽Ⴎଶ਍ԟࣁᥤ᷇൤ᔱӾጱଫአ̾ ᄍᦖᘏ҈‫ڝ‬੢䁌
  • 2.
  • 3.
  • 4.目录 1、视频搜索的挑战 %、深度学m在视频内容理解h的应用——召回 3、深度学m在语k搜索h的应用——语k表征 4、深度学m在排序h的应用——g性化表征
  • 5.视频搜索的挑战 1̵ᶋᕮ຅۸/෫ᕟᕢ——‫ࢧݟ‬ᵙଶ 2̵Ꭸ෈๜/‫௳מ‬ӧ꧌‫᧍——ړ‬Ԏᵙଶ 3̵ၹᰁᎨᥤ᷇——አಁᭌೠࢯᵙ սᯡᥤ᷇൤ᔱႮଶ਍ԟଫአᶾऒғ 1̵चԭᥤٖ᷇਻ቘᥴጱ‫ࢧݟ‬ 2̵᧍Ԏཛྷࣳ/᧍Ԏᤒ஄ 3̵ӻ௔۸ᤒ஄
  • 6.内容理解——基q视频内容的召回 चԭᥤٖ᷇਻‫ࢧݟ‬ चԭຽ᷌զ‫ڊ‬ሿ‫ࢧݟ‬ӧ᪃ चԭᥤ᷇ࢶ‫؟‬զӥ‫ࢧݟ௳מ‬ 1̵ᔄፓຽᓋ 2̵Ԫկ/࣋วຽᓋ 3̵ᇔ֛/Ոᇔຽᓋ 4̵ਁ଒/OCR/ASR୵౮NLPຽᓋ
  • 7.内容理解——自动分类技术 ຅ୌ‫ړ‬ᔄຽᓋ • 目的a输入v意视频,通过内容理解的方法对视 频进行类目和标签预测 • 方法a采用1::+8ST9的UHSuHPFH-VQUHSuHPFH RTHGLFVLQP的方法 • 效果a • 基类目平均准确率.8(%
  • 8.内容理解——pu/行i检测 ຅ୌԪկ/࣋วຽᓋ pu/行i检测技术 • 目的a给定e定长视频,定x感兴趣行i发生的时间段并给出 对应行i类标 • 方法a采取1QPvQNuVLQP 32+5DVHG >HFuTTHPV APLVU 5>A) 算法,结合SLPgNH ShQV 2HVHFVQT SS2)框架实现行i检测功 能 • 效果a • THA9OS 14数据集,O/P-%4.1% 7QA-0.()
  • 9.内容理解——多目标检测f跟踪 ຅ୌᇔ֛/Ոᇔຽᓋ • 目的a定x和识别视频h的特定目标,并在目标生命周期内 进行跟踪 • 方法a检测采用>HgLQP IuNNy FQPvQNuVLQP PHVwQTM >-41:) 的GHHR NHDTPLPg框架,对q小物体在IHDVuTH ODR进行ow 化b跟踪采用214框架,结合颜色模型,并使用0/14进行 候选区域扩充 • 效果a • 检测算法在HQNNywQQG HHDG数据集,O/P-80.41%, 高过VhH UVDVH-QI-DTV ).)%b • 0TDLPwDUh数据集,O/P-88.4)%,高过VhH UVDVH-QIDTV 10.(%。 • 跟踪算法在T0-100评测集,在实时速度d,RTHFLULQP 和UuFFHUU TDVH效果最好 ग़ፓຽ༄ၥӨ᪙᪵ᐏֺ
  • 10.内容理解——视频智能封面图 A51视频智能缩略图 • 目的a通过对视频进行结构化分析,对关键帧、视频镜头进行筛选和排序, 选择最w的关键帧、关键片段来作i视频的展示 • 方法a视频智能缩略图采用关键帧提取+99>w化+美学评分等方法,选 择视频h最w关键帧作i该视频的首图。 • 效果a • r工评测w酷原始f封面图算法(s评测可对比出w劣l分的数据_a 算法w,占比)%.%%
  • 11.内容理解——总结
  • 12.语k模型 • 测试集a 语kr工标注gTQuPG VTuVh • 目前最高:215 a0.+x • 固定数据尝试e同模型a • • 双向8ST9+/VVHPVLQP 0.+x • 0L5>A GTQRQuV 0.8x 固定模型尝试VHTO HOEHGGLPg初始化方式a 模型 初始化方式 ELNUVO+DVVHPVLQP 随机 ELNUVO+DVVHPVLQP ELNUVO+DVVHPVLQP 长尾=uHTy :215 基线 神马模型输出HOEHGGLPg yq基线1% A1、豆瓣4DUVVHxV HOEHGGLPg 高q基线1% • ຽဳᵞғᰒ੒ग़ེՈૡcheckຽဳQUҁᦒᕞᵞၥᦶᵞྲֺ7ғ3҂ • ᇙ஄᯿ᥝଶՐེԭ‫܃‬ᯈଶᇙ஄̶ ‫᧍فے‬Ԏᇙ஄‫ݸ‬ғNDCG ൉‫܋‬1%ᕷ੒꧊̶
  • 13.᧍Ԏཛྷࣳ——‫ڡ‬ত۸ොୗfasttext
  • 14.语k模型——举例 SuHTy vGQCVLVNH %01)香港小姐竞选 TB0《%01)国际h华小姐》竞选佳丽学t态走猫步无时无刻加紧练m NDEHN 语k预测 非语k预测 模型解释 % % 1 HOEHGGLPg初始化 ELg笑工坊唐唐脱口秀 【牛r】0Lg笑工坊 第一季a唐唐神吐槽:最作死的女神 184 3 3 % 语k h国达r秀震惊全场 h国好声音李安1+岁参加澳洲达r秀时震惊全场的表演 % % 3 长短距离依赖 潜规则女秘n 职场大尺度虐恋激情电影《错爱,爱错》(性感女秘n欲望潜规则男c司_ 1 1 % 长短距离依赖 日本广岛原子弹爆炸 100810C廣島C原子彈爆炸後的日子C寰宇地理C13TB 3 3 %
  • 15.语k模型——总结 loss አಁ֛ḵս۸ Softmax and loss softmax • ࣁᳩੲquery޾᧍Ԏ੶ᶎਫሿԧᇙ஄ीፅ, ࣁᳩੲquery Cosine.1 >batch_size, 5, 1] Cosine.2 Cosine.3 Cosine.4 Cosine.5 ፘ‫ى‬௔Ӥํ᫾य़ද࠺ • ground truthၥᦶᵞNDCG൉‫܋‬1% Cosine similar Query semantic Title.1 semantic Title.2 semantic • ᦒᕞහഝᰁ billionᕆ‫ ڦ‬ཛྷࣳ݇හᰁ‫܉‬ӡᕆ‫ڦ‬ • bi-LSTM + attention • चԭpai-tensorflowጱ‫૲ړ‬ୗᦒᕞ Title.5 semantic Attention size = 100 >batch_size*6, 128) lstm cell unit = 64 bi-lstm • चԭFastText Vector෫ፊ፽embedding • ᕡᔉଶ+ਁ‫ ړڔ‬սᯡtitle᧍ාᥟፍଶ99.0% Title.4 semantic >batch_size*6, 128) Soft attention ದ๞‫ڠ‬ෛᑱᏈ Title.3 semantic LSTM LSTM LSTM LSTM LSTM (PEHGGLQJGLFW>500000, 150) >batch_size*6, 150) 150 tranpose 500000 >batch_size*6, 20, 150) embedding lookup >batch_size*6, 20) )HDWXUH,QSXW 150
  • 16.语k模型——总结
  • 17.排序应用——g性化表征
  • 18.排序应用——g性化表征 q s ui R o e 2 s 1 s v T r yd s
  • 19.௛ᕮ ഭଧ ፘ‫ى‬௔ཛྷࣳ ෸ප௔ ๦শ௔ 76&75ᶼ֌ ٖ਻ຽ᷌ᨶᰁ चԭṛපٖ਻‫ݎړ‬ጱ࣋วଫአ • चԭႮଶ᧍Ԏጱፘ‫ى‬௔ଫአ • चԭᤒ஄਍ԟጱTSᶼ֌ • ෛӞդᑌ‫ݻ‬ᰁ‫ࢧݟ‬୚ක ཛྷࣳ ፘ‫ى‬௔ '660 ᇙ஄ ᩻य़ᥢཛྷ҅ṛᖌᑑ዇ᦒᕞ໏๜ Ⴎଶ᧍Ԏཛྷࣳ %,/670 Ⴎଶ᧍Ԏཛྷࣳ चԭ&5)1(5 /LVWńZLVH*%'7 7HUP‫܃‬ᯈ ᜓፓ᧍Ԏࣘ ୚ක 2*& ‫ق‬ᗑ ᑌ‫ݻ‬ᰁ Ⴎଶ᧍Ԏғᦒᕞ໏๜X billion*Xӡᕆҁᑑ዇҂ ཛྷࣳ݇හՊ+ ᬽդེහX millionྍ • ፘ‫ى‬௔ཛྷࣳ %,*58 Ⴎଶ7HUP:HLJKW 8*& • ఺ࢶ‫ړ‬ຉཛྷࣳ ᤒ஄਍ԟғᦒᕞ໏๜X billion*X millionҁᑑ ഭଧᇙ஄ ፘ‫ى‬௔ᇙ஄ ᇙ஄ ᥤ᷇YYWV ዇҂ ཛྷࣳ݇හ XՊ+ ᬽդེහ Xmillion ᥤ᷇ᨶᰁ ᥤ᷇๦শଶ ᥤ᷇෸ප ൤ᔱ‫ݍ‬ḇ አಁHPEHGGLQJ TXHU\᧍Ԏ TXHU\఺ࢶ WHUPZHLJKW හഝ սᯡORJ ࢿᨗORJ ᐟḘORJ 8&ORJ Ꭳᦩࢶᨏ አಁኮ‫؟‬ ٖ਻ቘᥴ
  • 20.
  • 21.
  • 22.
  • 23.
  • 24.