近日,国际顶级期刊《IEEE Transactions on Pattern Analysis and Machine Intelligence》(TPAMI)以长文形式接收了公司张伟教授课题组的论文“Reconstruct and Represent Video Contents for Captioning via Reinforcement Learning”。TPAMI是计算机视觉与模式识别领域的顶尖期刊,是中国计算机学会(CCF)推荐的人工智能领域A类期刊,2016-2017年的影响因子(IF)为9.445。
该论文提出了一种新的用于视频描述(video captioning)的“编码器-解码器-重构器”深度模型,简称RecNet。该模型可以充分挖掘视频内容与文字描述之间的双向信息,所提出的重构器融合策略可以在全局层面和局部层面同时重构视频片段特征,从而首次实现了视频特征和自然语言的双向映射。RecNet模型在多个国际公认的大规模视频语义描述数据集上,都取得了目前最好的测试结果。
该论文第一作者单位为beat365手机官方网站,由张伟教授和其硕士研究生王柏瑞完成。论文的合作单位为腾讯AI Lab(人工智能实验室),该实验室拥有70余位来自世界知名院校的科学家,并与世界顶级院校与机构合作,共同打造产学研用一体的 AI 生态。其研究成果在微信、QQ、天天快报等上百个腾讯产品应用。张伟教授课题组长期与腾讯AI Lab密切合作,该成果即是双方产学研用结出的丰硕成果。