yabo

全国服务QQ:3447249690

yabo:颜水成、黄亮等新论文;目标检测最新SOTA;NLP全面综述

发布时间:2019-09-23 作者:亚博

呆板之心收拾

介入:一鸣、杜伟

本周论文有:颜水成团队的「PSGAN 一键上妆」,黄亮团队于同传使命的集束搜刮长进行了一些改良,同时还有有 NLP 相干综述、方针检测最新 SOTA 结果、数字于词嵌入中的处置惩罚研究等。

目次

A Survey of the Usages of Deep Learning in Natural Language Processing

CBNet: A Novel Composite Backbone Network Architecture for Object Detection

A Comparative Study on Transformer vs RNN in Speech Applications

Do NLP Models Know Numbers? Probing Numeracy in Embeddings

HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models

PSGAN: Pose-Robust Spatial-Aware GAN for Customizable Makeup Transfer

Speculative Beam Search for Simultaneous Translation

论文 1:A Survey of the Usages of Deep Learning in Natural Language Processing

作者

Daniel W. Otter、Julian R. Medina、Jugal K. Kalita

论文链接

https://arxiv.org/pdf/1807.10854v2

择要:已往数年,深度进修模子的爆炸式利用鞭策了天然语言处置惩罚范畴的成长。于本文中,研究者扼要先容了天然语言处置惩罚范畴的基本环境,并概述了深度进修架谈判要领。然后,他们对于最近的研究举行了筛选,对于年夜量相干的文献睁开总结。除了了诸多计较机语言学的运用以外,研究者还有阐发研究了语言处置惩罚方面的几个焦点问题。末了他们会商了当前 SOTA 技能及要领并对于该范畴将来的研究提出了建议。

论文中总结的 Transformer 架构。a)有四个编码器及四个解码器的 Transformer 块;b)编码器的架构,包括一个自留意力层(黄色)及一个前馈收集(绿色);c)解码器架构,包括自留意力层(黄色)、留意力编码-解码层(紫色)及前馈收集(绿色)。

保举:天然语言处置惩罚进展到哪一步了?本文周全综述了当前天然语言处置惩罚范畴的研究进展,并切磋了差别 NLP 使命下的研究环境、SOTA 技能,并会商了将来的研究标的目的。

论文 2:CBNet: A Novel Composite Backbone Network Architecture for Object Detection

作者:Yudong Liu、Yongtao Wang、Siwei Wang、TingTing Liang、Qijie Zhao、Zhi Tang、Haibin Ling

论文链接:https://arxiv.org/pdf/1909.03625v1.pdf

择要:于现有的 CNN 检测器中,骨干收集是特性提取的主要组件,检测器的机能很年夜水平上依靠在骨干收集。近日,来自北京年夜学王选计较机研究所及纽约州立年夜学石溪分校的研究者发表了一篇论文:基在现有骨干收集(如 ResNet 及 ResNeXt)构建越发强盛的新型骨干收集,从而实现更好的检测机能。详细而言,研究者提出一种集成多个一样骨干收集的新计谋,即经由过程临近骨干收集之间的组合毗连(composite connection)构建一个更强盛的骨干收集——Composite Backbone Network (CBNet)。CBNet 迭代地将前一个骨干收集的输出特性(即高级特性)输入到下一个骨干收集中,慢慢举行一直到末了一个骨干收集(Lead Backbone)的特性图,然后利用该特性图举行方针检测。研究注解,CBNet 可以轻松整合到当前最优的检测器,并年夜幅晋升机能。例如,它将 FPN、Mask R-CNN 及 Cascade R-CNN 于 COCO 数据集上的 mAP 晋升了 1.5%-3.0%。同时,试验成果证实,CBNet 还有可以晋升实例支解成果:简朴地将 CBNet 集成到基线检测器 Cascade Mask R-CNN,便可实现单个模子于 COCO 数据集上的新 SOTA 成果(mAP 到达 53.3),这注解 CBNet 架构很是有用。

yabo

CBNet 架构图示。

保举:方针检测已经经是一个很是成熟的范畴了,而可以或许于这一使命上刷新 SOTA 结果很是不容易。这篇来自北年夜及纽约年夜学石溪分校的论文申明,整合多个骨干收集便能刷新最好效果。

论文 3:AComparative Study on Transformer vs RNN in Speech Applications

作者:Shigeki Karita、Nanxin Chen、Tomoki Hayashi、Takaaki Hori、Hirofumi Inaguma 等

论文链接:https://arxiv.org/pdf/1909.06317v1.pdf

择要:Seq2seq 模子已经广泛运用在主动语音辨认(ASR)、语音转换(ST)以和文字转语音(TTS)等端到端语音处置惩罚中。本文着重讲述序列到序列模子 Transformer,它于神经呆板翻译(NMT)及其他天然语音处置惩罚运用中实现了当前 SOTA 机能。研究者深切研究并于 15 个 ASR、1 个多语言 ASR、1 个 ST 及 2 个 TTS 基准上阐发比力了 Transformer 及轮回神经收集(RNN)。试验展现了每一项使命上使用 Transformer 得到的差别练习技巧及显著的机能上风,此中包括第 13 个 ASR 基准上 Transformer 所体现出来的巨年夜优胜性。经由过程利用开放资源及公然可用的数据集,研究者还有预备推出 Kaldi 气势派头的可复现要领,以运用在所有的 ASR、ST 及 TTS 使命,使患上社区可以延续他们的研究结果。

保举:语音辨认范畴一直于运用最新的 Seq2seq 模子,可是哪种架构是最佳的呢?本文对于比了 Transformer 及 RNN 两年夜于语音辨认范畴的运用广泛的架构,并患上出了终极的结论。本文合适入门语音辨认范畴的读者相识序列模子的运用。

论文 4:Do NLP Models Know Numbers? Probing Numeracy in Embeddings

作者:Eric Wallace、Yizhong Wang、Sujian Li、Sameer Singh、Matt Gardner

论文链接:https://arxiv.org/pdf/1909.07940.pdf

择要:理解及处置惩罚数字(识数)的能力对于在许多繁杂的推理使命来讲至关主要。今朝,年夜大都天然语言处置惩罚模子处置惩罚文本中数字的方式与其他 token 同样,将这些数字作为漫衍式向量嵌入。这类处置惩罚要领足以捕获数字吗?于本文中,研究者起首研究了 DROP 数据集上 SOTA 问答模子的数字推理能力,发明该模子擅优点理需要数字推理的问题,也就是说它已经经可以或许捕获数字。为相识这类能力是怎样获取的,研究者于综合列表最年夜值(synthetic list maximum)、数字解码及 jiafa 使命上对于 token 嵌入要领(如 BERT、GloVe 等)举行测试。例如,GloVe 及 word2vec 可以正确编码多达 1000 个数字。字符级嵌入甚至越发正确,此中于所有预练习要领中,ELMo 的数字捕获能力最强盛,而利用字词单位的 BERT 模子正确性不如 ELMo。

yabo

研究者练习了一个 probing model,基在词嵌入对于 [-500, 500] 区间内随机 80% 的整数举行数字解码,如「71」 71.0。

保举:一直不知道词嵌入是怎么处置惩罚数字的?这篇论文利用因果推理使命还有原了数字字符于词嵌入模子中的被处置惩罚的要领,申明词嵌入对于在数字的处置惩罚一样可行,岂论是整数还有是浮点数。

论文 5:HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models

作者:Sharon Zhou、Mitchell L. Gordon、Ranjay Krishna、Austin Narcomey、Li Fei-Fei、Michael S. Bernstein

论文链接:https://arxiv.org/pdf/1904.01121.pdf

择要:天生模子凡是使用人工测评来权衡其输出成果的感知质量。主动器量是伴有噪声的间接代办署理,由于这些器量依托开导式或者预练习嵌入。但直到此刻,直接的人工测评计谋都是针对于特定范畴,既没有实现尺度化,也没有颠末验证。来自斯坦福年夜学的研究者们为天生及时性(generative realism)构建了一个通用的人工测评基准,将其定名为人眼感知评价(human eye perception evaluation,HYPE),具备如下特性:(1)基在感知的生理物理学研究,(2)对于统一模子随机采样输出的差别调集均体现出靠得住性,(3)可以或许分散模子机能,(4)节省成本及时间。此外,他们提出了两种变体:一种是于自顺应时间约束下丈量视觉感知,以确定模子输入显示为真及时的阈值;另外一种是成本较低的变体,其可以或许于无时间约束的环境下丈量真假图象上的报酬偏差率。经由过程利用 CelebA、FFHQ、CIFAR-10 及 ImageNet 四个数据集,研究者们缭绕有前提及无前提图象天生范畴的 6 种当前 SOTA 天生匹敌收集及 2 种采样要领对于 HYPE 举行测试,发明 HYPE 可以追踪模子之间的相对于改良,并经由过程自助采样法(bootstrp sampling)确定这些丈量成果是一致及可复现的。

保举:来自斯坦福年夜学研究者的这项结果为人眼评价天生模子效果提出了量化尺度,合适相干研究者参考这一评价系统。

论文 6:PSGAN: Pose-Robust Spatial-Aware GAN for Customizable Makeup Transfer

作者:Wentao Jiang、Si Liu、Chen Gao、Jie Cao、Ran He、Jiashi Feng、Shuicheng Yan

论文链接:https://arxiv.org/pdf/1909.06956.pdf

择要:于迁徙进修范畴,有一个使命名为妆容迁徙(makeup transfer),行将肆意参照图象上的妆容迁徙到不带妆容的源图象上。许多人像美化运用都需要这类技能。最近的一些妆容迁徙要领多数基在天生匹敌收集(GAN)。它们凡是采用 CycleGAN 的框架,并于两个数据集长进行练习,即无妆容图象及有妆容图象。可是,现有的要领存于一个局限性:只于正面人脸图象上体现优良,没有为处置惩罚源图象及参照图象之间的姿态及心情差异专门设计模块。别的,它们也不克不及于测试阶段直接用在部门妆容迁徙,由于它们没法以可感知空间的方式提取妆容特性。为了降服这些问题以更好地办事真实世界场景,颜水成团队提出了一种全新的姿态稳健型可感知空间式天生匹敌收集(PSGAN)。这类 PSGAN 重要分为三部门:妆容提炼收集(MDNet)、留意式妆容变形(AMM)模块及卸妆-再化妆收集(DRNet)。研究者认为,这三种新提出的模块能让 PSGAN 具有上述的完善妆容迁徙模子所应具有的能力。

yabo

PSGAN 的成果。该模子可以让用户节制所要迁徙的浓浅水平及图象区域。第一行左边是仅迁徙参照图象的部门妆容气势派头的成果,第二行左边则是差别浓浅水平的成果。此外,PSGAN 也能应答图象之间差别的姿态及心情,如图右边所示。

yabo

如图展示了 PSGAN 的框架,其可分为三部门:妆容提炼收集(MDNet)、留意式妆容变形(AMM)模块、卸妆-再化妆收集(DRNet)。

保举:颜水成团队的这篇论文是 GAN 的一种最新的运用,为咱们提供了一种迁徙化妆的要领。或许之后不再需要尝尝才知道化妆效果了,AI 一键天生,效果拔群。

论文 7:Speculative Beam Search for Simultaneous Translation

作者:Renjie Zheng、Mingbo Ma、Baigong Zheng、Liang Huang

论文地址:https://arxiv.org/pdf/1909.05421v1.pdf

择要:集束搜刮是全句翻译使命中广泛利用的技能,可是同声传译范畴依然有许多问题。这是由于输出的词老是需要等候语句竣事才能确定。尤其是近来提出的「wait-k」要领是一个简朴而有用的解决要领,于肇始等候后,于获得一个输入词的环境下确定一个输出词,可是如许会使患上集束搜刮变患上不成行。为相识决这一问题,研究者提出了一种名为「预测式集束搜刮」的算法,可以隐式地从方针语言模子中提早预测后几步的成果,用在得到更正确的成果。

保举:本文作者为baidu的黄亮等,于同声传译方面取患了新的进展。

yabo:颜水成、黄亮等新论文;目标检测最新SOTA;NLP全面综述


易优CMS 素材58 区块链是什么 微信小程序开发教程
地址:武汉东湖新技术开发区  电话:0898-08980898  QQ:3447249690
Copyright © 2012-2018 亚博|app下载官网 版权所有  ICP备案编号:鄂ICP备19002934号-1