PyTorch快餐教程2019 (1) - 从Transformer说起
深度学习已经从热门技能向必备技能方向发展。然而,技术发展的道路并不是直线上升的,并不是说掌握了全连接网络、卷积网络和循环神经网络就可以暂时休息了。至少如果想做自然语言处理的话并非如此。
2017年,Google Brain的Ashish Vaswani等人发表了《Attention is all you need》的论文,提出只用Attention机制,不用RNN也不用CNN,就可以做到在WMT 2014英译德上当时的BLEU最高分28.4.
RNN机器翻译简史
在Transformer模型被提出之前,机器翻译一直是以RNN为主。
使用的工具是著名的RNN的两个改进版,1997年提出的长短时记忆网络LSTM和2014年提出的门控循环单元GRU。这三种实现均在torch
继续阅读与本文标签相同的文章
-
阿里云原生数据库POLARDB当选世界互联网领先科技成果
2026-05-17栏目: 教程
-
阿里云服务器ECS + tomcat + 域名解析 部署web页面
2026-05-17栏目: 教程
-
为青年创业打开梦想之窗——中国“互联网+”大学生创新创业大赛五年综述
2026-05-17栏目: 教程
-
重磅 | 云原生数据库崛起,阿里云POLARDB当选世界互联网领先科技成果!
2026-05-17栏目: 教程
-
云栖大会SaaS加速器专场 | 宜搭PLUS发布:SaaS加速器面向ISV的技术红利
2026-05-17栏目: 教程
