博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【Deep Learning】genCNN: A Convolutional Architecture for Word Sequence Prediction
阅读量:4699 次
发布时间:2019-06-09

本文共 614 字,大约阅读时间需要 2 分钟。

作者:Mingxuan Wang。李航,刘群

单位:华为、中科院
时间:2015
发表于:acl 2015
文章下载:

主要内容:

用deep learning设计了一种语言模型。可以依据之前“全部”的历史来预測当前词的条件概率。用语言模型迷惑度衡量、用机器翻译衡量,该模型都比baseline(5-gram、RNN、等)好

详细内容:

  1. 之前用deep learning在语言模型上的进展是:RNN和LSTM

    參考的工具包:
    RNN –
    LSTM –

  2. 本文作者的实现方式:

    (1)用alpha-cnn来模拟当前词比較近的历史,约之前30个词。用beta-cnn来递归的模拟全部之前的历史。beta-cnn的输出是其它beta-cnn以及alpha-cnn的输入。网络结构例如以下:
    (2)用了word2vec作为词语的输入,两层隐含层,用gate取代max pooling,最后输出层是softmax层
    (3)同标准cnn不同的是:标准cnn在局部共享权重,本文既有共享的权重,也有不共享的权重
    (4)训练方式是最大化训练语料中句子的概率

  3. 实验结果(困惑度)

    5-gram KN smoothing: 270
    RNN:223
    LSTM:206
    本文方法:180

另外,训练时间比較长,1M句子,用了GPU还训练了2天。

转载于:https://www.cnblogs.com/mengfanrong/p/5207728.html

你可能感兴趣的文章
Stanford Local Programming Contest 2011
查看>>
Sql server锁,独占锁,共享锁,更新锁,乐观锁,悲观锁
查看>>
关于javascript dom扩展:Selector API
查看>>
多线程中,NSOperationQueue和GCD的区别
查看>>
python生成.exe文件
查看>>
STM32,你了解多少?(转载)
查看>>
用anaconda保证64位和32位的python共存
查看>>
cPanel设置自定义404错误页
查看>>
16.垃圾最小化
查看>>
ROS time stamp and sync
查看>>
将 Shiro 作为应用的权限基础 三:基于注解实现的授权认证过程
查看>>
遍历聚合对象中的元素——迭代器模式(四)
查看>>
Ehab and subtraction(思维题)
查看>>
Codeforces Round 56-C. Mishka and the Last Exam(思维+贪心)
查看>>
统计汉字
查看>>
使用JavaScript重定向URL参数
查看>>
Tomcat系列(5)——Tomcat配置详细部分
查看>>
python生成器
查看>>
Mybatis 面试题
查看>>
Oracle入门《Oracle介绍》第一章1-4 Oracle 用户管理
查看>>