logo头像

猪老大要进步!

LSTM网络笔记

本文于 576 天之前发表,文中内容可能已经过时。

$LSTM$全称是$Long-Short Term Memory$,中文是“长短期记忆神经网络”。$LSTM$是$RNN$的一个变种,传统的$RNN$虽然有网络的中间值在按照时间序列传递,但是只拥有短期记忆,$LSTM$在传统$RNN$的基础上补上了长期记忆。

RNN

特征

$LSTM$中有两个重要概念: $hidden state$ & $cell state$: 实际上$hidden state$里存储的,主要是“近期记忆”;$cell state$里存储的,主要是“远期记忆”。$cell state$的存在,使得$LSTM$得以对长依赖进行很好地刻画[1]。

[2]中详细描述了$LSTM$的结构。如图,$LSTM$先对输入进行$sigmoid$映射后,对之前传来的$cell$信息进行点乘(可以理解为$and$),这一步对之前的$cell$信息进行了部分遗忘。对$Input$信息进行非线性处理之后与$cell$信息相加,继续更新$cell$值,然而实际上的$Output$是$Input$经过了一个$sigmoid$函数的映射,并和更新后的$cell state$的数据相乘的结果。[2]的PDF版本获取:colah.github.io-2015-08-Understanding-LSTMs.pdf

LSTM-Chain

下面为[3]中附带的视频,纯英文无字幕,对应网站原文阅读体验更佳,原文PDF获取:Illustrated Guide to LSTM’s and GRU’s.pdf

应用

举个栗子,在论文”Neural State Machine for Character-Scene Interactions”中,构造了一种LSTM网络对游戏角色的动作进行捕获和预测,论文获取:https://github.com/sebastianstarke/AI...

演示视频搬运自Youtube

参考链接

  1. https://zhuanlan.zhihu.com/p/115026734
  2. http://colah.github.io/posts/2015-08-Understanding-LSTMs/
  3. https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21
  4. https://zhuanlan.zhihu.com/p/32085405
  5. https://blog.csdn.net/PKU_Jade/article/details/70195892
支付宝打赏 微信打赏

赞赏是不耍流氓的鼓励