注意力机制
self attention,用来自动学习和计算输入数据对输出数据的贡献大小。简单来说就是对于模型的每一个输入项,可能是图片中的不同部分,或者是语句中的某个单词分配一个权重,这个权重的大小就代表了我们希望模型对该部分一个关注程度。这样一来,通过权重大小来模拟人在处理信息的注意力的侧重,有效的提高了模型的性能,并且一定程度上降低了计算量。注意力机制通常可分为三类:软注意(全局注意)、硬注意(局部注意)和自注意(内注意)。
- Soft/Global Attention(软注意机制):对每个输入项的分配的权重为0-1之间,也就是某些部分关注的多一点,某些部分关注的少一点,因为对大部分信息都有考虑,但考虑程度不一样,所以相对来说计算量比较大。
- Hard/Local Attention(硬注意机制):对每个输入项分配的权重非0即1,和软注意不同,硬注意机制只考虑那部分需要关注,哪部分不关注,也就是直接舍弃掉一些不相关项。优势在于可以减少一定的时间和计算成本,但有可能丢失掉一些本应该注意的信息。
- Self/Intra Attention(自注意力机制):对每个输入项分配的权重取决于输入项之间的相互作用,即通过输入项内部的"表决"来决定应该关注哪些输入项。和前两种相比,在处理很长的输入时,具有并行计算的优势。(词与词之间存在一定关系,语义上下文)
机器翻译(机器翻译是最能体现注意力机制特色的任务。用注意力机制的直接目的,就是为输入的各个维度打分,然后按照得分对特征加权,以突出重要特征对下游模型或模块的影响。人在翻译的时候,在决定目标文本的某个词语时,会基于原文本的句法和语义,以及已确定的目标文本片段,从大脑的词汇表中找一个候选词语集合,然后在候选集中选一个最佳词语。
早期在解决机器翻译这一类序列到序列(Sequence to Sequence)的问题时,通常采用的做法是利用一个编码器(Encoder)和一个解码器(Decoder)构建端到端的神经网络模型。在编码器和解码器之间增加一个注意力模块。
一般会采用”key-query-value”理论来描述注意力机制的机理
特征工程
毕设的注意力检测有借鉴之处:通过注意力水平的高低作为权重(注意力得分计算模块、注意力的聚焦模块),区分当前的眼电数据的重要程度,来增强对游戏控制的灵敏度