之前初学的时候看过一部分,现在再系统学习下
0、安装
conda create --name d2l python=3.8 -y
conda activate d2l
pip install torch==1.11.0
pip install torchvision==0.12.0
pip install d2l==0.17.5
mkdir d2l-zh && cd d2l-zh
curl https://zh-v2.d2l.ai/d2l-zh-2.0.0.zip -o d2l-zh.zip
unzip d2l-zh.zip && rm d2l-zh.zip
cd pytorch
jupyter notebook
1、前言
机器学习组成,数据、模型、目标函数、优化方法
-
监督学习(supervised learning),回归(regression)、分类(classification)、序列
-
无监督学习(unsupervised learning),聚类(clustering)、主成分分析(principal component analysis)、因果关系(causality)和概率图模型(probabilistic graphical models)、生成对抗性网络(generative adversarial networks)
-
强化学习(reinforcement learning)
2、预备知识
数据操作:运算符、广播机制、索引和切片(Python)
线性代数、微积分、概率论
3、线性神经网络
线性回归(回归问题)、softmax 回归(分类问题)
softmax 函数能够将未规范化的预测变换为非负数并且总和为1,同时让模型保持可导的性质。
4、多层感知机
多层感知机:从线性到非线性,隐藏层、激活函数
前向传播、反向传播,欠拟合、过拟合,梯度小时、梯度爆炸
权重衰减?https://zh-v2.d2l.ai/chapter_multilayer-perceptrons/weight-decay.html
暂退法(dropout)https://zh-v2.d2l.ai/chapter_multilayer-perceptrons/dropout.html
5、深度学习计算
6、卷积神经网络
卷积神经网络(convolutional neural network,CNN)
-
卷积层,填充和步幅
-
汇聚/池化层(pooling layer):降低卷积层对位置的敏感性,同时降低对空间降采样表示的敏感性。
-
全连接层(fully-connected layer),分类输出
卷积神经网络(LeNet)
7、现代卷积神经网络
- 深度卷积神经网络(AlexNet)。它是第一个在大规模视觉竞赛中击败传统计算机视觉模型的大型神经网络;
- 使用重复块的网络(VGG)。它利用许多重复的神经网络块;
- 网络中的网络(NiN)。它重复使用由卷积层和1×1卷积层(用来代替全连接层)来构建深层网络;
- 含并行连结的网络(GoogLeNet)。它使用并行连结的网络,通过不同窗口大小的卷积层和最大汇聚层来并行抽取信息;
- 残差网络(ResNet)。它通过残差块构建跨层的数据通道,是计算机视觉中最流行的体系架构;
- 稠密连接网络(DenseNet)。它的计算成本很高,但给我们带来了更好的效果。
残差网络的核心思想是:每个附加层都应该更容易地包含原始函数作为其元素之一。
8、循环神经网络
循环神经网络(recurrent neural network,RNN)
序列模型:自回归模型(autoregressive models)、隐变量自回归模型(latent autoregressive models)
9、现代循环神经网络
门控循环单元(gated recurrent units,GRU)和 长短期记忆网络(long short-term memory,LSTM)
深度循环神经网络、双向循环神经网络
10、注意力机制
注意力汇聚,Nadaraya-Watson 核回归模型;注意力评分函数(attention scoring function)
平均汇聚、非参数注意力汇聚、带参数注意力汇聚
Bahdanau 注意力模型,多头注意力(multihead attention)
自注意力和位置编码;自注意力同时具有并行计算和最短的最大路径长度这两个优势。
Transformer:https://zh-v2.d2l.ai/chapter_attention-mechanisms/transformer.html
11、优化算法
优化挑战:局部最小点、鞍点、梯度消失
凸性(convexity)?
梯度下降;随机梯度下降(stochastic gradient descent,SGD)、小批量随机梯度下降(minibatch gradient descent)、动量法(momentum)、AdaGrad算法、RMSProp算法、Adam算法
学习率调度器
12、计算性能
13、计算机视觉
泛化能力:图像增广、迁移学习的微调(fine-tuning)
目标检测,边界框、锚框、多尺度;SSD、R-CNN
语义分割,转置卷积,全卷积网络
风格迁移
14、自然语言处理:预训练
15、自然语言处理:应用
评论 (0)