D2L-9-Recurrent Neural Networks 针对于有顺序的数据类型,我们需要设计特定模型。我们不仅仅可以接收一个序列作为输入,而是还可能期望继续猜测这个序列的后续。如果说卷积神经网络可以有效地处理空间信息, 那么本章的循环神经网络(recurrent neural network,RNN)则可以更好地处理序列信息。 循环神经网络通过引入状态变量存储过去的信息和当前的输入,从而可以确定当前的输出。 循环神经网络 (RNN) 是深度学习模型,通 2023-08-07 AI #研0自学
D2L-7-Modern Convolutional Neural Networks 网络包括:AlexNet、VGG、NiN、GoogLeNet、ResNet、DenseNet Pytorch手动计算维度太困难,英文版教材已经改为自动推导参数(Lazy)!!!可以看英文版的!!! 2023-08-06 AI #研0自学
D2L-6-Convolutional Neural Networks 图像数据的每个样本都由一个二维像素网格组成, 每个像素可能是一个或者多个数值,取决于是黑白还是彩色图像。 到目前为止,我们处理这类结构丰富的数据的方式还不够有效。 我们仅仅通过将图像数据展平成一维向量而忽略了每个图像的空间结构信息,再将数据送入一个全连接的多层感知机中。 因为这些网络特征元素的顺序是不变的,因此最优的结果是利用先验知识,即利用相近像素之间的相互关联性,从图像数据中学习得到有效的模型 2023-08-03 AI #研0自学
D2L-5-Deep Learning Computing 随着时间的推移,深度学习库已经演变成提供越来越粗糙的抽象。 就像半导体设计师从指定晶体管到逻辑电路再到编写代码一样, 神经网络研究人员已经从考虑单个人工神经元的行为转变为从层的角度构思网络, 通常在设计架构时考虑的是更粗糙的块(block)。本章中,我们将深入探索深度学习计算的关键组件, 即模型构建、参数访问与初始化、设计自定义层和块、将模型读写到磁盘, 以及利用GPU实现显著的加速。 2023-08-03 AI #研0自学
D2L-4-Multilayer Perceptrons 本章有很好的实践!!!最后一个大节,有精力请务必复现!!! 最简单的深度网络称为多层感知机。多层感知机由多层神经元组成, 每一层与它的上一层相连,从中接收输入; 同时每一层也与它的下一层相连,影响当前层的神经元。 当我们训练容量较大的模型时,我们面临着过拟合的风险。 因此,本章将从基本的概念介绍开始讲起,包括过拟合、欠拟合和模型选择。 为了解决这些问题,本章将介绍权重衰减和暂退法等正则化技术。 2023-07-30 AI #研0自学
D2L-3-Linear Neural Networks 本章我们将介绍神经网络的整个训练过程, 包括:定义简单的神经网络架构、数据处理、指定损失函数和如何训练模型。 为了更容易学习,我们将从经典算法————线性神经网络开始,介绍神经网络的基础知识。 经典统计学习技术中的线性回归和softmax回归可以视为线性神经网络, 这些知识将为本书其他部分中更复杂的技术奠定基础。 2023-07-25 AI #研0自学
D2L-2-Preliminaries 要学习深度学习,首先需要先掌握一些基本技能。 所有机器学习方法都涉及从数据中提取信息。 因此,我们先学习一些关于数据的实用技能,包括存储、操作和预处理数据。机器学习通常需要处理大型数据集。 线性代数为人们提供了一些用来处理表格数据的方法。 我们可以将某些数据集视为一个表,其中表的行对应样本,列对应属性。 深度学习是关于优化的学习。 对于一个带有参数的模型,我们想要找到其中能拟合数据的最好模型。 在 2023-07-23 AI #研0自学
D2L-1-Introduction 起因是研究生组内需要做一些大模型相关的工作,自己进行了一些AI相关的学习。主要采用的《动手学深度学习》,Dive Into Deep Learning,版本是第二版,所有的资源都在网上有。参考链接为:https://zh-v2.d2l.ai/index.html。后续博客,主要记录所有相关的代码和配置。为了运行大模型和AI相关的环境,笔者使用硬件设备的是win11的系统,配备有4090显卡和64G 2023-07-22 AI #研0自学