自己动手写一个简单的神经网络框架(2)

企业开发 2022-06-22 01:08:57 阅读次数: 0

持续创作，加速成长！这是我参与「掘金日新计划 · 6 月更文挑战」的第28天，点击查看活动详情

l1 = np.zeros((784,128),dtype=np.float32)
l2 = np.zeros((128,10),dtype=np.float32)
复制代码

这里注意一下默认情况下，numpy 创建一个数组类型为 np.float64 所以需要手动指定一下类型为 np.float32,然后

l1[:] = model.l1.weight.detach().numpy().transpose()
l2[:] = model.l2.weight.detach().numpy().transpose()
复制代码

用 numpy 实现前向传播

def forward(x):
  x = x.dot(l1)
  x = np.maximum(x,0)
  x = x.dot(l2)
  return x

y_test_pred = np.argmax(forward(X_test.reshape((-1,28*28))),axis=1)
(y_test_pred==Y_test).mean()
复制代码

使用 numpy 进行训练

首先我们实现一下交叉熵

y_test_pred_out[sample,Y_test[sample]]
复制代码

-x[class] + \log(\sum_j \exp(x[j]))

sample = 1
-Y_test_pred_out[sample,Y_test[sample]] + np.log(np.exp(Y_test_pred_out[sample]).sum())
复制代码

这里要做就是我们计算所有样本交叉熵损失函数

ret = -Y_test_pred_out[range(Y_test_pred_out.shape[0]),Y_test] + np.log(np.exp(Y_test_pred_out[sample]).sum())
复制代码

imshow(X_test[np.argmax(ret)])
复制代码

不难看出这个就是模型给出判断误差最大的一张图像，的确不好分辨，即使对于我们人类来说也是一张比较难于分辨的图像。

sorted(list(zip(ret,range(ret.shape[0]))),reverse=True)
复制代码

grid = sorted(list(zip(ret,range(ret.shape[0]))),reverse=True)[0:16]
hard_classification_img = X_test[[x[1] for x in grid]]
#hard_classification_img.reshape(4,28*4,28).shape
hard_classification_img.shape
imshow(np.concatenate(hard_classification_img.reshape((4,28*4,28)),axis=1))
复制代码

首先grid是一个 list 其中每一个元素是一个 tuple 类型，例如 (30.342394, 2607), 其中一个值 loss 值，另一个对应图像需要，我们需要根据图像需要拿到对应的图像，hard_classification_img 的 shape 为 $(16 \times 28 \times 28)$

np.concatenate(hard_classification_img.reshape((4,28*4,28)),axis=1)
复制代码

关键是看代码是怎么把 16 个 $28 \times 28$ 图像拼接为 $4 \times 4$ 排列图像

写一个训练过程

out = model(torch.tensor(X_test[0:1].reshape((-1,28*28))).float())
loss = loss_fun(out,torch.tensor(Y_test[0:1]).long())
loss.backward()
复制代码

从测试集中拿到样本输入到模型中，模型给出预测结果，再将预测结果和标签输入 loss 函数，然后对 loss 进行反向传播回传梯度，用梯度来更新模型参数

model.zero_grad()
out = model(torch.tensor(X_test[0:1].reshape((-1,28*28))).float())
loss = loss_fun(out,torch.tensor(Y_test[0:1]).long())
loss.backward()
figsize(16,16)
imshow(model.l1.weight.grad)
复制代码

将梯度以图像形式输出便于观察，从图上来看大部分梯度都是 0。

figure()
imshow(model.l2.weight.grad)
复制代码

model.zero_grad()
out = model(torch.tensor(X_test[0:1].reshape((-1,28*28))).float())
loss = loss_fun(out,torch.tensor(Y_test[0:1]).long())
print(loss)
loss.retain_grad()
loss.backward()
figsize(16,16)
imshow(model.l1.weight.grad)
figure()
imshow(model.l2.weight.grad)
复制代码

这里retain_grad() 可以保留非叶子结点以外中间结点的梯度，默认情况下为了节省内存空间是不会保留中间结点非叶子结点的梯度的。

#理解梯度下降
model.zero_grad()
out = model(torch.tensor(X_test[0:1].reshape((-1,28*28))).float())
out.retain_grad()
loss = loss_fun(out,torch.tensor(Y_test[0:1]).long())
# print(loss)
loss.retain_grad()
loss.backward()
figsize(16,16)
imshow(model.l1.weight.grad)
figure()
imshow(model.l2.weight.grad)

out.grad,loss.grad
复制代码

输出 out 和 loss 的梯度，retain_grad 表示中间变量

(tensor([[ 8.8083e-11, 7.9277e-13, 4.0970e-04, 4.5061e-05, 1.6520e-12, 4.4796e-08, 9.0004e-15, -4.5484e-04, 1.1185e-10, 3.0328e-08]]), tensor(1.))
复制代码

...
loss_fun = nn.CrossEntropyLoss(reduction='none')
...

for i in tbar:
...

  loss = loss_fun(out,Y)
  print(loss.shape)
  # print(loss.mean())
  loss = loss.mean()
  loss.backward()
  optim.step()
  # print(loss)
复制代码

这里将 reduction 设置为 none 在每次迭代时，不会对 loss 进行求均值或者求和，所以需要手动loss.mean() 进行求均值。

将 CrossEntropyLoss 拆分为 LogSoftmax 和 NLLLoss。

class ANet(torch.nn.Module):
  def __init__(self):
    ...
    self.sm = nn.LogSoftmax(dim=1)
  def forward(self,x):
    ...
    x = self.sm(x)

    return x

model = ANet()
复制代码

loss_fun = nn.NLLLoss(reduction='none')
复制代码

猜你喜欢

转载自juejin.im/post/7111630920683094046

自己动手写一个简单的神经网络框架(2)

自己动手写一个简单的神经网络框架(1)

自己动手写一个神经网络

动手写一个深度学习框架(1) 用 pytorch 搭建神经网络

自己动手写一个简单的RPC框架其实很简单！

记一次自己动手实现一个简单神经网络

动手实现一个简单神经网络

《Python神经网络编程》自己动手编写一个神经网络

PHP MVC框架基础小白（自己动手写一个PHP框架示例）

源码分析之动手实现手写一个自己的SpringMVC框架（三）

【自己动手写神经网络】小白入门连载（三）--神经元的感知

自己动手写chatGPT:神经网络的神经元和损失函数

花了快2个月！自己动手写了一个简单的RPC框架！

神经网络和深度学习（二）——一个简单的手写数字分类网络

自己动手写一个单链表

自己动手写一个ioc容器

[自己造轮子] 动手写一个 SpringMVC 框架

自己动手写一个QQ空间网络爬虫--qqzoneSpider

自己动手实现一个神经网络多分类器

一、简单的神经网络识别手写数字

Python全栈--Day60 动手写一个简单的Web框架

动手写一个简单的Web框架（HelloWorld的实现）

动手写一个简单的Web框架（Werkzeug路由问题）

【深度学习】卷积神经网络CNN——手写一个卷积神经网络

从头用 numpy 来写一个识别 MNIST 手写数据的神经网络

动手创建一个简单的神经网络(MNIST)

ASP.MVC学习资源总结自己动手写一个简单的MVC框架（第一版）

自己手写一个SpringMVC框架

自己手写一个SpringMVC框架(简化)

自己手写一个Mybatis框架(简化)

今日推荐

Electron中的关于静态资源加载问题解决方案

《Cursor-AI编程》基础篇-界面指南

《Cursor-AI编程》基础篇-Tab代码智能补充

《Cursor-AI编程》基础篇-Composer功能详解

《Cursor-AI编程》基础篇-Chat功能详解

《Cursor-AI编程》进阶篇-自定义模型

《Cursor-AI编程》进阶篇-上下文详解

【大模型系列篇】最强检索增强技术GraphRAG基本原理详解

【大模型系列篇】基于Ollama和GraphRAG v2.0.0快速构建知识图谱

解释什么是迁移学习？在 CNN 中如何应用？（面试题200合集，高频、关键）

解释数据增强（Data Augmentation）的概念和方法（（面试题200合集，高频、关键））

揭秘大模型“魔法”：Function Calling 让 AI 不止会说，更能“做”！

周排行

ConfigurationClassParser类的parse方法源码解析

基础大讲堂-java 位运算符

ConsecutiveInteger判断给定的整数n能否表示成连续的m(m>1)个正整数之和

多项式问题之六——多项式快速幂

Spring Security技术栈开发企业级认证与授权（四）RESTful API服务异常处理

Linux基础命令---apachectl

MATLAB中的线性插值

Unity编辑器拓展之十七：NGUI ComponentSelector增加搜索框

SqlServer 备份还原教程

[Unity动画]01.

每日归档

2025-04-12(10529)

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)