神经网络之将二分类问题推广到多分类问题 - 代码天地

神经网络之将二分类问题推广到多分类问题

企业开发 2022-06-27 16:48:36 阅读次数: 0

本文已参与「新人创作礼」活动，一起开启掘金创作之路。

将神经网络应用到多类分类问题中时，输出层的形式不能用logistic函数（sigmoid激活函数），而应该推广到softmax函数。二分类问题与多分类问题的神经网络模型的最大区别就是输出层。因此下面重点讲解softmax函数的原理。

Softmax回归详解

在softmax回归中，我们解决的是多分类问题（相对于logistic回归解决的二分类问题），标记 $y$ 可以取 $k$ 个不同的值。对于训练集 $\{(x^{(1)},y^{(1)}),\cdots,(x^{(m)},y^{(m)})\}$ ，我们有 $y^{(j)}\in \{1,2,\cdots,k\}$ 。
对于给定的测试输入 $x$ ，我们想用假设函数针对每一个类别 $j$ 估算出概率值 $P(y=j|x)$ 。因此，我们的假设函数要输出一个 $k$ 维的向量（向量元素的和为1）来表示 $k$ 个估计的概率值。我们采用如下形式的假设函数 $h_{\theta}(x)$ ：

\begin{aligned} h_{\theta}(x^{(i)})&= \begin{bmatrix} P(y^{(i)}=1|x^{(i)};\theta) \\ P(y^{(i)}=2|x^{(i)};\theta) \\ \vdots \\ P(y^{(i)}=10|x^{(i)};\theta) \end{bmatrix} \\ &=\frac{1}{\sum_{j=1}^ke^{\theta_j^Tx^{(i)}}} \begin{bmatrix} e^{\theta_1^Tx^{(i)}} \\ e^{\theta_2^Tx^{(i)}} \\ \vdots \\ e^{\theta_k^Tx^{(i)}} \end{bmatrix} \\ \tag{1-1} \end{aligned}

假设输入向量 $x$ 的维数为 $n$ ，则参数 $\theta$ 是一个 $k\times (n+1)$ 的参数矩阵，之所以是 $n+1$ 是因为把截距项 $b$ 表示成了 $\theta_0\times x_0$ ，其中 $x_0=1$ 是一个人工辅助变量。利用极大似然估计的方法，可以得到每一类的后验概率表达式： $P(y^{(i)}|x^{(i)};\theta)=\prod_{j=1}^k\left\{\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^ke^{\theta_l^Tx^{(i)}}}\right\}^{1(y^{(i)}=j)} \tag{1-2}$
似然函数为：

\begin{aligned} L(\theta) &=P(\boldsymbol{Y}|\boldsymbol{X};\theta) \\ &=\prod_{i=1}^{m}P(y^{(i)}|x^{(i)};\theta) \\ &=\prod_{i=1}^{m}\prod_{j=1}^k\left\{\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^ke^{\theta_l^Tx^{(i)}}}\right\}^{1(y^{(i)}=j)}\\ \tag{1-3} \end{aligned}

对数似然函数为：

\begin{aligned} l(\theta) &=\log L(\theta) \\ &=\sum_{i=1}^{m}\sum_{j=1}^k1(y^{(i)}=j)\log{\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^ke^{\theta_l^Tx^{(i)}}}}\\ \tag{1-4} \end{aligned}

上面的 $(1-4)$ 就是loss function。 cost function为：

J(\theta)=-\frac{1}{m}\left[\sum_{i=1}^{m}\sum_{j=1}^k1(y^{(i)}=j)\log{\frac{e^{\theta_j^Tx^{(i)}}}{\sum_{l=1}^ke^{\theta_l^Tx^{(i)}}}}\right] \tag{1-5}

多分类问题的目标就是利用训练数据来训练模型参数 $\theta$ 使其能够最小化 $(1-5)$ 。 $(1-5)$ 是一个凸函数，可以利用梯度下降法得到全局最小值。

猜你喜欢

转载自juejin.im/post/7109102908678864904

神经网络之将二分类问题推广到多分类问题

二分类到多分类的推广

神经网络解决二分类问题

二分类器解决多分类问题

Tensorflow深度学习神经网络学习笔记（一）二分类与多分类网络

简单神经网络解决二分类问题示例（Tensorflow）

文本分类——怎么将二分类模型应用到多分类问题？

Keras学习之2：简单神经网络处理二分类问题（IMDB影评数据分类为例）

二分类神经网络

二分类单层神经网络

【机器学习】二分类神经网络

从二分类到多分类

二分类、多分类

简单神经网络解决二分类问题示例（Tensorflow）（自定义损失函数）

深度学习从零开始 —— 神经网络（四），二分类问题，IMDB数据集使用

SVM二分类和多分类问题的关键指标（二）

神经网络系列之五 -- 线性二分类的方法与原理

数学建模之Python-tensorflow神经网络实现二分类预测

24、二分类、多分类与多标签问题的区别

SVM二分类和多分类问题的关键指标

深度学习从零开始 —— 神经网络（四又二分之一），二分类问题，调参对比测试，自己探讨

minist图片多分类问题-单层神经网络

【问题2】：电影评论分类（二分类）-----使用 keras工具用两层神经网络进行预测分析

使用Fisher线性分类器实现人脸判别的二分类问题和多分类问题（Matlab）

以CNN（卷积神经网络）为例做情感分类（二分类）

第二周神经网络基础 2.1 二分分类

[DeeplearningAI笔记]卷积神经网络4.1-4.5 人脸识别/one-shot learning/Siamase网络/Triplet损失/将面部识别转化为二分类问题

神经网络基础——从二分分类和逻辑回归说起

吴恩达笔记——神经网络基础：二分分类

神经网络与深度学习学习笔记（一）：二分分类

今日推荐

deepseek热度已过？

MOOC习题:“GPS数据处理”题目个人解析(C语言)

DeepSeek接入微信公众号小白保姆教程

图+语义：RDF语义处理组件Neosemantics功能列表

大语言模型Prompt工程之使用GPT4生成图数据库Cypher

大语言模型Prompt工程之使用GPT3.5生成图数据库Cypher

GPT-3.5 生成 Fabric Cypher

生成 Cypher 能力：GPT3.5 VS ChatGLM

LangChain 2 ONgDB：大模型+知识图谱实现领域知识问答

生成 Cypher 能力：MOSS VS ChatGLM

Neo4j/ONgDB 图数据库快速处理 Excel 文件

LangChain-Agents 入门指南

周排行

blog公告

Lucene：基本增删改查（Java方式）

1、类库

android环信集成单聊功能

删除数据库表数据SQL语句

rhel6.3安装Percona XtraDB Cluster 5.7时错误的解决方法

天梯赛-堆栈（线段树）

ES6原生Class

20120607

张正友标定算法原理详解

每日归档

更多

2025-04-11(9561)

2025-04-10(1213)

2025-04-09(10354)

2025-04-08(12998)

2025-04-07(0)

2025-04-06(0)

2025-04-05(0)

2025-04-04(0)

2025-04-03(0)

2025-04-02(0)