李宏毅机器学习2023年——快速入门机器学习,学习笔记

机器学习任务大致分为3类:

回归分类生成式学习

这三类任务的区别在于它们的输出类型和目标不同。

一、回归任务的输出是一个数值,例如预测房价、股票走势或测试成绩等。

回归任务的目标是找到一个函数,能够最小化预测值和真实值之间的误差

二、分类任务的输出是一种类别,例如判断邮件是否为垃圾邮件、识别人脸或手写字符等。

分类任务的目标是找到一个函数,能够最大化预测类别和真实类别之间的一致性

三、生成式学习任务的输出是一个新的数据样本,例如生成语音、影像或文本等。生成式学习任务的目标是找到一个函数,能够最大化输出样本和输入样本之间的相似度,同时保持输出样本的多样性和新颖性。

那么ChatGPT属于其中的哪一种呢?

ChatGPT是一个基于深度神经网络的生成式学习模型,它可以根据给定的上下文生成自然语言对话。它是把生成式学习拆解成多个分类问题,即每次生成一个单词或符号,而不是一次生成整个句子或段落。这样做的好处是可以利用已有的分类算法和损失函数进行训练和评估,也可以方便地控制生成过程中的条件和约束。

如何找到真正能用的函数—— f

无论是回归、分类还是生成式学习,我们都需要找出一个合适的函数来拟合数据集。这个过程通常包括以下三个步骤:

一、设定范围:确定候选函数的集合,也就是模型的结构或形式。例如,我们可以选择使用线性模型、决策树模型或神经网络模型等。这个范围应该根据数据集的特点和问题的复杂度来选择,既不能过于简单导致欠拟合,也不能过于复杂导致过拟合。

二、设定标准:确定评估函数好坏的标准,也就是损失函数或目标函数。例如,我们可以使用均方误差、交叉熵或对数似然等。这个标准应该根据任务的目标和输出类型来选择,既要能够反映预测值和真实值之间的差距,也要能够方便地进行优化。

三、达成目标:找出最好的函数,也就是使损失函数最小或目标函数最大的参数值。例如,我们可以使用梯度下降、牛顿法或随机搜索等。这个过程应该根据模型的复杂度和数据集的规模来选择,既要能够快速收敛到最优解,也要能够避免陷入局部最优或过拟合。

在进行机器学习任务之前,一个重要的前置任务就是决定要找什么样的函数,也就是要做什么。这需要对问题进行充分地分析和理解,明确问题的背景、目标、约束和评价指标等。

训练资料的多少对于 模型选择范围的设定 很重要

训练资料的数量和质量对于找出函数的过程是非常重要的。一般来说,训练资料越多越好,因为这样可以提供更多的信息和约束,帮助模型学习到更一般化和鲁棒的函数。但是,训练资料也不能太多,否则会导致计算成本过高,甚至可能出现冗余或噪声的数据。因此,我们需要根据训练资料的数量和质量来调整模型的范围和复杂度。

训练资料,对应的设定范围也要避免把“只会记忆的函数”划进来——避免过拟合。这意味着我们应该选择一些简单而有效的模型,比如线性模型或浅层神经网络等。这样可以减少模型的参数数量,降低过拟合的风险,提高模型的泛化能力。

训练资料,对应的设定范围可以大一些。这意味着我们可以选择一些复杂而强大的模型,比如深层神经网络或集成学习等。这样可以增加模型的参数数量,提高拟合能力,捕捉数据中更复杂和隐含的规律。

以AI生成语音为例,它是一个典型的生成式学习任务,它可以根据特定的要求生成语音。它不仅需要考虑如何生成语音的内容和语义,还需要考虑语音的语气、语调、节奏和情感等。因此,语音生成是一个非常有挑战性和价值的任务。

生成语音的策略有两种:(根据李宏毅老师的比喻)

一种是各个击破,也就是一个一个地生成文字或音素,每个文字都要等前一个生成完毕才能生成。这种策略相对比较慢,但是生成语音的连贯性和准确性更有保证。

另一种是一次到位,也就是一次生成整个句子或段落。这种策略相对比较快,但是机器需要提前知道每次应该生成"多长"的段落。

预设段落长度————可以通过以下两种方法实现:

一种是永远固定长度,看到结束符后面的语音全部丢掉。这种方法简单易行,但是会造成资源浪费语音截断

另一种是先让机器生成一个数值,代表预设长度;然后按照这个长度一次性生成一段语音。这种方法更灵活高效,但是需要机器能够预测长度,并且保证长度与内容相匹配。

:影像生成也是典型的一个生成式学习任务,它可以根据给定的影像或文字生成相应的影像。它不仅需要考虑影像的内容和风格,还需要考虑影像的清晰度、逼真度和多样性等。因此,它也是一个非常有挑战性和价值的任务。

影像生成不能采用各个击破的策略,因为这样太慢,并且很难保证影像的整体协调性。只能采用一次到位的策略,即一次生成整个影像。这需要机器能够处理高维度和复杂度的数据,并且能够平衡全局和局部的信息。

对比生成的质量:各个击破VS一次到位

 

生成的质量可以从多个方面来评价,例如准确性、流畅性、一致性、多样性和新颖性等。不同的生成任务和场景可能有不同的评价标准和指标。一般来说,各个击破的策略在准确性、流畅性和一致性方面更好,因为它可以逐步调整和修正生成的结果,避免出现错误或不协调的情况。一次到位的策略在多样性和新颖性方面更好,因为它可以一次生成完整的结果,避免受到前面生成的结果的限制或影响。

那么,如何将两种方式取长补短?

为了兼顾生成的质量和效率,我们可以尝试结合各个击破和一次到位的策略,即:

先使用一次到位的策略生成一个初步的结果,
然后使用各个击破的策略对其进行优化和改进。

这样可以利用一次到位的策略快速生成一个大致的框架,然后利用各个击破的策略细化和完善其中的细节。这种方法类似于人类在写作或绘画时的过程,即先草拟一个大纲或草图,然后逐渐修改和润色。

一个具体的例子是diffusion model,它是一种用于影像生成的模型,它可以将影像生成看作是一个逆向扩散过程,即从一个随机噪声开始,逐步恢复出原始影像。它可以看作是连续多次的一次到位工作,即每次都生成整个影像,但是每次都比上一次更接近原始影像。这样可以保证生成影像的整体协调性和多样性,并且可以通过控制扩散过程中的噪声水平来调节生成影像的清晰度和逼真度。

总结

本文介绍了机器学习任务中常见的三种类型:回归、分类和生成式学习,并且以ChatGPT和AI生成语音为例,分析了不同类型任务的输出类型、目标、方法和评价指标等。

本文还介绍了找出函数的三个步骤:设定范围、设定标准和达成目标,并且讨论了训练资料数量对于模型选择的影响。

最后,本文探讨了两种生成策略:各个击破和一次到位,并且提出了一种取长补短的方法:先一次到位后各个击破,并且以diffusion model为例进行了说明。

猜你喜欢

转载自blog.csdn.net/fantastick99/article/details/129840256