机器学习的应用
- 图像识别
- 语音识别
- 医疗诊断
- 统计套利
- 关联学习
- 分类
- 预测
- 提取
- 回归
- 概率
图像识别
- 需要分类的对象是一个数字化的图像,其测量值可以描述每个像素的输出。
1.黑白图像:像素饱和度作为测量值。如果黑白图像有N×N个像素,则测量值数量为N²。
2.彩色图像:提供3个测量值,对应RGB的饱和度。对于N×N个像素的图像,测量只有3N²个。 - 面部检测(识别)
分类可能是存在或者或者不存在面部图案,或者将数据库中的每个人作为一个单独分类。 - 字符识别
将一段笔记分为较小的图像,每个包含单一字符。 - 工业元件识别
确定零件是否有缺陷,是否达到一定的标准。
语音识别
观测值可能是一组表示语音信号的数值,信号通常分为包含不同单词或者音素的“段”,在每一个分段中,语音信号可以多种方式表示。
信号可以由不同时间—频率带的强度或者能量表示。例如有些国家在战斗机上使用语音识别技术,并成功地将其应用于各个程序。如设置无线电频率、向自动驾驶提供命令、指定飞机的转向点和决定武器发射参数以及显示器的控制。
医疗诊断
- 在精确识别之后确定某种疾病是否存在。
- 在考虑之中的每种疾病是一个单独的分类,没有罹患任何疾病也是一个单独的分类。
- 机器学习可以通过分析患者数据改善医疗诊断的精度。
- 这一应用中测量值通常是医学检测的结果(血压,体温和各种血液检测),以及各种症状的出现/未出现/显著程度以及患者的基本信息(如年龄,性别,体重等)。在这些测量结果的基础上,医生确定影响该患者的疾病。
统计套利
- 一般是指短期、涉及大量证券的自动化交易策略。
- 根据多种证券的历史相关性、最近一段时间的价格变动和常规经济金融变量为一组证券设计交易算法,将这些作为观测值,预测可以转化为分类或者估算问题,使用预期回报的估算做出交易决策(买入、卖出等)。
关联学习
- 关联学习是扩展对产品之间各种联系的认识的过程,由机器进行的产品间的关系学习。
- 例如,经过对客户购买行为的分析,看上去毫不相干的产品可能展现出某种相互关联,就像沃尔玛超市的啤酒和尿布。
- 这体现了大数据的一个转变,考虑的不再是因果关系,而是相关关系。
- 我们在研究大量销售数据找出某种关联时可以开发一个规则,衍生出一个概率检验,从而学习某种条件概率,使用公式p(d/h),p是概率,d是根据h调整的产品,h是客户已经购买的一个或者一组产品。
分类
- 分类是根据个体特征(标识为自变量),将所研究群体中的每个个体纳入一组指定类别中的过程。
- 使用对象的观测值确定所属类别。例如银行的借贷和放贷问题。
- 将元素分类为不同类别的过程称为分类问题。将与元素有关的数据作为输入,而分类程序的任务是为输入指定一个类,然后生成输出。
预测
银行借贷中,预测还款风险成为一项重要的应用。
提取
信息提取(IE)是自动地从非结构化数据中提取结构化信息的过程,它产生的输出通常在关系数据库中维护。提取过程以一组文档为输入生成结构化数据,输出采用摘要形式,如Excel工作表和关系数据库中的表。
回归
使用一个模型表达各个参数之间的关系y=g(x)。
在函数需要优化的时候,我们可以在这些输入的一系列不同设置下获得观测值,从而找到所需的设置,拟合一个回归模型,然后继续修改输入以得到更好的模型,这一过程被称作响应面设计。
概率
在大部分应用中,对象的分类不是由特征向量的值唯一确定的。根据应用和特定的观测值,特征值可能充满噪声,即观测到的特征值可能有某种内在的不确定性或者随机性。