Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了！

凡是搞计量经济的，都关注这个号了

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

关于机器学习在计量分析中的应用，各位学者可以参阅如下文章：1.Python中的计量回归模块及所有模块概览，2.空间计量软件代码资源集锦(Matlab/R/Python/SAS/Stata), 不再因空间效应而感到孤独，3.回归、分类与聚类：三大方向剖解机器学习算法的优缺点（附Python和R实现），4.机器学习第一书, 数据挖掘, 推理和预测，5.从线性回归到机器学习, 一张图帮你文献综述，6.11种与机器学习相关的多元变量分析方法汇总，7.机器学习和大数据计量经济学, 你必须阅读一下这篇，8.机器学习与Econometrics的书籍推荐, 值得拥有的经典，9.机器学习在微观计量的应用最新趋势: 大数据和因果推断，10.机器学习在微观计量的应用最新趋势: 回归模型，11.机器学习对计量经济学的影响, AEA年会独家报道，12.机器学习，可异于数理统计，13.Python, Stata, R软件史上最全快捷键合辑！,14.Python与Stata, R, SAS, SQL在数据处理上的比较, 含code及细致讲解，15.Python做因果推断的方法示例, 解读与code，16.文本分析的步骤, 工具, 途径和可视化如何做？17.文本大数据分析在经济学和金融学中的应用, 最全文献综述，18.文本函数和正则表达式, 文本分析事无巨细。

前面，我们引荐了1.“机器学习方法出现在AER, JPE, QJE等顶刊上了！”，2.前沿: 机器学习在金融和能源经济领域的应用分类总结，3.Lasso, 岭回归, 弹性网估计在软件中的实现流程和示例解读”，4.回归方法深度剖析(OLS, RIDGE, ENET, LASSO, SCAD, MCP, QR），5.高维回归方法: Ridge, Lasso, Elastic Net用了吗，6.Lasso回归操作指南, 数据, 程序和解读都有，7.七种常用回归技术，如何正确选择回归模型？，8.共线性、过度/不能识别问题的Solutions，9.计量经济学与实验经济学的若干新近发展及展望，10.计量经济学新进展，供参考，11.最全: 深度学习在经济金融管理领域的应用现状汇总与前沿瞻望等，在学术同行间引起巨大反响。

机器学习方法逐渐在经济管理等社科类顶刊，如AER，JPE，QJE，JOF等期刊上出现了。为了进一步了解机器学习在国外最新应用动向，我们为各位学者奉上“农业和应用经济学中的机器学习”。对机器学习方法感兴趣的学者，建议认真研读这篇非常重要、全面的文章。br/>**正文**
关于下方文字内容，作者：王乐，东北财经大学金融学院，通信邮箱：[email protected]
《农业和应用经济学中的机器学习》
Machine learning in agricultural and applied economics, European Review of Agricultural Economics
这篇文章从应用经济学的角度介绍了机器学习方法。作者首先介绍了与经济学实践相关的主要计量经济学方法。然后，确定了当前计量经济学和模拟模型工具箱在应用经济学方面的局限性，并探索了机器学习法提供的潜在解决方案。在预测和因果分析中，深入研究了不灵活的函数形式、非结构化数据源和大量解释性变量等情况，并强调了复杂模拟模型的挑战。最后，作者认为，当用于定量经济分析时，经济学家在解决机器学习法的缺点方面有着至关重要的作用。
Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了！
一、引言
（一）什么是ML？
机器学习(ML)、人工智能（AI）和深度学习(DL)经常互换使用。ML是AI的一部分，而AI又是计算机科学的一门学科。DL是机器学习ML的一个特定子集，它使用分层方法，每一步都将前一步的信息转换成更复杂的数据表示。
（二）为什么要把机器学习引入农业和应用经济学？
1.在许多不同领域，包括农业、环境和发展领域，数据的可获得性都有了显著提高。除了帮助处理来自这些新来源的数据，ML方法比传统的统计方法更能有效地利用大量数据。
2.自21世纪初以来，多处理器图形卡(Multi-Processor Graphic Cards) ,或称图形处理单元（Graphic Processing Unit，GPU）的使用极大地加速了计算机学习，许多机器学习方法可以并行化并利用图形处理器的潜力。
3.机器学习研究团体正在迅速开发用户应用这些方法所需的工具。研究人员已经开发并改进了能够突破ML/DL边界的算法。这个团体有着强大的开源传统，包括强大的DL库 (如tensorflow.org、pytorch.org)和预处理模型(如VVGNet、ResNet)，增加了采用的可能性。
4.最后，经济学家已经开始意识到，机器学习的预测能力不仅可以如此使用，而且还可以改善因果识别(Athey，2019)。
（三）机器学习如何有助于农业和应用经济学？
传统经济学模型通常包含很少的关于函数形式的先验信息，在不同的观察单元之间有很大的潜在异质性，并且经常有多个输出。例如，一个人想要估计化肥对农作物产量的影响。产量由土壤质量、天气、投放、投放时机和其他管理选择的复杂组合决定，充满非线性和相互作用。虽然传统方法允许我们处理这些问题，但是机器学习方法增加了数据和函数形式的灵活性，以及处理效率，开辟了其他分析途径。
（四）本文创新处
1.已有文献还没有关于机器学习在农业和应用经济学分析中的现有和潜在应用的概述。而机器学习方法对上述领域有着特别的前景，因为它们与复杂的生物或物理过程有着频繁的联系，使用了非传统的数据源，并且经常使用模拟方法。
2.本文从标准的计量经济学和模拟工具的角度来帮助对于机器学习的理解和应用。本文强调了ML工具如何填补我们现有方法工具箱中的空白，重点是它们能解决哪些长期存在的挑战。作者特别强调神经网络NN，因为尽管神经网络在捕捉复杂的空间和时间关系方面具有巨大的潜力，但它们在经济分析中仍未得到广泛应用。
3.回顾了机器学习在政策模拟中的应用，它还没有被广泛覆盖。
二、应用计量经济学视角下的机器学习
（一）与计量经济学的区别
1.目标：
（1）计量经济学：目的是获得边际效应的可靠估计，如获得系数的无偏/一致估计。
（2）机器学习：目的是获得准确的预测，当涉及偏差、方差或均方误差(MSE)时，它们是根据预测来定义的。就预测而言一个在预测方面是无偏的模型不一定在系数方面是无偏的。
2.不确定性估计量
（1）计量经济学：能够得出估计系数的不确定性估计量，因此可以将估计量用于假设检验。
（2）机器学习：通常不能获得不确定性估计量，这是该方法的一个实质性限制，也是一个活跃的研究领域。
（二）机器学习方法
1.训练集-验证集-测试集（Training Set-Validation Set-Test Set）方法—避免过度拟合
在传统的计量经济学中，我们关心的是“足够”的自由度，更多的自由度可以减少任何单一估计系数的标准误差。这种方法限制了协变量的数量(给定一个有限的“N”)，从而限制了模型的灵活性。而机器学习通常包含大量参数和潜在的负自由度，因此避免了过度拟合。
机器学习方法将可用的数据集分成训练集（Training Set）、验证集（Validation Set）和测试集（Test Set）：训练集用于估计模型；验证集(也称为开发或保持集， Development or Hold-Out Set)用于监控样本外预测误差，然后选择验证集中样本外预测误差最小的模型；测试集最终用于评估所选模型的样本外预测误差，既不能用于训练也不能用于模型选择。
当数据集较大时，训练/验证/测试方法可以很容易地应用。而当数据集较小时，训练/验证/测试分割方法的一个常见变化是k-fold交叉验证。即将样本分成k个部分，每个部分有相同数量的观察值。然后估计我们选择的模型k倍；每次使用除了遗漏的k部分外的所有数据。这个遗漏部分然后被用于得出样本外预测误差。通过对k个估计量的样本外预测误差进行平均，我们获得了样本外预测误差期望值的估计。
2.监督方法
（1）特征缩减方法（Shrinkage Methods）
诸如岭回归或lasso之类的特征缩减方法是把线性回归模型根据系数的大小上增加一个惩罚项，将系数推向零。它们可用于预测连续结果或分类，并可有效地用于具有大量解释变量的数据集。对于偏离零的系数，变量必须对预测能力有很大贡献。缩减或正则化的程度可以调整，其中最佳水平通常使用交叉验证来确定。
（2）树状模型方法（Tree-Based Methods）
①决策树
决策树可以用于分类和回归，这种方法使用线性分割来划分特征空间(即解释变量所跨越的空间)，以最大化每个分割所创建的分割内的同质性，顺序分割的结尾称为“叶”。一旦树“生长”，人们可以用它来预测一个结果，基于观察的协变量落在每个连续分裂的哪一侧，即它填充哪片“叶子”。树的深度描述了分割或节点的数量。每个分割都是根据其对损失函数的贡献顺序选择的。
优点：容易解释，并且非常适合捕捉高度非线性的关系。
缺点：可能不稳定并且容易过度拟合，数据的微小变化会导致分裂的实质性变化。在捕捉真正的线性或光滑函数方面受到限制，因为根据构造，得到的模型是阶跃函数（Step Function）。然而，有了足够的数据，他们可以任意很好地逼近任何线性或光滑函数。
②集成方法——提高预测精度、减少方差
A.随机森林：对许多生长在随机观测子样本和变量子集上的深树的结果进行平均。随机森林可以被认为与具有自适应加权的kNN方法相关，其中样本外观测的预测结果由其特征的加权定义的邻域给出。
B.梯度增强树（Gradient boosted trees）是由通过在残差上重复拟合浅树而训练的树的总和组成的加性模型。给定它们的加法结构，与传统计量经济学中的广义相加模型(Generalised Additive Models,GAMs)密切相关。然而，当使用大量的解释变量时，GAMs的估计不如梯度提升有效。
这些方法可以检测高度非线性关系、处理定量和分类数据、处理高度非正常数据或异常值、提供缺失数据、提供不相关变量的算法处理，因此需要相对较少的输入数据预处理和相对较少的训练期间调整的优势。此外，它们还提供了每个解释变量重要性的排名。
（3）神经网络（Neural Networks）
①卷积神经网络(Convolutional Neural Networks ，CNN)
适合处理类似网格的数据，如1D时间序列数据或2D图像数据。CNN至少在一层中使用卷积算子，这就是所谓的卷积层。在完全连接(密集)的神经网络中，隐藏层或输出层中的每个单元通过矩阵乘法w h()⊤)k k连接到前一层中的每个单元(神经元)。相比之下，在卷积层中，每个单元仅查看前一层中的一小部分单元(因此是稀疏互连),并在不同位置使用相同的参数(参数共享),从而显著减少了需要估计的参数数量。
与经典时间序列模型的区别：CNN学习滤波器的参数，提取有用的特征。例如，在图像处理应用中，滤波器可以学习检测图像的小位置中的垂直边缘，而另一个滤波器检测水平边缘、角和曲线。然后在图像上移动每个过滤器，创建一个特征图(每个过滤器一个)，指定特征在图像中的位置。下一个卷积层然后组合特征(边缘、角等)。)转化为更复杂的结构(例如眼睛、嘴巴或鼻子)，绘制这些特征的地图。
②递归神经网络(Recurrent Neural Net-Works ，RNN)
在处理顺序数据、处理动态关系和长期依赖关系方面，RNN是CNN的替代。RNN，特别是使用长短期记忆(Long Short Term Memory ，LSTM)细胞的RNN，越来越受欢迎。RNN-LSTM模型的关键特征是，过去的信息是通过细胞状态向量跨时间传递的。在每个时间步骤中，新引入的解释变量被编码并与单元状态向量中的过去信息相结合,模型本身学习信息编码的方式和哪些编码的信息可以被遗忘(即对于后续步骤的预测并不重要)。
与传统的自回归区别：不需要指定滞后结构，并且可以捕捉更复杂的关系。CNN和RNN都利用了参数共享的思想，这使得它们能够检测特定的模式，而不管模式在序列或图像中的位置。两者都可以应用于非常长的时间序列或具有许多短时间序列的面板数据。
3.无监督方法（Unsupervised Approaches）——基于观测特征的数据分组或聚类
无监督方法旨在发现(x)的联合概率，而不是E(y|x)，可以应用于只有解释性变量(特征)而没有因变量(结果或标签)的情况，通常用于降低数据的维数。
①线性划分——主成分分析（Principal Component Analysis，PCA）
l 应用于对数据的逻辑分组，类似于聚类分析，例如定义新闻文章的“主题”。
l 应用于预训练神经网络（Pre-Train Neural Networks）。在这些设置中，主要目标是学习未标记数据中的相关关系，然后可以在第二步中用于监督学习任务。
②非线性划分——自动编码器（Autoencoders）（PCA的非线性推广）
（三）模型复杂性与可解释性
反对使用机器学习工具的一个常见理由是，它们是“黑箱”，在这里，模型学习到的关系不容易解释。尽管许多机器学习方法比线性回归方法更复杂，但这不是机器学习工具的固有问题，而是反映了任何方法面临的灵活性和可解释性之间不可避免的权衡。一旦我们的目标是反映非线性、交互作用或异质性，模型解释就变得更加困难。可通过一下几种方法解释：
1.绘制一个或多个特定特征的隐含边际效应。
部分依赖图（Partial Dependence Plots）和累积局部效应图(Accumulated Local Effects Plots)都将一个或两个变量的结果与其预测结果进行比较，而个体条件期望图(Individual Conditional Expectation Plots)生成它们用于个人观察。
2.确定解释变量的相对重要性
预测变量的相对重要性可以通过对不同预测变量的重要性进行排序来评估机器学习法中的一个常见方法是确定导致某个模型预测变化的解释变量的最小变化。其他的方法发展出所谓的“对抗样本（Adversarial Examples）”，识别一个观察的特征需要产生一个错误的预测。
3.原型和批评（Prototypes Versus Criticisms）
通过集群算法识别一些有代表性的数据点—原型（Prototypes）和一些偶然事件—批评（Criticisms）来探索模型捕获的异类影响，然后将模型对这些原型和批评的预测与它们的实际结果进行比较。
三、机器学习法能给农业经济学带来什么

（一）丰富函数形式
1. 问题提出
（1）农业和环境经济学中的许多现象本质上是非线性的，是潜在的生物、物理、社会或经济过程的结果。例如，气候变量对产量的影响、地下水开采对抽水成本的影响或污染对健康的影响都可能包含非线性。
（2）对于时间，空间或社会网络，我们目前的方法也通常强加一些限制性的结构，如空间计量经济学中预先确定的邻域和相互作用的结构。
（3）通常，我们对异质性的特定方面感兴趣。而在大多数当前的方法中，应用经济学家估计平均效应，或者允许效应在不同的维度上或者在预先定义的有限数量的组之间有所不同，或者事后选择组，诱惑着去挑选那些符合研究者的先验或者那些产生显著结果的组。
（4）经济理论很少对人们试图估计的对象的具体形式给出明确的指导。它只提供有关形状限制的信息，如曲率或单调性。选择一个不能捕捉非线性、相互作用或异质和分布效应的模型可能会导致错误的描述偏差。这种偏差随着基础过程的非线性程度的增加而增加。
2.当前的计量经济学方法
当前的计量经济学工具箱已经提供了灵活的模型，但在许多情况下，计算需求限制了它们对大数据集(大“N”)或高维数据(大“K”)的适用性。
（1）随机系数模型（Random Coefficient Models），分位数回归模型（Quantile Regression Models）或混合模型(Mixture Models)，允许一定的灵活性，但仍然对估计的关系强加限制性的线性假设，这种灵活性只是局部的，不是在解释变量的范围内灵活，因而限制了对经济环境变化的异质反应的能力。
（2）样条模型（Spline Models）、核模型（Kernel Models）和局部加权回归模型（Locally Weighted Regression Models）和GAM模型增加了更大的灵活性，但它们的应用通常仅限于有限数量的解释变量。
（3）数值贝叶斯推理方法（Numerical Bayesian Inference），如Gibbs 或 Metropolis Hasting这样的多中心抽样方法在处理大样本的能力方面是有限的
3.机器学习可以做什么
(1)集成树（Ensembles Of Trees）特别是梯度推进方法（Gradient Boosting Approaches）
梯度增强正在成为许多环境中最有效的预测工具；例如，信用评分和企业破产预测。虽然增强主要用于基于树的方法，但并不限于此。

Fenske、Kneib和Hothorn (2011年)开发了一种贝叶斯地理加性分位数回归方法（Bayesian Geoadditive Quantile Regression），该方法通过梯度增强进行估计。
在农业经济学中，Mrz等人(2016年)将这一方法应用于农田租赁费率。除了非常灵活之外，该方法还使用了自动数据驱动的参数选择，允许不同分位数上有不同参数。他们的结果揭示了协变量和租金之间存在着重要的非线性、异质性关系。
Ifft、Kuhns和Patrick (2018)发现，这些方法在预测农民信贷需求方面优于其他机器学习法和传统计量经济学方法。

(2)神经网络
神经网络还能够捕捉高度非线性的关系。神经网络和基于树的方法之间的一个重要区别是，使用神经网络是复杂的，并且通常需要用户指定更多的属性，例如层数和神经元，以及在训练期间进行更多的调整。
Cao，Ewing和Thompson (2012)发现单变量在风速预测方面优于单变量自回归综合移动平均(Autoregressive Integrated Moving Average,ARIMA)模型。
Karlaftis和Vlahogianni (2011)比较了神经网络和ARIMA模型在交通领域的性能的研究并报告了神经网络的优越性能的证据。

与树状模型方法相比：神经网络提供了更自然的方法来处理超越诸如时间序列、面板或空间数据的横截面数据的非线性关系。
缺点：Marchi等人(2004年)质疑神经网络相对于logistic回归模型的优越性，认为模型应该尽可能的简约，并担心神经网络的过度拟合和可解释性。
优点：Beck，King和Zeng (2004)认为使用测试集控制过度拟合优于logit模型。最重要的是，logit模型可能需要做出不切实际的假设。例如，在他们的假设中，所有国家发生冲突的可能性是相同的，而我们预期影响是不同的，
（3）变分推理（Variational Inference）
变分推理通过允许更多的参数来增加模型的灵活性。它还可以有效地处理较大的数据集。变分推理的基本思想是用更容易计算的分布来近似复杂的分布。它提供了一种替代MCMC抽样方法的方法，用准确性来换取计算效率。

Athey等人使用变分推断来估计具有大量反映未观察到的特征的潜在变量的餐馆需求，这将挑战传统方法。
Ruiz，Athey和Blei (2017)估计了一个潜在属性交互的顺序消费者选择模型，该模型使用高度分类的购物车数据，考虑了单个商品之间的交互。

（二）处理非结构化数据
1.问题提出
经济学家一般使用高度结构化的数据(如横截面、时间序列或面板)。而目前非结构化数据(如图像、文本或语音等)变得越来越可获得，传统计量经济学工具包对后者的用处有限。
2.当前方法
传统方法依赖于基于领域知识的手工特性聚合数据。例如，遥感数据被用来得出植被指数(NDVI)，或诸如夜间光照强度的单一测量。手机记录被转换成特定的指数。同样，当处理文本数据时，索引通常是基于某些术语或短语的出现次数来导出的。
3.机器学习可以做什么
（1）端到端学习（End-To-End Learning）。
如果我们有大量的标记数据，我们可以使用“End-To-End Learning”，不依赖手工的特征或变量，而是让机器学习算法(通常是DNN算法)学会直接从原始数据中提取有用的特征。这种方法避免了传统方法中选择或聚集所隐含的信息丢失。

Rußwurm and Körner (2017)使用遥感数据(Sentinel 2 A图像)作为输入，并使用德国Bavaria 137，000多个标记田地的数据集来确定19个田地类别。
You等人(2017年)使用多光谱遥感数据预测美国县级大豆产量。通过对数据生成过程做弱假设，他们能够减少输入数据的维数。

（2）无监督的DNNs预训练
无监督的DNNs预训练用大量未标记数据和有限标记数据，其思想是以无监督的方式依次训练神经网络的每一层。每一层都像一个自动编码器，它的目标是将输入映射到自身，同时采用某种形式的规范化。因此，该模型也称为堆叠式自动编码器。一旦第一层被训练(即第一自动编码器)，学习的编码被给予第二层(第二自动编码器)，然后第二层被训练并且其编码被给予下一层。这个过程持续到第二个最后一层，其输出可以被认为是输入数据的表示。最后一层然后使用标记数据进行训练，以将该学习的表示与目标变量相匹配，通常只涉及少量参数。训练可以在此停止，也可以使用标记的数据在最后的监督训练步骤中细化所有层的模型参数。
与PCA相比：无监督的预训练灵活性较高。
（3）迁移学习（Transfer Learning）
在一个环境中训练的模型和参数可以在另一个环境中使用。典型的应用是图像分类或目标识别。如VGG或ResNet这样的大型模型是在大量标记图像数据集(如ImageNet)上进行训练的。这些模型及其训练的参数可以被转移到其他图像识别任务中，在这些任务中，只有最后一层被训练，或者预处理的参数被用作起始值。在直觉层面上，即使一个模型最终被训练来区分狗和猫，模型的早期层次学习是通过如何识别图像中的一般结构，如边缘、线条或圆，这些对其他应用也是有用的。
（4）'Brute Force' Feature Engineering
'Brute Force' Feature Engineering使用确定性有限自动机（Deterministic Finite Automaton）自动生成大量特征，目的是尽可能多地捕捉原始数据的变化。然后在特征缩减回归中使用创建的特征来选择最有希望的特征，虽然定义特征需要更多的“手工制作”，而不是端到端的学习、转移学习或无监督的预培训，但在网络数据、轨迹、电话记录或家庭层面的跨国家扫描仪数据等输入数据特别复杂的情况下，这种方法很有潜力。
（三）文本分析
1.问题提出：解释变量较多
在许多领域，经济学家可以访问大量的数据集，包括观察数据的数量(N)和解释变量的数量(K)。例如土壤或天气数据，可以包括许多在高粒度空间和时间分辨率下观察到的特征（风、温度、降水量、蒸发等），这些特征通常随时间和/或空间的变化而不一致。通常，经济理论和领域知识对于选择应该包含在模型中的特定变量只能提供微弱的指导。
2.当前的计量经济学方法
（1）强加结构来选择K，这种方法只有在K < N时才可行，如AIC比较所有可能的模型组合，这只对小K可行，当K较大时，特别是在处理空间或时间上不一致的高分辨率数据时，数据通常是通过提取相关的手工特性来聚合的，这种聚集度量的设计需要特定的领域知识，信息的丢失是不可避免的。
（2）使用数据驱动的降维技术，如主成分分析(PCA)。贝叶斯变量选择或模型平均方法更灵活，理论上也更一致，但在行业中并不常用。
3.机器学习可以做什么
机器学习法在解决大K问题，尤其是K>N时很有用。但是即使当N > K时，这些方法也经常是有用的。一些不利于模型复杂性的机器学习方法，如lasso可以被视为变量选择技术,树形模型用于内部变量选择也可以很好地处理不相关的解释变量。
（1）无监督的降维方法，例如用于贪婪分层预训练的(堆叠)自动编码器或者作为特征提取器。

Li等(2016年)使用自动编码器基于传感器数据提供更好的空气污染预测，同时考虑到空间和时间相关性，并避免使用人工设计的特征。
Zapana等人(2017年)使用自动编码器提取特征来表征大气候时间序列数据。
Liu等(2015年)、萨哈、米特拉和南军地亚(2016年)和李等人(2018年)分别使用自动编码器来获得天气、季风和水质预报。
Bianchi等（2018）、Li等(2018)将自动编码器还与RNNs相结合，以捕捉时间动态并处理丢失的观测数据。

优点：可以利用未标记的数据。
缺点：它们旨在尽可能多地保留底层数据的变化，但没有考虑到对于给定的任务，某些变化比其他变化更相关。例如，对于产量预测，天气的某个变化可能是不相关的(例如，生长海子外部的温度)。
（2）端到端学习
端到端学习方法可以考虑哪种变化最相关，但要求有“足够”的标记数据， “足够”取决于输入数据的维度和问题的复杂性。
（3）RNNs和CNNs
RNNs和CNNs非常适合处理大的K，特别适用于观测在空间或时间上不重合的情况。与无监督方法相比，神经网络的目标不是尽可能多地保留变异，而是提取与有监督预测任务相关的特征。
①RNNs的一个缺点是，尽管它们的体系结构擅长记忆事件的时间顺序，但它们不能很好地检测某个事件发生在哪个位置。此外，尽管RNN理论上可以记忆任意长度的序列，但在实践中，一旦输入序列变得过长，它们的性能就会迅速下降。
②CNN具有更长的有效记忆，并能处理更大的序列长度。同时，在CNN中，事件的时间安排可以更自然地预先安排。该模型因此可以得知冬季的天气事件与春季的天气事件有不同的影响。
（四）因果推理和识别
1.问题提出：需要预测反事实
我们没有观察到未经处理的观察结果(或经处理的对照观察结果)会发生什么，需要预测反事实。大多数因果推理的计量经济学方法都假设某种结构。
2.当前的计量经济学方法
（1）匹配
例如，最近邻对倾向分数，将由几个匹配变量组成的多维对象折叠成一维邻近度量的不同方式。
①双重稳健回归：A.匹配处理和对照观察B.使用由它们的匹配倾向分数加权的观察进行的处理来回归结果。这种方法对于匹配或回归阶段的错误指定都是稳健的。
②合成控制：其在处理前对结果匹配，当处理单位很少但时间序列较长时是有用的。局限性是对于许多可能的控制观察，估计每个控制的权重可能是有问题的。
（2）双重差分（Difference In Differences）
如果处理的选择是基于非时变的不可观测数据，并且观察了处理后的观测数据的预处理，那么就可以简单地应用一个单位固定效应的“双重差分”方法。局限性为模型假设平行趋势和普通冲击对处理单位和控制单位有相同的影响。如在评估一个地区的政策变化时，假设经济冲击对该地区和其他“控制”地区的影响相同，而当处理组中存在的异质性未被建模时，对处理组的估计可能产生偏差。
（3）两阶段最小二乘法(2SLS)
在内生回归的情况下，人们经常使用两阶段最小二乘法(2SLS)的工具。局限性为它假设在第一阶段和第二阶段都是线性关系，以及处理的同质性。
3.机器学习可以做什么
（1）反事实模拟（Counterfactual Simulation）
反事实模拟使用预处理和对照观测的数据，预测如果不进行处理，外源处理的观测结果会发生什么变化。将这一预测与处理观察的实际结果进行比较，可以确定处理效果。这些方法可用于随机处理或控制处理分配的准实验环境。

Burlig等人(2017年)将面板数据方法与lasso相结合，从预处理数据中预测高频学校能源消耗的灵活反事实，以评估减少学校能源使用的方案的效果。

（2）双机器学习（Double ML，DML）
DML结合了机器学习法的预测能力和解决正则化偏差的方法。考虑下面的模型，其中试验的结果是处理的加性效应加上协变量的一些非线性函数(1)，并且这些相同的协变量非线性地决定处理
（3）匹配的机器学习方法和面板方法（ML Methods for Matching and Panel Methods.）。
①匹配的机器学习方法
梯度增强树已被用于医学研究中的倾向分数匹配。模拟数据表明，在协变量之间的非线性和非加性关联下，增强树的表现很好。Doudchenko和Imbens (2016)使用弹性网络（Elastic Net）来估计这些权重，因为从根本上来说，这是一个预测问题，其中控制观测被用来预测趋势前处理观测。用于选择的降维机器学习技术经常与双稳健回归相结合，以控制模型指定中的潜在误差。

Mullally和Chakravarty (2018年)应用这种方法来估计Nicaragua地下水灌溉方案的效果。

②面板方法
当处理是由可观察性决定时，标准方法是使用面板方法进行识别，建立一个差异框架。然后控制可能与处理位置相关的非时变的不可观察的事物。一些作者已经将机器学习方法用于面板设置，以允许降维和更灵活的功能形式。
可能存在的问题：A.许多系数实际上为零的假设可能与大多数个体异质性非零的观点相冲突。B.我们通常假设同一个体的误差随着时间的推移是相关的，这可能影响使用正则化选择的解释变量的数量。
（4）因果森林（Causal Forests）
①可以估计相当复杂的模型，根据预测能力选择协变量作为权重，因此对于添加非信息协变量是稳健的。
②可以在无基础的情况下一致地评估异基因处理效果。他们的算法生长“诚实”的树，根据一个子样本估计分裂，根据另一个子样本估计处理效果。
③可以在纯预测任务中生成置信区间也很有用。与DML相反，因果森林仅限于这种特定的机器学习法，以控制协方差对结果的影响。

Chernozhukov等人(2018)应用几种机器学习方法来估计随机处理对小额信贷干预对借款、自营职业和消费的异质性影响。他们确定受影响最大和最小的群体以及与他们相关的特征。
Carter, Tjernström and Toledo (2019)使用广义随机森林来评估Nicaragua小企业项目对农民结果的异质性影响，并找出对弱势家庭的最大影响。虽然他们发现总体成果不大，但那些在基线时处于不利地位的家庭从该方案中获益更多，突出了锁定目标的潜在好处。
Rana和Miller (2019年)使用因果森林结合匹配来估计印度两种类型森林管理方案的异质性影响。

（5）IV和Deep IV。
①IV
如果预测因子与误差项不相关，即它们是外生的，那么反事实结果的预测只能识别政策或处理效果。有几篇论文采用机器学习技术来选择子集，以预测线性IV回归的第一阶段。

Bevis and Villa (2017)使用这种方法来估计母亲健康对儿童结局的长期影响，他们在母亲的早期生命中有大量来自天气变化的潜在工具。
Ordonez，Baylis和Ramirez (2018)使用这种方法预测墨西哥Michoacan社区森林管理的采用情况，以评估其对森林结果的影响。它们有来自地点和活动或林务人员的多种潜在工具，影响社区森林管理计划的供应。

②Deep IV
Deep IV是一种2LS类型的方法，该方法使用机器学习法技术来放松2LS的限制性线性和同质性假设，并克服了非参数IV方法的计算限制。与其他机器学习方法一样，它也提供了一种变量选择的算法方法，这在面对大量可能的工具时可能是有用的。Deep IV第一阶段的估计方法是一个直接的监督预测任务，其中灵活的机器学习法工具，如神经网络，可以用来预测复杂的仪器和控制对处理的非线性影响。第二阶段也是受监督的机器学习设置。然而，用这种方法训练神经网络更加复杂，因为它需要在训练期间评估积分以导出损失函数的梯度。
（五）政策分析模拟
1.问题提出
除了计量经济学应用之外，我们的专业还大量使用计算模拟模型，尤其是用于政策分析。与政策相关的模型或建模系统的复杂性不断增加，这种复杂性在应用和校准中产生了巨大的计算需求。
2. 当前方法
ABM模型越来越多地被用作分析农业和环境经济问题。尽管它们很适合分析个体之间复杂的相互作用所产生的动态关系和涌现出的现象，但它们的区域覆盖范围、个体数量或模拟的个体行为复杂性通常受到计算约束等因素的限制。
3.机器学习可以做什么
（1）代理模型（Surrogate Modelling）
代理模型，也称为元模型（Meta-Modelling）或响应面模型（Response Surface Modelling），近似基础复杂模型的输入和输出之间的映射。这种方法的潜在优势在于，预测的准确性和维数仅受模型生成的待逼近数据量的限制。
①可用于模型校准，并在水资源建模，陆地表面模型，建筑能源需求和材料科学中广泛应用。使用代理模型进行校准的基本思想：A.在模拟模型输出的样本上训练替代模型；B.基于该代理模型执行校准，以找到与经验观察数据最接近的参数值。
②用于物理系统复杂模型的灵敏度分析。
这种方法仍然需要运行相对大量的底层模型来生成样本以训练代理模型。为了缓解这一问题，可采用自适应抽样（Adaptive Sampling）或迭代标定法（Iterative Calibration）等方法。
（2）生成式对抗网(Generative Adversarial Nets ，GANs)
GANs训练一个生成器和一个鉴别器模型。生成器旨在学习生成与实际图像相似的图像，而鉴别器旨在学习如何有效区分生成的图像和实际图像。将鉴别器结果反馈给发生器并以迭代方式提高其性能。在模型校准的情况下，模型生成器可以探索以何种方式来调整模型的参数，使得生成的输出数据尽可能接近观察数据，同时训练鉴别器来区分生成的数据和观察数据。
优点：不需要事先指定比较标准，鉴别器自己学习哪些特征对检测生成的数据最有用；而发生器的目标是尽可能接近地模拟观察到的数据。
四、经济学家能给机器学习带来什么
（一）为什么单纯的数据驱动模型是不够的？
1. 数据及其标签短缺
尽管数据可用性有所提高，但在许多应用中，我们仍然面临数据及其标签的短缺。
2.数据中包含的信息不足
例如，当处理罕见事件时，或者当结果非常嘈杂时，或者在处理高度复杂的过程和动态变化的非平稳模式时，即使是“大数据”也可能是不够的，在这些情况下，发现虚假相关性和发现非泛化关系的风险都很高。
3.数据的选择偏差
例如，手机数据只提供给那些能够使用手机的人；标签的质量可能因国家或地区而异。
（二）理论知识可以从两个方面帮助应对这些数据挑战。
1.理论领域的知识可以帮助理解一个模型为什么工作以及它是否已经学会了合理的关系。
2.结合理论知识可以提高机器学习法的效率(见第3.1节)，尤其是在所描述的数据信息有限且过程复杂的情况下。
五、前沿研究
（一）提高机器学习的预测性能
1.引入结构信息
经济理论通常提供关于行为函数曲率(生产前沿、利润函数)或边际效应符号的信息。这种附加的结构信息在数据可用性有限和特征之间的复杂交互关系的情况下可能特别有帮助。
2. 监督方法和非监督方法相结合
（二）用于统计推断
将ML与统计推断过程相结合，从变分推理程序的具体情况发展到一个通用的方法，只需要说明一个概率经济模型，就可以从中产生一个随机样本。
（三）用于模型模拟
1.强化学习（Reinforcement Learning）
强化方法通过选择不同的动作并观察相关的奖励来学习,是一种优化方法。它们特别适合于顺序设置，其中代理按顺序执行多个操作，之前的操作影响后续操作的结果，并且反馈不是即时的，而是延迟的。他们也能处理不确定的环境，其结果不是决定性的。
强化学习越来越多地用于博弈论环境，但迄今为止政策相关性有限。进一步的发展可能有潜力在更具描述性的、与政策相关的模型中建立具有学习代理的模型，例如，代理根据自己的经验和环境(网络)提供的信息做出最佳战略选择。
2.GANs
GANs中的生成器和鉴别器算法之间的相互作用允许该方法了解什么特征是重要的，而不必先验地选择要校准的数据的特定的有限特征。因此可利用复杂的数据结构，并且生成的仿真模型通常更有效。
（四）保护隐私的机器学习
机器学习法研究的一个新的活跃领域促进了在多个数据集上模型的分布式训练，这些数据集不需要被共享。鉴于机器学习从数据中获取信息的强大能力，仅仅移除个人标识符已被证明不足以保护参与者的身份。此外，数据泄露正变得越来越普遍，引起了学者们对收集或分析机密数据的担忧。保护隐私的机器学习对未来的经济学家来说可能很重要，既允许使用机密数据，又有利于合作。

长按以上二维码查看原文PDF
下面这些短链接文章属于合集，可以收藏起来阅读，不然以后都找不到了。

Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了！

猜你喜欢