因果发现工具 Causal Discovery Toolbox(cdt)安装指南

提前提醒:要是遇到以下提示bug的同学,还是直接重装吧,这个问题在github的Issues上面有不少人碰到过了(我也去问了),但是目前为止,连维护这个框架的作者也并没有给出修复这个bug的答案。我是重装完之后才成功的…我猜测这个错误是因为安装的各种包依赖紊乱导致的(仅仅猜测)。

R Python Error Output
-----------------------
[Errno 2] No such file or directory: 'C:\\Users\\xxx\\AppData\\Local\\Temp\\cdt_pc_dccede31-26aa-4f57-a35b-5aeb44deaf6b\\result.csv'
RuntimeError: RProcessError 
R Process Error Output 

写这篇文章是由于楼主在装这个工具时碰到太多坑了。分享一些我的安装历程,希望帮到后面的人。

初衷:我装这个cdt是为了跟dowhy框架结合起来使用的,cdt用来做因果发现,dowhy用来做因果效应评估,因为dowhy的输入得有一个因果图

吐槽:装cdt是真滴麻烦,依赖pytorchR,但是直接使用命令pip install cdt 并不会把所有依赖的库全部打包下载。而在装完cdt之后再去安装pytorch和R的话又会导致各种各样的依赖不匹配,版本不match的各种bug,令人十分奔溃。

一、安装cdt 及其基本依赖环境

下图给出cdt所依赖的各个库。
cdt依赖的库

推荐后面需要使用cdt的伙伴们,都用以下的方式进行安装,经我测试还是比较稳妥的,并且建议使用anaconda新建一个环境,我新建的环境python版本是3.10.6。 以下命令在conda activate env-name(新建环境名字)后 ,就可以输入进行下载了。

$ git clone https://github.com/Diviyan-Kalainathan/CausalDiscoveryToolbox.git  # Download the package 
$ cd CausalDiscoveryToolbox
$ pip install -r requirements.txt  # Install the requirements

就是直接从github下载这个框架的源代码,使用pip install -r requirements.txt 命令下载这个框架所需要的依赖,这样可以自动搜索相互匹配的各个版本库,不会导致包冲突,进而出来各种奇奇怪怪的bug[吐血]。

然后去运行以下demo代码测试

import cdt
import networkx as nx
import pandas as pd
import matplotlib.pyplot as plt
from cdt.causality.graph import PC

# Load the data
data = pd.read_csv("http://www.causality.inf.ethz.ch/data/lucas0_train.csv")

# Infer the causal diagram
pc_output = PC().create_graph_from_data(data)

# Visualize the diagram
nx.draw_networkx(pc_output)
plt.show()

给我爆了个“R Call errored, is R available ?” 这样的错误。

R??这是啥玩意? 后面去到cdt官方文档里头查找,才知道cdt这框架还用到R语言下的一些算法包。

cdt官方文档
在调用PC或者(LiNGAM)等算法时cdt.causality.graph.PC,会依赖到R下的某些包。
好吧这回又得去下载R语言。

二、安装R语言及相应R包

这里贴一下下载R语言的官方链接
但是我没有下载最新版本的R-4.2.2(最新的大多容易出事)
我下载的windows下的旧版本R-4.1.2
R-4.1.2

贴一下,下载windows R语言旧版本的链接

(1)R语言安装过程界面

①:选择中文
①

②:下一步
下一步

③定义安装位置
定义安装位置

④:我去掉了32字节的
去掉32字节

⑤默认下一步
下一步

⑥默认下一步
下一步然后等待安装完成
然后就等待安装完成…

(2)R包安装过程

安装完R语言之后,还得安装cdt所依赖的R包。
看看github上面给出的依赖R包目录。

R 依赖目录

接下来在R下安装所依赖的各种R包
打开R界面:
R界面
(这玩意是真滴陌生呀…)
安装R包的几种方式贴个链接

①如果没记错的话
pcalg和kpcalg是直接通过
install.packages("xxx") xxx包名可以直接下载的

其余的包只能借助BiocManager来安装

install.packages('BiocManager')
library(BiocManager)
install('xxx')    #xxx是包名

或者直接一条命令打包下载

install.packages('BiocManager')
BiocManager::install(c("SID", "bnlearn", "pcalg", "kpcalg", "glmnet", "mboost"))'
library(xxx)    #好像是调用包,加载到内存的意思?不太确定

②但是这里也有个暗坑!
就是RCIT这个包,会弹错误“package ‘XX’ is not available for this version of R”

解决这个问题是参考github链接方法
通过以下方式安装

library(devtools)
install_github("Diviyan-Kalainathan/RCIT")
library(RCIT)
RCIT(rnorm(1000),rnorm(1000),rnorm(1000))
RCoT(rnorm(1000),rnorm(1000),rnorm(1000))

可能这一步得先install.packages("devtools")
安装好devtools工具之后再调用它的install_github函数

③还有还有!!还有一个R包SID也没有办法这样安装,得另辟新径!
在尝试安装SID时会提示找不到SID,解决办法是手动安装。
首先R包SID官方已经提示下架了

但是我安装了旧版本的也能用
贴旧版本的R包SID下载链接
R-SID旧版本

下载完之后
就是导入下载的SID包了。
在这里插入图片描述

在这里导入SID
导入R包SID
选择导入就ok了。

至此,安装cdt及其所依赖的R环境就全部都配置好啦!!

如果这些都配置好之后,运行代码还是报错“R Call errored, is R available ?” ,此时是因为cdt找不到R包,就还得去修改cdt找R包的路径。

具体修改步骤:
1、找到对应的cdt安装路径,我是在anaconda下配置的环境,我的路径是D:\anaconda3\envs\dowhy\Lib\site-packages\cdt
2、进入utils,打开Settings.py,修改_init_函数下的self.rpath参数为对应的刚才R语言安装目录下的Rscript的路径,我的Rscript路径为D:\SoftWare\R-4.1.2\bin\Rscript.exe
3、最终修改样式:

self.rpath = 'D:\\SoftWare\\R-4.1.2\\bin\\Rscript.exe'

运行上述demo代码
结果:
结果

大功告成!

猜你喜欢

转载自blog.csdn.net/Jiu__Yue/article/details/127848424