版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文系对官方教程的复现,记录从新手的角度在实现目标道路上遇到的问题。
-
获取USstocks.csv
采用芝加哥大学的证券价格研究中心(CRSP)给出的1990-2016年上千只美股的每日交易记录,官网并不对外开放账号注册、DolphinDB也没有对外开放,网上我也没有找到。
就是说,找不到原汁原味的数据,改用数字货币历史数据替代。
我用的是火币btc_usdt_1t.csv
-
加载csv
-
并行加载btc_usdt_1t.csv
btc_usdt = ploadText("D:/DolphinDB/Data/btc_usdt_1t.csv")
-
非并行加载btc_usdt_1t.csv
btc_usdt = loadText("D:/DolphinDB/Data/btc_usdt_1t.csv")
-
比较两种加载方式时间
-
并行加载机制
并行加载文件需要的内存至少是表大小的两倍。
如果文件大小超过可用内存,可以把数据保存在分布式文件系统的分区表中。
-
数据类型
-
确定数据的类型
当加载外部文件时,系统会对每列随机抽样,然后推断每列的数据类型。
采用
extractTextSchema
函数检查文本文件中的数据类型。schema = extractTextSchema("D:/DolphinDB/Data/btc_usdt_1t.csv")
-
更改数据类型
# 将col0列数据类型转换为DOUBLE update schema set type=`DOUBLE where name=`col0 # 以上述结构加载文件到DolphinDB btc_usdt= ploadText("D:/DolphinDB/Data/btc_usdt_1t.csv",,schema) # 查看数据 schema = extractTextSchema("D:/DolphinDB/Data/btc_usdt_1t.csv")
双击右侧schema即可查看数据结构,可以发现col0数据类型已经变为DOUBLE
同样方式,可查看已经载入的数据: