
全栈工程师开发手册 (作者:栾鹏)
一站式云原生机器学习平台
github:https://github.com/data-infra/cube-studio
前言:cube studio是开源的云原生机器学习平台,目前包含特征平台,支持在/离线特征;数据源管理,支持结构数据和媒体标注数据管理;在线开发,在线的vscode/jupyter代码开发;在线镜像调试,支持免dockerfile,增量构建;任务流编排,在线拖拉拽;开放的模板框架,支持tf/pytorch/spark/ray/horovod/kaldi等分布式训练任务;task的单节点debug,分布式任务的批量优先级调度,聚合日志;任务运行资源监控,报警;定时调度,支持补录,忽略,重试,依赖,并发限制,定时任务算力的智能修正;nni,katib,ray的超参搜索;多集群多资源组,算力统筹,联邦调度;tf/pytorch/onnx模型的推理服务,serverless流量管控,tensorrt gpu推理加速,依据gpu利用率/qps等指标的 hpa能力,虚拟化gpu,虚拟显存等服务化能力。
背景
在一家公司,我们通常会有多种数据库,每种数据库因为其特性承担不同的角色,比如mysql这种轻量级数据库,很适合存储元数据,hive适合用于分布式存储,clickhouse可以做极快速的大数据查询。
如果我们同时有k8s集群,又有多种数据库,来回切换操作也是很麻烦的事情,如果能在一个入口对接所有的数据库,同时链接到k8s集群,就省心很多。
1. 登录cubestudio平台
体验环境可以直接使用,也可以根据https://github.com/tencentmusic/cube-studio/wiki来部署之后使用。
2. 配置账号密码并查询
在web界面中,点击“数据资产”-“数据探索”-“sqllab”,在“引擎”位置选择要查询的数据库,根据提示的格式填入账号和密码,实际使用中也可以让管理员在后台直接配置好账号密码,避免自己手动输入。配置好之后,在查询框中写入查询sql语句,点击“运行”,就可以看到结果了。
“success”就表示查询成功,结果可以点击“详情”在线查看,也可以点击“下载”,本地查看。
3. 切换数据库
平台目前已经集成的数据库有mysql、postgresql、presto、clickhouse、hive、impala,通过这个入口,我们查询数据时候就不用在命令行里来回切换啦,即使是不会数据库的纯业务同学,也可以交互式地直接查询各类数据库的数据了。