Elasticsearch 原理与在直播运营平台的实践

武汉源创会回归,4月20聊聊大模型” 来源团队|字节跳动直播运营平台 在持续建设基于 ES 的跨域数据聚合服务中发现 ES 的很多特性跟 MySQL 等常用数据库差别较大,本文会分享 ES 的实现原理、在直播平台中的业务选型建议及实践中遇到的问题和思考。 ES 简介与应用场景 Elasticsearch 是一种分布式的、近实时的海量数据存储、检索与分析引擎。我们常说的“ELK”就是指 Elasticsearch、Logstash/Beats、Kibana 组成的具备收集、存储、检索和可视化的数
分类: 其他 发布时间: 04-16 03:44 阅读次数: 0

一起来探讨大模型时代下的 VectorDB 吧!

武汉源创会回归,4月20聊聊大模型” 在大模型席卷全球的行业背景下,基于检索结果增强的文本生成(RAG)备受关注。而作为 RAG 关键技术的向量数据库(VectorDB)正处在发展的十字路口。 为了探讨 VectorDB 的发展趋势、应用场景、上下游技术生态,OpenSearch 社区发起本次「大模型时代下的 VectorDB」Meetup。 在本次活动中,您将见到来自于头部企业的向量检索技术研发专家、OpenSearch 社区的活跃贡献者以及一线人工智能科学家,分享 VectorDB、大模型
分类: 其他 发布时间: 04-16 03:34 阅读次数: 0

字节跳动开源KubeAdmiral:基于 K8s 的新一代多集群编排调度引擎

武汉源创会回归,4月20聊聊大模型” 来源|KubeAdmiral 开源社区 项目地址:https://github.com/kubewharf/kubeadmiral 自2014年开源以来,Kubernetes已然成为编排调度系统的事实标准,为开发者提供了极大的便利。随着越来越多企业拥抱云原生,全球云基础设施规模仍在加速增长,Kubernetes社区版本单集群5000节点的规模已经无法满足企业级大规模应用场景,同时,更多公司选择使用多云架构满足降本增效、异地容灾、环境隔离等需求,多集群管理的
分类: 其他 发布时间: 04-16 00:44 阅读次数: 0

日增320TB数据,从ClickHouse迁移至ByConity后,查询性能十分稳定!

武汉源创会回归,4月20聊聊大模型” 背景介绍 ByConity适合多种业务场景,在实时数据接入、大宽表聚合查询、海量数据下复杂分析计算、多表关联查询场景下有非常好的性能。我们用一个实际的业务场景来介绍下,这套行为分析系统是基于用户多维度行为分析平台,提供事件分析、留存分析、转化分析、用户分群、用户留存等多种分析方式和场景。本文将介绍下该用户多维度行为分析平台在使用原ClickHouse集群遇到的问题和挑战,以及通过迁移ByConity后如何解决这些问题并给业务带来的收益。 图1 行为分析系统
分类: 其他 发布时间: 04-16 00:34 阅读次数: 0

【有奖征文】ByConity云上快速部署体验有奖召集令

武汉源创会回归,4月20聊聊大模型” 引言: 6月初我们分享了ByConity在云上部署的方法:《ByConity如何在Kubernetes上无感扩缩容》,之后收到很多用户反馈和建议,例如部署过程中需要安装的组件过多、本地软硬件环境引起部署失败等问题。因此我们做了一些优化,提供了更加容易上手的一键部署方式,邀请大家一起参与体验“ByConity 快速部署有奖征集活动”,并为大家准备了大奖! 多种云上快速部署 ByConity支持模块化和容器化的部署,可以直接部署在Kubernetes集群上,并
分类: 其他 发布时间: 04-16 00:24 阅读次数: 0

开源 Katalyst:字节跳动云原生成本优化实践

武汉源创会回归,4月20聊聊大模型” 本文根据 火山引擎高级研发工程师 邵伟在 QCon 全球软件开发大会上的演讲整理而成。 演讲人|邵伟 演讲时间|2023年5月 QCon广州 PPT | Katalyst:字节跳动云原生成本优化实践 GitHub:https://github.com/kubewharf/katalyst-core 1.背景 字节从 2016 开始着手服务云原生化改造,截至今日字节服务体系主要包含四类:传统微服务大多是基于 Golang 的 RPC Web 服务;推广搜服务
分类: 其他 发布时间: 04-16 00:14 阅读次数: 0

字节跳动十余演讲齐聚 CommunityOverCode Asia 2023 分享开源实践

武汉源创会回归,4月20聊聊大模型” 2023 年 8 月 18-20 日,北京丽亭华苑酒店 Apache 软件基金会的官方全球系列大会 CommunityOverCode Asia(原 ApacheCon Asia)首次中国线下峰会将于 2023 年 8 月 18-20 日在北京丽亭华苑酒店举办,大会含 17 个论坛方向、上百个前沿议题。 字节跳动开源经历「使用开源、参与开源、主动开源」的不同阶段,对于开源的态度一直是开放的、鼓励的。在此次 CommunityOverCode Asia 峰会
分类: 其他 发布时间: 04-16 00:04 阅读次数: 0

火山引擎开源通用多媒体处理框架 BMF

武汉源创会回归,4月20聊聊大模型” 文章来源|BMF 开源社区 GitHub|github.com/BabitMF/bmf 开源背景 随着直播短视频、5G 的快速发展,越来越多的数据以视频的形式被记录和传播。这使得视频处理技术的研究和应用变得尤为重要,它们是用于实现各种视频应用程序的通用工具、SDK 和解决方案。 视频时代,多媒体开发面临着多元化的挑战,包括, 复杂场景:处理链路复杂、算法与工程相互依赖、业务场景多样。 扩展与协同:对于一些算法开发者,许多时候会采用Python等高级语言,而
分类: 其他 发布时间: 04-15 23:54 阅读次数: 0

Katalyst:字节跳动云原生成本优化实践

武汉源创会回归,4月20聊聊大模型” 本文根据 火山引擎高级研发工程师 邵伟在 QCon 全球软件开发大会上的演讲整理而成。 演讲人|邵伟 演讲时间|2023年5月 QCon广州 PPT | Katalyst:字节跳动云原生成本优化实践 GitHub:https://github.com/kubewharf/katalyst-core 1.背景 字节从 2016 开始着手服务云原生化改造,截至今日字节服务体系主要包含四类:传统微服务大多是基于 Golang 的 RPC Web 服务;推广搜服务
分类: 其他 发布时间: 04-15 23:44 阅读次数: 0

字节跳动云原生成本优化实践开源项目 Katalyst |社区编程挑战启动!

武汉源创会回归,4月20聊聊大模型” Katalyst 简介 GitHub Repo:https://github.com/kubewharf/katalyst-core Katalyst 是字节跳动开源的成本优化实践系统,致力于解决云原生场景下的资源不合理利用问题,为资源管理和成本优化提供解决方案。 Katalyst 于今年3月正式开源,从0.1.0 版本发布至今,经过0.2.0版本迭代,已经完成若干核心能力的输出。8月8日 Katalyst 发布 v0.3.0 版本,核心功能包括 KCNR
分类: 其他 发布时间: 04-15 23:34 阅读次数: 0

ByConity 替换 ClickHouse 构建 OLAP 数据平台,资源成本大幅降低

武汉源创会回归,4月20聊聊大模型” 作者|程伟,MetaAPP 大数据研发工程师 GitHub |https://github.com/ByConity/ByConity ByConity 是字节跳动开源的云原生数据仓库,在满足数仓用户对资源弹性扩缩容,读写分离,资源隔离,数据强一致性等多种需求的同时,并提供优异的查询,写入性能。 MetaApp 是国内领先的游戏开发与运营商,专注移动端信息高效分发,致力于构建面向全年龄段的虚拟世界。截至 2023 年,MetaApp 注册用户已超 2 亿,
分类: 其他 发布时间: 04-15 23:24 阅读次数: 0

1024 分辨率下最快模型,字节跳动文生图开放模型 SDXL-Lightning 发布

武汉源创会回归,4月20聊聊大模型” 文章来源|字节跳动智能创作团队 很高兴跟大家分享我们最新的文生图模型 —— SDXL-Lightning,它实现了前所未有的速度和质量,并且已经向社区开放。 模型:https://huggingface.co/ByteDance/SDXL-Lightning 论文:https://arxiv.org/abs/2402.13929 闪电般的图像生成 生成式 AI 正凭借其根据文本提示(text prompts)创造出惊艳图像乃至视频的能力,赢得全球的瞩目。然
分类: 其他 发布时间: 04-15 23:14 阅读次数: 0

揭秘内存暴涨:解决大模型分布式训练OOM纪实

武汉源创会回归,4月20聊聊大模型” 在现代深度学习开发中,我们通常依赖其他模块,像搭积木一样构建复杂的软件系统,这个过程往往快速且有效。然而,如何在遇到问题时迅速定位和解决问题,由于系统的复杂性和耦合性,一直困扰着深度学习系统设计和维护者。 作为爱奇艺后端技术团队的一员,我们详细记录了一次解决深度学习训练内存相关问题的过程,希望为正努力解决棘手问题的同行提供一些启示。 01 背景 过去的一个季度中,我们一直在A100集群观察到随机的cpu内存oom现象。随着大模型训练的引入,oom更加的令人
分类: 其他 发布时间: 04-15 23:04 阅读次数: 0

爱奇艺数据湖实战 - 基于数据湖的日志平台架构演进

武汉源创会回归,4月20聊聊大模型” 01 背景 为了满足公司内日志实时查询分析的需求,爱奇艺大数据团队自研了Venus日志服务平台,负责爱奇艺各服务日志的采集、存储、处理、分析等场景。早期采用基于ElasticSearch的存储分析架构,随着数据规模的不断扩大,出现了成本高、管理困难、稳定性差等问题。 数据湖技术近几年快速发展,其采用了统一大数据存储底座和存算分离的架构,提供了一种适合于日志这种大量写入、少量查询场景的解决方案。因此,Venus进行了基于数据湖的架构改造,并推动日志入湖。入湖
分类: 其他 发布时间: 04-15 22:54 阅读次数: 0

Apache Spark 在爱奇艺的应用实践

武汉源创会回归,4月20聊聊大模型” 01 Apache Spark 在爱奇艺的现状 Apache Spark 是爱奇艺大数据平台主要使用的离线计算框架,并支持部分流计算任务,用于数据处理、数据同步、数据查询分析等场景: 数据处理:在数据开发平台中支持开发者提交 Spark Jar 包任务或Spark SQL 任务对数据进行ETL处理。 数据同步 :爱奇艺自研的BabelX数据同步工具基于Spark 计算框架开发,支持 Hive、MySQL、MongoDB 等 15 种数据源之间的数据交换,支
分类: 其他 发布时间: 04-15 22:44 阅读次数: 0

数据湖在爱奇艺数据中台的应用

武汉源创会回归,4月20聊聊大模型” 01 我们眼中的数据湖 作为爱奇艺的数据中台团队,我们的核心任务是管理和服务公司内的大量数据资产。在实施数据治理的过程中,我们不断吸收新的理念,引入尖端的工具,以精细化我们的数据体系管理。 “数据湖”作为近年来数据领域广泛热议的概念,其技术层面也受到了业界的广泛关注。我们的团队对相关数据湖的理论和实践进行了深入研究,我们认为,数据湖不仅是一种治理数据的全新视角,更是一种集成和处理数据的极具前景的技术。 02 数据湖是一种数据治理的思想 实施数据湖的主旨,在
分类: 其他 发布时间: 04-15 22:34 阅读次数: 0

爱奇艺效果广告双出价优化历程

武汉源创会回归,4月20聊聊大模型” 01 项目背景 效果广告的投放是一个博弈的场景:媒体平台希望流量卖出最高的价格,客户希望广告的投放成本和后端效果达标。随着效果广告行业的发展,客户不再满足于仅考核唤醒、激活等浅层转化的效果,越来越多的广告主向媒体平台表达优化后端效果的诉求。后端效果包括次留率、付费率、首日付费ROI等多种深层转化类型。 这篇文章,我们将回顾讲述,效果广告在出价模式上的优化历程。 广告媒体平台一般采用双出价模式来同时保障广告主的浅层转化成本和后端效果。广告主的投放诉求有浅层转
分类: 其他 发布时间: 04-15 22:24 阅读次数: 0

爱奇艺大数据离在线混部

武汉源创会回归,4月20聊聊大模型” 混部作为一种提高资源利用率、降低成本的的方案,被业界普遍认可。爱奇艺在云原生化与降本增效的过程中,成功将大数据离线计算、音视频内容处理等工作负载与在线业务进行了混部,并且取得了阶段性收益。本文重点以大数据为例,介绍从 0 到 1 落地混部体系的实践过程。 01 背景 爱奇艺大数据支持了公司内运营决策、用户增长、广告分发、视频推荐、搜索、会员等重要场景,为业务提供数据驱动引擎。随着业务需求的增长,计算需要的资源量与日俱增,成本管控和资源供给面临着较大的压力。
分类: 其他 发布时间: 04-15 22:14 阅读次数: 0

爱奇艺H5专题页打造原生体验优化实践

武汉源创会回归,4月20聊聊大模型” 01 项目背景 H5专题及活动页面一直是公司大剧热综宣传、App拉新促活的重要承载方式,其在各个业务领域中扮演着至关重要的角色。与此同时,也存在着一些弊端而广受诟病。比如页面打开速度慢,白屏现象、端内H5顶部标题栏与页面内容割裂等。我们针对这些问题与webview团队深入合作,沟通尝试各种解决方案,着重优化用户体验和页面性能,目前已经取得一定进展,现将一些实践经验分享给大家,以供参考。 02 性能优化 乐趣H5专题页的加载和渲染过程大抵如下: 我们对每个环
分类: 其他 发布时间: 04-15 22:04 阅读次数: 0

TV端Web页面性能优化实践

武汉源创会回归,4月20聊聊大模型” 01 背景 随着互联网技术的持续创新和电视行业的高速发展,通过电视观看在线视频已经逐渐成为大众的重要娱乐方式。奇异果App作为在TV设备上用户活跃度最高的应用之一,为广大用户提供了丰富的内容播放服务,除此之外,同样有会员运营、专题活动等上线效率要求极高的服务提供给用户。为满足后者的诉求,我们调研了目前主流的动态化和跨端技术:H5、Flutter 和 React Native,最终从开发效率、人力成本、动态能力和性能上选择用H5方案,目前,H5页面承担了奇异
分类: 其他 发布时间: 04-15 21:54 阅读次数: 0