NetEase Shufan Yu Lihua: DataOps переписывает правила управления данными, и приближается «момент iPhone» для активов данных 丨Интервью с Data Ape...

f3b0febcbb681916400b8ef6e8e3ddeb.png

bfc1025122235963d58739cd517e7832.jpeg

03163e855351dbeab74d6255388a5856.png




‍Средства инновационных услуг индустрии интеллектуального анализа данных

—— Сосредоточьтесь на цифровом интеллекте и измените бизнес


Однажды утром в рабочий день Сяо Ли, руководителю группы разработки данных компании электронной коммерции, позвонил коллега из коммерческого отдела: «Господин Ли, нам нужна таблица данных о продажах определенный продукт, но мы долго его искали и не могли получить.Как только мы получим точные данные, акция будет запущена в ближайшие дни, и мы не смеем принимать случайные решения без данных. .."

Сяо Ли немедленно созвал членов группы разработки данных на экстренное совещание, чтобы обсудить, как быстро предоставить точные данные бизнес-отделу. В конце концов Сяо Ли обнаружил, что члены группы разработки данных использовали разные модели данных и спецификации и не имели единого стандарта, что сильно повлияло на качество данных и эффективность вывода. В то же время из-за отсутствия эффективных мер управления данными качество данных не может быть эффективно гарантировано, что приводит к неудовлетворению потребностей бизнес-подразделений в данных...

Этот сценарий является проблемой, с которой часто сталкиваются группы данных многих компаний.С непрерывным продвижением цифровизации многие компании действительно начали накапливать и накапливать свои собственные «активы данных», и различные системы также улучшили свои возможности и возможности анализа данных. Эффективность, однако, все еще существует непреодолимый «разрыв» между разработкой данных и их потреблением, потому что процессу разработки данных не хватает гарантии качества с точки зрения бизнеса, что сильно влияет на эффективность бизнес-операций, управление и принятие решений. создание предприятий.

Когда многие компании сталкиваются с этой проблемой, наиболее распространенным способом является создание системы управления данными отдельно, а также создание механизма и процесса совместной работы посредством межведомственного взаимодействия и связи, тем самым укрепляя связь между разработкой данных и управлением данными. На первый взгляд этот метод решает проблему, но на самом деле увеличивает стоимость коммуникации и снижает эффективность работы команды.

Массивные данные не только не смогли повысить эффективность командной работы, но и вызвали проблему «бедности данных».Согласно отчету Gartner, из-за проблем с качеством данных компании ежегодно теряют 1 миллиард долларов США.Как решить эту проблему? В ответ на эту проблему Data Ape взяла интервью у Ю Лихуа, генерального менеджера линейки продуктов Netease Shufan для работы с большими данными, чтобы рассказать об инновационной практике Netease Shufan по интеграции разработки и управления данными.

Массовые данные не равно активам данных

С быстрым развитием технологии больших данных и постоянной модернизацией цифровизации предприятий объем данных также увеличивается. В процессе цифровизации предприятия должны использовать свой потенциал данных, чтобы адаптироваться к внешним изменениям. Gartner считает, что следует учитывать активизацию данных.Цифровые активы должны быть доставляемыми и повторно используемыми продуктами с высокой общей ценностью. Однако из-за огромных объемов данных предприятия часто попадают в затруднительное положение «бедности данных», что затрудняет их совместное использование и повторное использование. Юй Лихуа считает, что бедность данных сосредоточена в четырех аспектах: невозможность их найти, неспособность их понять, неспособность им доверять и неспособность их контролировать.

«Не найдено» означает, что на современных предприятиях данные часто хранятся в децентрализованных базах данных, которые могут поддерживаться разными отделами или командами. Это привело к тому, что некоторые данные не монтируются в каталоге, а стандартизация оставляет желать лучшего, что для бизнес-персонала равносильно поиску нужных данных иголкой в ​​стоге сена. Как и компания электронной коммерции в начале статьи, она накопила большой объем данных и имеет профессиональную группу данных, но бизнес-персонал все еще не может найти нужные данные. Конечно, такие проблемы существуют не только в компаниях электронной коммерции, у крупных интернет-компаний, таких как NetEase, тоже были подобные проблемы раньше. Например, в NetEase у NetEase Yanxuan более 100 000 таблиц для бизнеса, а у Cloud Music — более 80 000. Бизнес-персоналу очень сложно найти необходимые данные. Это не только тратит время и энергию бизнес-персонала, но также ограничивает точность и эффективность принятия корпоративных решений.

«Непостижимо» — это проблема, вызванная отсутствием метаданных и плохим управлением.Например, в определенном бизнесе в NetEase, поскольку 78% метаданных отсутствовали, даже если бизнес-персонал нашел данные, они не могли их понять. Это связано с тем, что данные часто хранятся в техническом термине, который может быть труден для понимания неспециалистам. Кроме того, сами данные могут быть сложными, и для их понимания требуются специальные знания. Если деловые люди не могут понять данные, они не смогут использовать их для принятия правильных решений.

«Ненадежный» в основном связан с проблемами качества и достоверности данных. Например, в одном бизнесе в рамках NetEase каждую неделю жаловались более чем на 10 проблем с качеством данных, и даже была проблема с утечкой данных поставщика... Это показывает, что есть проблемы с качеством и достоверностью данных. Проблемы с качеством данных могут включать отсутствие данных, ошибки в данных, дублирование данных и т. д. Эти проблемы заставят бизнес-персонал усомниться в точности данных и подорвут их доверие к данным . Утечка данных приведет к раскрытию коммерческой тайны и конфиденциальности клиентов предприятий, что серьезно повлияет на репутацию и доверие к предприятиям.

«Неконтролируемый» в основном означает, что данные не могут эффективно управляться и контролироваться. Например, в центре обработки данных бизнес-подразделения 78,39% таблиц занимают 21,63% дискового пространства, однако к этим данным, на которые уходит много сил разработчиков, ресурсов хранения и вычислительных ресурсов, ни разу не обращались в течение 30 дней, что приводит к большому количеству отходов. Если данные не управляются и не контролируются эффективно, это приведет к ненужному дублированию, избыточности и бесполезности данных, что приведет к пустой трате ресурсов и затрат предприятия.

В заключение следует отметить, что низкое качество активов данных является серьезной проблемой, и DataOps привлекла широкое внимание как новый инструмент для эффективного использования данных и улучшения процесса принятия решений на основе данных. В настоящее время общепринятой практикой DataOps на рынке является создание конвейера разработки данных, объединяющего возможности CI/CD.Хотя этот метод стандартизирует общий процесс разработки данных, в нем по-прежнему отсутствует необходимая инфраструктура для удовлетворения потребностей в потреблении данных. не решает полностью вышеуказанные четыре общие проблемы, следовательно, необходимо найти решения из более высокого измерения.

Netease стала пионером в интеграции разработки и управления данными

Чтобы кардинально решить проблему «бедности данных», NetEase Shufan выдвинула концепцию разработки данных и интеграции управления на основе конвейера разработки данных, который представляет собой сквозную практику DataOps. Из буквального значения видно, что разница между методом Netease Shufan и обычным методом заключается в том, что он полностью связывает разработку данных и управление данными. Юй Лихуа сказал Data Ape, что, когда многие компании занимаются промежуточным звеном данных или создают платформы данных, процесс разработки данных и процесс управления данными разделены и даже могут быть услугами, предоставляемыми разными поставщиками. стандарты данных и метаданные Существуют различия в данных и т. д., что, в свою очередь, делает бизнес-персонал неспособным находить или понимать данные при их использовании, что приводит к «бедности данных». Суть комплексной DataOps, предложенной Netease Shufan, состоит из 12 слов: сначала проектируйте, затем разрабатывайте, сначала стандартизируйте, а затем моделируйте. Другими словами, перед разработкой данных предприятия должны четко подумать о том, какие данные им нужны и как их спроектировать... а затем приступить к разработке данных на основе общего дизайна. Этот процесс очень похож на процесс разработки программного проекта.Начиная с конца, сначала определите цели и требования продукта, чтобы обеспечить правильность и эффективность процесса разработки.В то же время он также может помочь предприятиям сократить стоимость создания платформ данных.

34c96537efc19f2e8e3909a6539eda95.png

На самом деле, из этих 12 персонажей нетрудно понять, что у Нетизе Шуфан более глобальный взгляд на решение проблем. Традиционное решение — это решение «блок за блоком» или частичная перспектива, в то время как комплексные операции DataOps — комплексное рассмотрение. выполнять общий дизайн.Осаждать связанные с бизнесом спецификации стандартов данных, а затем использовать стандарты данных в качестве ядра для автоматического создания правил аудита качества данных, автоматического создания стратегий классификации и классификации таблиц, стратегий снижения чувствительности данных, стратегий управления безопасностью данных и т. д. - это все. Убедитесь, что корпоративные данные могут лучше обмениваться и повторно использовать основные активы. Возвращаясь к компании электронной коммерции в начале статьи, если есть полный дизайн до разработки данных, и сначала разобраны стандарты и спецификации, то последующая платформа данных не будет иметь данных «не может найти».

Исходя из этой логики, нетрудно обнаружить, что при интеграции разработки и управления данными, пока есть дизайн и стандарт, последующий процесс разработки и моделирования будет очень гладким, а модели, построенные в соответствии с дизайном а стандартные спецификации соответствуют спецификациям и требуют пересмотра, ремоделирования и рефакторинга.

Предприятиям с общим дизайном и стандартами платформы данных не нужно беспокоиться о проблемах кодирования в последующем процессе разработки и моделирования, и они могут даже с уверенностью отдать кодирование сторонним компаниям, поскольку ограничения перед стандартом В текущей ситуации в принципе нет «странного круга» бесконечных проблем с ревизией после выхода в интернет, и в принципе нет проблемы поставляемых продуктов, не соответствующих спецификациям и стандартам.В конце концов, спецификации и Стандарты уже определены. Таким образом, предприятиям больше не нужно беспокоиться о проблеме «бедности данных», можно значительно повысить эффективность использования данных и бизнес-операций, а также значительно сократить затраты на разработку.

Думая о цели, эффективность команды R&D увеличилась в 10 раз

Юй Лихуа считает, что в некотором смысле ценность сквозных DataOps для активов данных можно сравнить с «моментом iPhone» в области мобильных телефонов, который коренным образом перепишет правила управления данными. По сравнению с традиционными решениями основную концепцию разработки данных и интеграции управления можно в основном описать как «забастовку по сокращению измерений», поскольку она рассматривается с более общей точки зрения и начинается с конца, когда нужно подумать о строительстве центра обработки данных или платформы данных. , а не просто запутался в определенной ссылке. Интеграция разработки и управления может принести много преимуществ: она решает проблемы поиска, понимания, достоверных и управляемых данных, значительно повышает качество и эффективность построения активов данных и уменьшает количество доработок, вызванных ошибками данных, что снижает сложность разработка и управление сотрудничеством между несколькими командами, поэтому эффективность доставки приложений становится выше. Gartner прогнозирует, что к 2025 году, по сравнению с традиционными методами, эффективность команд R&D, внедряющих методы DataOps, может увеличиться в 10 раз. 

2bc26826e3bee22106eb675e6f59d147.png

Взяв в качестве примера Netease Cloud Music, внедрение модели интеграции разработки и управления DataOps может повысить эффективность повторного использования модели, построения спецификаций и покрытия правил. увеличилась в 4 раза, и 34 000 моделей были в офлайне; по построению спецификации раньше не было спецификации безопасности, а текущий уровень безопасности полей и индикаторов выполнен на 100% настройке; по качеству охват правил Скорость была значительно улучшена, бизнес-метаданные также были дополнены, и данные стали лучше использоваться.

С точки зрения применения данных Юй Лихуа считает, что интеграция разработки и управления также улучшила возможности самообслуживания менеджеров и бизнес-групп по обслуживанию данных . Клиент Netease Shufan сформировал полезный актив данных, создав интегрированную платформу разработки и управления данными от 0 до 1. В настоящее время существует 200 групп анализа данных, которые могут выполнять анализ самообслуживания, включая 32 руководителя. Кроме того, это может снизить вероятность аварий данных и улучшить возможности соблюдения требований законодательства . В настоящее время NetEase Shufan внедрила 180 стандартов для финансовых клиентов, помогая клиентам эффективно снизить риск штрафных санкций со стороны регулирующих органов.

Юй Лихуа также представил Data Ape случай с одним оператором связи, чтобы дополнительно проанализировать преимущества, которые может дать интеграция разработки и управления данными.

Оператор связи — это государственное предприятие с большим объемом данных о пользователях и операционных данных. Чтобы лучше управлять этими данными, оператор установил несколько систем данных и реализовал проект управления данными. Тем не менее, они по-прежнему сталкиваются с дилеммой, что стандарт не может быть реализован. На самом деле основная проблема, с которой сталкивается оператор, заключается в том, что стандарты данных, качество данных и спецификации разработки данных остаются только на уровне словаря и не могут быть интегрированы в процесс производства данных. Во-вторых, правила аудита качества данных не могут быть связаны с ограничениями области значений элементов данных в стандартах данных, элементы данных в стандартах данных не могут быть связаны с инструментами моделирования данных, а уровень безопасности данных в управлении метаданными и десенсибилизация данных центра безопасности не может быть связана.

Чтобы решить эти проблемы, оператор внедрил платформу Netease Shufan EasyData для реализации сквозных операций передачи данных. Успешное применение платформы EasyData обеспечивает хорошее решение для управления данными оператора, а также доказывает, что интеграция разработки данных может эффективно улучшить качество данных и эффективность разработки. С помощью платформы EasyData оператор связи провел более 100 аудитов качества данных, охватывающих более 8 000 онлайн-операций, и поддержал в общей сложности более 60 000 анализов самообслуживания. качественные данные в установленные сроки. Можно сказать, что внедрение EasyData не только улучшает управление данными и управление ими, но также эффективно сокращает ручное участие в управлении данными и повышает эффективность вывода данных.

Конечно, преимущества интеграции разработки данных и управления отражаются не только в «снижении затрат и повышении эффективности» на стороне пользователя и спецификациях безопасности данных, но также имеют свои уникальные преимущества в эффективности исследований и разработок, качестве данных, самоконтроле. -обслуживание и снижение аварийности данных.

Data Ape Observation: интеграция разработки и управления данными стала новой тенденцией

Поскольку преимущества разработки данных и интеграции управления настолько очевидны, станет ли это будущей тенденцией отрасли? Data Ape считает, что ее можно рассматривать со следующих четырех аспектов.

Во-первых, интеграция управления разработкой данных может улучшить качество и надежность данных. Согласно отчету Gartner, интегрированное решение для разработки и управления данными может свести к минимуму потери, вызванные проблемами с качеством данных, тем самым повысив эффективность принятия решений и преимущества для бизнеса предприятий.

Во-вторых, интеграция разработки и управления данными соответствует законам, правилам и требованиям рынка. По данным исследовательской компании IDC, к 2025 году мировой рынок решений для управления данными и конфиденциальности достигнет 15,2 млрд долларов. Интеграция разработки и управления данными может помочь предприятиям соблюдать требования законов и нормативных актов, таких как защита личной информации, сбор и использование данных в соответствии с требованиями, а также повышение конкурентоспособности и инновационных возможностей предприятий.

В-третьих, интеграция разработки данных и управления может повысить эффективность и инновационные возможности производства данных. Согласно отчету об опросе Forrester, более 50% предприятий считают, что эффективность разработки данных и инновационные возможности являются их наиболее важными вопросами . Интеграция разработки данных и управления может улучшить унифицированное управление эффективностью данных и инновационными возможностями, тем самым повышая конкурентоспособность и инновационные возможности предприятий.

В-четвертых, интеграция разработки и управления данными больше способствует интеграции различных новых технологий. С начала этого года искусственный интеллект привлек большое внимание популярностью ChatGPT. Data Ape считает, что будь то крупномасштабная модель общего назначения или крупномасштабная вертикальная модель, ее развитие не может быть отделено от поддержки корпоративных больших данных и как эффективно использовать корпоративные активы данных, накопленные сами по себе, и как обучать крупномасштабные модельные продукты, которые помогают собственному бизнесу, имеют самое непосредственное отношение к разработке данных и управлению данными. предприятий как раз и является преимуществом разработки данных и интеграции управления.

Основываясь на вышеупомянутых четырех пунктах, если мы можем суммировать их в одном предложении, это так: интегрированная модель разработки и управления данными больше соответствует будущей тенденции развития индустрии данных, а также является «сильным инструментом». «Повышение конкурентоспособности предприятий. Фактически, интеграция разработки и управления данными была записана в «Практическом руководстве по DataOps (1.0)», разработанном Институтом облачных вычислений и больших данных Китайской академии информационных и коммуникационных технологий . представление наблюдения и контроль качества данных переднего плана могут эффективно решить прошлые проблемы двух скинов в разработке и управлении, неравномерных требований к данным, низкой эффективности доставки продукта, сложности в продвижении междоменного сотрудничества и сложности в контроле затрат на разработку.

54e86a0eaf29357fb0f767fa933a7d0c.png

Юй Лихуа упомянул два момента, говоря о будущем планировании DataOps: один — продолжать выполнять базовую работу, в основном постоянно улучшать взаимодействие с пользователем и подключать больше баз данных, создавать DataOps в реальном времени и т. д.; другой — исследовать разработка данных и управление Интеграция и интеграция новых технологий, таких как low-code, AIGC и т. д., посредством непрерывной интеграции новых технологий, возможностей интеллектуального управления, таких как рекомендации по уровню безопасности, стандартное автоматическое сопоставление, автоматическое создание вычислительных задач и исправление ошибок, а также может быть реализована автоматическая диагностика ошибок, что снижает порог использования пользователем. Data Ape считает, что эти два направления являются стратегическим направлением NetEase Shufan, направленным на «возведение высоких стен и широкое накопление еды».

В эпоху цифровых технологий, когда цифровая трансформация постоянно развивается, а технологические инновации ускоряются, предприятия до конца борются не за накопление данных и скорость итераций технологий, а за эффективность данных.

Чтобы предоставить новые идеи и новые направления для цифрового интеллекта предприятий, 10 августа Netease Shufan объединила усилия с Китайской академией информационных и коммуникационных технологий, экологическими партнерами, финансовыми, производственными и другими предприятиями для проведения тематического мероприятия «Интенсивное сельское хозяйство для цифровых технологий». Интеллект» в отеле JW Marriott в Пекине . Ускорение инноваций — NetEase Shufan City Tour (Пекин) «отраслевой саммит, посвященный последним достижениям в области технологий цифрового интеллекта и отраслевому практическому опыту.

Текст: Winner  /  Data Ape

31437ad7d9c29c24f8a01128ef192819.jpegc65d53276a76ef14ceccce02f0740f7e.png

56f3c021e93558009b5ceba9fe79529c.png

рекомендация

отblog.csdn.net/YMPzUELX3AIAp7Q/article/details/132073995