De desenvolvedor independente a contribuidor da comunidade SeaTunnel, o que fiz certo?

A equipe da comunidade de código aberto da China fez sua primeira transmissão ao vivo, contando a história por trás da comunidade de código aberto da China em nome do compartilhamento."

auto-apresentação

Olá a todos, meu nome é Yan Chengyu e atualmente sou um desenvolvedor independente. Foco em desenvolvimento de dados, aprendizado de máquina, algoritmos de escalonamento de recursos e sistemas distribuídos.

arquivo

ID do GitHub: CheneyYin

Página inicial pessoal: https://cheneyyin.github.io/

Que contribuições você fez para a comunidade?

Aprimorado o suporte do mecanismo Spark e do mecanismo Flink para o tipo de dados SeaTunnel.
Corrigidos alguns bugs na camada de conversão do mecanismo Spark.
Melhorados os tipos de dados suportados pelo conector Assert.
Corrigido algum BUG relacionado ao CI.
Melhorou alguma documentação.

Registro de contribuição: https://github.com/apache/seatunnel/pulls?q=is%3Apr+author%3ACheneyYin+is%3Aclosed

Primeiro conhecido

De 2022 a 2023, tenho tentado desenvolver um software de integração visual de dados semelhante ao StreamSet e NiFi.

Até por volta de março de 2023, concluí um software simples de integração de dados visuais, Metal, e o migrei para meu repositório GitHub. Embora o Metal tenha funções simples, ele verificou com sucesso a viabilidade da ideia de design e da pilha de tecnologia.

Só depois de ler o artigo "A evolução da arquitetura de ETL para EtLT" postado na comunidade devops.dev é que aprendi muitas novas perspectivas sobre integração de dados, como o conceito de t pequeno, as limitações do uso de computação geral motores e o O valor dos mecanismos de execução integrados e muito mais.

Ao mesmo tempo, este também é meu primeiro contato com o Apache SeaTunnel, que se baseia nesses novos conceitos. Depois de experimentar o Apache SeaTunnel pela primeira vez, desisti resolutamente de minha direção anterior e escolhi ser ativo na comunidade SeaTunnel.

Envie seu primeiro PR

Deixe-me compartilhar com vocês a história do meu primeiro PR. Nos primeiros dias, durante um teste de estresse usando o SeaTunnel, percebi que o mecanismo Spark gerou uma exceção OOM (Out Of Memory).

Primeiro reproduzi o problema, depois depurei e localizei a causa. Verificou-se que a camada de conversão do Spark TransformerProcessorarmazenava temporariamente os resultados de saída na memória, resultando em memória heap insuficiente ao processar grandes quantidades de dados.

Após uma análise aprofundada do problema e encontrar uma solução, enviei minha primeira edição (#4502) para a comunidade Apache SeaTunnel. Amigos interessados podem conferir. Nesta edição, expliquei o fenômeno do problema e os motivos. e soluções propostas. Posteriormente, enviei meu primeiro PR (#4503).

Meu primeiro PR levou apenas 4 dias desde o envio até a fusão, o que mostra a velocidade eficiente de feedback da comunidade. Mas para mim pessoalmente, esse processo é cheio de expectativas e longo, principalmente quando ocorre uma anormalidade no ambiente de CI e o teste não passa.

No entanto, os membros seniores da comunidade forneceram ajuda oportuna e o PR acabou sendo mesclado com sucesso. Portanto, quando você participa de contribuições iniciais, é crucial buscar a ajuda de colaboradores seniores e todos ficarão felizes em ajudar! Mas também tome cuidado para não desperdiçar muito o tempo de outras pessoas.

Participação contínua

No ano passado, participei ativamente de atividades da comunidade, lendo conteúdo compartilhado por especialistas técnicos, acompanhando e respondendo a questões da comunidade e continuando a rastrear a lista de Pull Requests.

Além disso, também fiz algumas contribuições de código para a comunidade.

Por exemplo:

Adicionado suporte para o tipo Time do SeaTunnel ao mecanismo Spark (#5188)
Adicionado suporte ao tipo decimal para precisão configurável e escala ao mecanismo Flink (#5419)
Declarações genéricas aprimoradas no estilo Hocon (#6187)
Conector Assert aprimorado para cobrir todos os tipos de dados (#6275)

A maioria dessas solicitações pull são projetadas para melhorar a experiência do usuário.

Minha impressão da comunidade

Minha primeira impressão da comunidade Apache SeaTunnel é que ela é entusiasmada e ativa. A comunidade responde rapidamente a problemas e solicitações pull e também é muito amigável e paciente com novos contribuidores, tornando a participação de novos contribuidores fácil e rápida.

expectativas futuras

Espera-se que a comunidade possa crescer ainda mais e atrair mais desenvolvedores para promover o desenvolvimento do SeaTunnel. Esperamos que a base de usuários do SeaTunnel continue a se expandir, permitindo que mais pessoas aproveitem suas convenientes soluções de integração de dados. Espera-se que a experiência do usuário continue a melhorar e o SeaTunnel alcance novos avanços em estabilidade.

Ao mesmo tempo, esperamos que a documentação do SeaTunnel seja mais detalhada e completa, fornecendo guias de uso e documentação técnica abrangentes e claros para que os usuários possam começar a trabalhar rapidamente e resolver problemas.

Este artigo foi publicado pela Beluga Open Source Technology !