代码天地

释放专利力量：Patently 如何利用向量搜索和 NLP 简化协作

文章浏览阅读721次，点赞11次，收藏18次。组织依靠知识产权 (IP) 来推动创新、保持竞争优势并创造收入来源。对于希望将新产品推向市场的公司来说，弄清楚谁拥有哪些专利是一项必不可少的能力。搜索数百万项专利可能既困难又耗时，与相关利益相关者共享信息是一项重大挑战。对于大型企业，尤其是那些拥有大量创新渠道的企业来说，了解专利组合每年可能需要数千小时的人工投入。进入，它使用尖端解决方案来改变发明者、知识产权专业人士、法律团队和高管对专利的看法。

分类: 业界资讯发布时间: 11-06 23:47 阅读次数: 0

如何将数据从 AWS S3 导入到 Elastic Cloud - 第 3 部分：Elastic S3 连接器

文章浏览阅读726次，点赞20次，收藏21次。了解将数据从 AWS S3 导入 Elastic Cloud 的不同选项。这次我们将重点介绍 Elastic S3 Connector。这是多部分博客系列的第三部分，探讨了将数据从 AWS S3 导入 Elastic Cloud 的不同选项。在本博客中，我们将了解如何使用从 AWS S3 导入数据。Elastic Native 连接器可直接在你的 Elastic Cloud 环境中使用。客户可以选择使用，这些客户端可提供最高程度的自定义选项和灵活性。

分类: 业界资讯发布时间: 11-06 23:47 阅读次数: 0

零配置 OpenTelemetry 自动检测 Kubernetes Java 应用程序

文章浏览阅读645次，点赞14次，收藏6次。有到 Java 应用程序中。如果你在 Kubernetes pod 中运行 Java 应用程序，则有一个单独的机制（其底层使用 JAVA_TOOL_OPTIONS 和其他环境变量）来自动检测 Java 应用程序。此自动检测可以通过对应用程序和 pod 进行零配置来实现！在 Kubernetes 中实现 Java 应用程序零配置自动检测的机制是通过。此运算符具有许多功能，完整文档（当然还有源代码）可在项目本身中找到。

分类: 业界资讯发布时间: 11-06 23:47 阅读次数: 0

Elastic Observability 中的更智能的日志分析

文章浏览阅读437次，点赞6次，收藏8次。使用 Kibana 的最新功能，发现更智能的日志处理！新的数据源选择器可让你轻松通过系统日志和 Nginx 等集成筛选日志。智能字段通过更直观地呈现数据来增强日志分析。立即简化你的工作流程并发现更深入的见解！使用 Kibana 的最新功能，发现一种更智能的日志处理方式！通过选择集成或数据视图，我们新的数据源选择器可让你轻松锁定所需的日志，无论它们是来自系统日志还是应用程序日志。此外，随着智能字段的引入，你的日志分析现在更加直观和富有洞察力。

分类: 业界资讯发布时间: 11-06 23:46 阅读次数: 0

NLP从零开始------12. 关于前十一章补充（英文分词）

文章浏览阅读1.4k次，点赞25次，收藏29次。相较于基础篇章，这一部分相较于基础篇减少了很多算法推导，多了很多代码实现。_case folding大小写折叠

分类: 业界资讯发布时间: 11-06 23:46 阅读次数: 0

NLP从零开始------13.文本中阶序列处理之语言模型(1)

文章浏览阅读1.3k次，点赞36次，收藏30次。要想得到一个语言模型，最简单的想法是从一个大型语料库中直接统计不同文字序列出现的频率。然而由于文字序列的排列组合空间极大，不可能找到一个包含所有合理的文字序列的语料库，因此这个想法是不可行的。既然序列的概率无法通过经验频率来估计，那么是否可以通过概率乘法公式将其转换为一系列条件概率的乘积，转而估算这些条件概率呢?其中，表示输入文字序列中的第i个词。那么这个序列“自然语言”的概率可以分解为P(自然语言)=P(自)×P(然|自)×P(语|自然)×P(言|自然语)

分类: 业界资讯发布时间: 11-06 23:46 阅读次数: 0

NLP从零开始------14.文本中阶序列处理之语言模型(2)

文章浏览阅读1.1k次，点赞15次，收藏31次。双向循环神经网络的填充更加复杂，正向和反向的循环神经网络的读取顺序相反，难以保证两个方向的循环神经网络都在末尾填充，实现起来较为困难。需要注意的是，双向循环神经网络在每个位置的输出同时包含来自左边和右边的信息，也就是整个输入序列的信息，因此双向循环神经网络不能用于语言模型，因为语言模型需要仅根据序列中每个词左边的信息来预测这个词。双向循环神经网络的结构包含一个正向的循环神经网络和一个反向的循环神经网络(即从右到左读入文字序列)，将这两个网络对应位置的输出拼接得到最终的输出，如下图所示。

分类: 业界资讯发布时间: 11-06 23:45 阅读次数: 0

NLP从零开始------15.文本中阶序列处理之语言模型(3)

文章浏览阅读1k次，点赞46次，收藏22次。循环神经网络的一个主要局限是不能很好地建模长距离依赖，即使像长短期记忆这样的变体也只是改善而不是完全解决了长距离依赖的问题。其根本原因在于，如果序列中的第i个词需要对第j个词(假设j>i)产生影响，需经过j-i个计算步骤，而随着步数增加，第i个词的信息会很快衰减，被两个词之间其他词的信息所淹没。从另一个角度来看，每一步用来预测下一个词的隐状态都需要包含这个词左边所有词的信息，但隐状态的维度有限，因而所能表达的信息容量也有限，从而形成了信息瓶颈，阻碍了前置词信息的准确表示和传递。

分类: 业界资讯发布时间: 11-06 23:45 阅读次数: 0

NLP从零开始------文本中阶序列处理之语言模型（完整版）

文章浏览阅读1.3k次，点赞31次，收藏22次。要想得到一个语言模型，最简单的想法是从一个大型语料库中直接统计不同文字序列出现的频率。然而由于文字序列的排列组合空间极大，不可能找到一个包含所有合理的文字序列的语料库，因此这个想法是不可行的。既然序列的概率无法通过经验频率来估计，那么是否可以通过概率乘法公式将其转换为一系列条件概率的乘积，转而估算这些条件概率呢?其中，表示输入文字序列中的第i个词。那么这个序列“自然语言”的概率可以分解为P(自然语言)=P(自)×P(然|自)×P(语|自然)×P(言|自然语)_nlp教程

分类: 业界资讯发布时间: 11-06 23:45 阅读次数: 0

大数据处理从零开始————1.Hadoop介绍

文章浏览阅读1.3k次，点赞27次，收藏20次。大数据的定义是什么？百度百科是这样说的——大数据（Big Data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据有如下几个核心特征：1.容量（Volume）：数据的大小决定所考虑的数据的价值和潜在的信息2.种类（Variety）：数据类型的多样性3.速度（Velocity）：指获得数据的速度4.可变性（Variability）：妨碍了处理和有效地管理数据的过程。

分类: 业界资讯发布时间: 11-06 23:45 阅读次数: 0

NLP从零开始------16.文本中阶处理之序列到序列模型（1）

文章浏览阅读1.7k次，点赞43次，收藏30次。序列到序列( sequence to sequence, seq2seq) 是指输入和输出各为一个序列(如一句话) 的任务。本节将输入序列称作源序列，输出序列称作目标序列。序列到序列有非常多的重要应用，其中最有名的是机器翻译( machine translation), 机器翻译模型的输入是待翻译语言(源语言) 的文本，输出则是翻译后的语言(目标语言) 的文本。此外，序列到序列的应用还有：改写( paraphrase)，即将输入文本保留原意，用意思相近的词进行重写；_序列到序列 transformer

分类: 业界资讯发布时间: 11-06 23:44 阅读次数: 0

NLP从零开始------17.文本中阶处理之序列到序列模型（2）

文章浏览阅读1.1k次，点赞32次，收藏22次。序列到序列模型可以看成一种条件语言模型，以源句x为条件计算目标句的条件概率该条件概率通过概率乘法公式分解为从左到右每个词的条件概率之积：序列到序列模型的监督学习需要使用平行语料，其中每个数据点都包含一对源句和目标句。以中译英机器翻译为例，平行语料的每个数据点就是一句中文句子和对应的一句英文句子。机器翻译领域较为有名的平行语料库来自机器翻译研讨会( workshop on machine translation， WMT)，其中的语料来自新闻、维基百科、小说等各种领域。_outputs.topk(1)

分类: 业界资讯发布时间: 11-06 23:44 阅读次数: 0

NLP从零开始------18.文本中阶处理之序列到序列模型（3）

文章浏览阅读1k次，点赞23次，收藏6次。贪心解码和束解码只是最基础的解码方法，其解码结果会出现许多问题。这里主要介绍3种常见问题，并简单介绍解决方案。

分类: 业界资讯发布时间: 11-06 23:44 阅读次数: 0

NLP从零开始------文本中阶处理之序列到序列模型（完整版）

文章浏览阅读1.7k次，点赞48次，收藏25次。序列到序列( sequence to sequence, seq2seq) 是指输入和输出各为一个序列(如一句话) 的任务。本节将输入序列称作源序列，输出序列称作目标序列。序列到序列有非常多的重要应用，其中最有名的是机器翻译( machine translation), 机器翻译模型的输入是待翻译语言(源语言) 的文本，输出则是翻译后的语言(目标语言) 的文本。此外，序列到序列的应用还有：改写( paraphrase)，即将输入文本保留原意，用意思相近的词进行重写；_序列到序列模型

分类: 业界资讯发布时间: 11-06 23:44 阅读次数: 0

大数据处理从零开始————2.Hadoop环境配置

文章浏览阅读1k次，点赞19次，收藏9次。官网下载即可。密钥：百度搜索一下有很多。_desktop hypervisor solutions

分类: 业界资讯发布时间: 11-06 23:43 阅读次数: 0

Datawhale------Tiny-universe学习笔记——Qwen(1)

文章浏览阅读981次，点赞13次，收藏26次。对于一个完全没接触过大模型的小白来说，猛一听这个名字首先会一懵：Qwen是啥。这里首先解答一下这个问题。下面是官网给出介绍：Qwen是阿里巴巴集团Qwen团队研发的大语言模型和大型多模态模型系列。其实随着大模型领域的发展，这类产品已经有很多了例如：由百度开发的ERNIE，由清华大学开发的Zhuiyi等等。目前，Qwen已升级至Qwen2版本。无论是语言模型还是多模态模型，均在大规模多语言和多模态数据上进行预训练，并通过高质量数据进行后期微调以贴近人类偏好。_qwen

分类: 业界资讯发布时间: 11-06 23:43 阅读次数: 0

Datawhale------Tiny-universe学习笔记——Qwen(2)

文章浏览阅读102次。对于推理的过程，问询不一样长没关系，因为所有的权重都是dim-dim，得到的attention_score是一个seq,seq的，权重跟seq的大小没关系。- 推理过程的attention_mask可有可无，是一个一个吐，循环cat到下一个，每一次都取最后一个，代表着预测的是下一个token.对于第二行，则是前两个有不同的权值，让value的128个维度分别依据这两个的权重，在128个维度上根据前两行，计算得出output的第二个词(第二步或者第二行)的128个维度.... 这种加权，体现出考虑前词关系。_`qwen2vlrotaryembedding` can now be fully parameterized by passing the model

分类: 业界资讯发布时间: 11-06 23:43 阅读次数: 0

大数据处理从零开始————3.Hadoop伪分布式和分布式搭建

文章浏览阅读1.5k次，点赞32次，收藏21次。伪分布式集群就是只有⼀个服务器节点的分布式集群。在这种模式中，我们也是只需要⼀台机器。但与本地模式不同，伪分布式采⽤了分布式的思想，具有完整的分布式⽂件存储和分布式计算的特点。在进⾏存储和计算时，将涉及到的相关守护进程都运⾏在同⼀台机器上，它们都是独⽴的 Java进程，因⽽称为“伪分布式集群”。伪分布式集群模式，⽐本地模式多了代码调试功能，允许检查内存的使⽤、HDFS输⼊输出、以及其他的守护进程交互情况。在真实的企业环境中，服务器集群会使⽤到多台机器共同配合，来构建⼀个完整的分布式⽂件系统。_什么是伪分布式集群

分类: 业界资讯发布时间: 11-06 23:43 阅读次数: 0

大数据处理从零开始————8.基于Java构建WordCount项目

文章浏览阅读1k次，点赞32次，收藏10次。下载IntelliJ IDEA。全部下一步，中途遇到需要勾选的全部勾选即可。

分类: 业界资讯发布时间: 11-06 23:42 阅读次数: 0

大数据处理从零开始————4.认识HDFS分布式文件系统

文章浏览阅读1.6k次，点赞29次，收藏23次。当单台服务器的存储容量和计算性能已经无法处理大文件时，分布式文件系统应运而生。什么是分布式系统，分布式系统是由多个独立的计算机或节点组成的系统，这些计算机通过网络连接，协同工作，以实现共同的目标或完成某些任务。Hadoop的分布式文件系统HDFS是基于Google的GFS（Google File System）论文建立的。HDFS优化了大数据的存储和访问，为处理海量数据提供了解决方案。HDFS是一个典型的Master/ Slave（主从）架构模型系统，旨在管理大型分布式数据集和密集计算。什么是主从架构？_hdfs

分类: 业界资讯发布时间: 11-06 23:42 阅读次数: 0