小白nlp入门基础(一)--nlp简介

nlp学习笔记一 编者:杨柳依依 日期:2018年9月25日 随同公司的培训,对nlp有了初步的理解,小白整理后的笔记如下: 自然语言的发展 语言随社会一同发展,出现 一词多义:苹果(水果),苹果(乔布斯公司) 多词一义:北京市,北京 简略词、缩写词:安徽,徽 新词:不明觉厉,十动然拒 新义:水军、打酱油 歧义问题: 音字转换(jiqi(机器)翻译jiqi(激起)ren men jiqi(及其) nong hou de xingqu) 词汇歧义(分词歧义):分词 严守一把手机关了 严守/一把手
分类: 其他 发布时间: 11-03 22:20 阅读次数: 0

计算机视觉与图像:八大热点公司以及九大应用场景

根据 IT 桔子数据,国内人工智能产业中「计算机视觉与图像」领域的公司数量已达 111 家,仅次于「自然语言处理」类公司,位居第二。 我们将那些核心技术为「将深度学习技术应用于视觉与图像领域」的公司归到「计算机视觉与图像」类。同时,「无人机」和「机器人」相关公司并未被统计在内,这部分公司虽然也会涉及到计算机视觉技术,但以后将会单独在「无人机」和「机器人」专题中有所体现。 我们通过对这 111 家公司进行观察,按公司的业务对企业进行统计如下: 总融资额过亿的第一梯队公司盘点 在这 111 家人工
分类: 其他 发布时间: 11-03 22:20 阅读次数: 0

文本上的算法读书笔记四--分布式系统

第三篇 应用篇 如何计算的更快 随着数据量的爆炸式增长,如何存储和计算海量数据就成了一个问题。解决的方法之一是使用分布式系统,可以更快更好的完成用户的请求。 程序优化 程序执行时,经过将目标文件中的代码和数据从磁盘拷贝到主存,从存储器拷贝到寄存器堆,再从寄存器中拷贝到显示器上。 花费大量的时间把信息从一个地方拷贝到另一个地方。需要系统设计者考虑怎么设计存储器使拷贝操作尽可能快。 存储器结构,越上层的速度越快但存储量小,相反,越下层的速度越慢但存储量大。 程序的优化有3个方向: 1).系统级(分
分类: 其他 发布时间: 11-03 22:20 阅读次数: 0

文本上的算法读书笔记五--nlp的需要知道的术语

搜索引擎的基本的术语 1.tf/df/idf tf是词频,就是某个词的出现的次数,表示的是一个词的局部信息。 df是文档频率,就是指某个词的文档频率,这个词在多少个文档中出现。 idf是逆文档频率,它是词重要性的一个很好的衡量。计算如下: 在大量语料库中统计的,所以一般表示一个词的全局信息。 2.pagerank pagerank用来衡量网页重要性的一个指标。 核心思想是投票原则。如果指向某个网页的链接非常多且质量很高,那么该网页的质量也就很高。计算公式: 网页链向网页A,C(A)表示网页A的
分类: 其他 发布时间: 11-03 22:19 阅读次数: 0

计算机视觉之目标检测一之SSD

目标检测——SSD 编者:杨柳依依 日期:2018年9月27日 今天给大家介绍一篇目标检测领域中经典的一篇论文,15年发表在ECCV。 1.背景知识 在介绍论文之前,我们先简单了解下本文的思路和做法。 作者提出了一种单个深度神经网络来解决图像中的目标检测的问题。这种方法,叫做SSD,将边框的输出空间在特征映射图离散化到不同比例或者不同尺度的先验边框集中。在预测阶段,网络产生每一个感兴趣的目标的置信度并且对先验框调整使其更加匹配目标形状。另外,网络利用了不同分辨率的大量的特征映射的预测来处理不同
分类: 其他 发布时间: 11-03 22:19 阅读次数: 0

文本上的算法读书笔记六--搜索引擎

6 搜索引擎是什么玩意儿 Google这家搜索引擎公司的巨大成功,才把文本处理技术推向了一个新的高度。 6.1 搜索引擎原理 假设Q为用户要查询的关键词;为所有网页集合中第i个网页;表示给定一个Q,第i个网页满足了用户需求的概率,那么搜索引擎干的就是根据用户的输入Query(也包括一些隐性的信息,比如地域等),在所有的网页集合中计算,并排序返回给用户。 如果按照之前的相关性方法把query和每一个网页的相关性计算出来,然后排个序。但是互联网的网页数量多的惊人,这样的方法计算量太大,因为大部分是
分类: 其他 发布时间: 11-03 22:19 阅读次数: 0

文本上的算法读书笔记七--理解语言有多难

理解语言有多难 7.1 自然语言处理 自然语言处理NLP是让计算机能处理语言,20世纪50年代,大家关心的是人类学习语言的认知研究上,计算机处理语言,必须先分析语句和获取语义,需要分析词的次序,句子的句法规则,就是乔姆斯基的有限状态自动机刻画语言的语法,建立了自然语言的有限状态模型,这时是基于规则的服好主意方法。人工智能兴起后,20世纪70年代开始,逐步关注基于统计的联结主义方法。并在90年代的IBM基于统计机器学习的语音识别系统和翻译系统的突破以及机器学习算法的研究,让人们看到了基于统计的联
分类: 其他 发布时间: 11-03 22:19 阅读次数: 0

文本上的算法读书笔记一--基础知识

1.1 概率论 概率描述一些事情发生的可能性。 大数定理: 当试验次数(样本)足够多的时候,事件出现的频率无限接近于该事件真实发生的概率。 来表示随机变量的概率,那么就要满足如下两个特性: 联合概率 表示两个事件共同发生的概率,如果相互独立,则 条件概率 是指在已知事件x已发生的情况下,事件y发生的概率。且有。如果这两个事件相互独立,那么与相等。 联合概率和条件概率分别对应两个模型:生成模型和判别模型。 期望: 概率分别的均值称为期望: 期望就是对每个可能的的取值x,与其对应的概率值,进行相乘
分类: 其他 发布时间: 11-03 22:18 阅读次数: 0

文本上的算法读书笔记二--我们生活在一个寻求最优的世界里

最优化模型是机器学习的内功,几乎每一个机器学习背后都是一个最优化模型。 2.1 最优化问题 科学抽象于生活,科学服务于生活。每个机器学习背后都是个最优化问题。希望付出最小的成本来获得最大的收益。 一般的最优化形式表示如下: 是目标函数,和分别是约束条件,没有约束条件的(只有,称为无约束优化,只有和称为等式约束优化,和、都有称为不等式约束优化) 设计一个模型来代替真实模型(假设为你设计的模型,为真实模型,为整个模型的输入),怎么才能说你设计的模型很好呢?只要你设计的模型与真实的模型误差很小,那么
分类: 其他 发布时间: 11-03 22:18 阅读次数: 0

配置pycharm专业版同步修改远程服务器代码以及使用远程解释器调试

配置pycharm同步修改远程服务器代码以及使用远程解释器调试 场景: 假如你的代码需要在服务器上运行,代码是python写的,那么你想编写以及调试代码,如果用虚拟机或者xshell连接后的vim编辑,显然极不方便,哪怕你装了豪华版的vim,或者在线jupyter编辑,但是pycharm专业版的代码映射方式是个非常nice的选择。 以前用的pycharm社区版没有发现这个如此有用的功能,果然花钱了体验就是不一样。 配置 安装pycharm专业版 你有一台远程服务器的账号 ip:192.168.
分类: 其他 发布时间: 11-03 22:18 阅读次数: 0

知识图谱演示界面调研

演示系统调研 图谱展示形式调研 cdsn知识库网站 前端实现技术 知识工场实验室推出的知识图谱探索式交互系统curiosity 展示地址 图谱可视化 特点:节点可移动,但是相关节点不会跟着移动 浏览历史表 实体关系表 图谱放大效果 介绍信息 特点:通过放大缩小可以展示更多信息,每一个链接的都是一个实体,可以成为节点再次展开,鼠标停在实体上时,显示实体的介绍。 爱图谱 检索人名和概念 东北大学自然语言处理实验室知识图谱组,最近上线的一个“爱图谱”的知识图谱演示网站,可以对人工智能一些学术人员和学
分类: 其他 发布时间: 11-03 22:18 阅读次数: 0

flask+SQLAlchemy使用blueprint模块化

flask使用blueprint模块化 原来我们的flask程序是写在一个文件里的,但是这非常不利于python的代码模块化以及代码优美的作用,所以当代码越写越长时,模块化的需求就产生了。 经过多次踩坑以及借助谷歌大法实现了原代码的模块化,整理了一下单文件重构的方式,现在整理出来帮助自己梳理和分享交流。 我们的代码重构包括两块: flask+SQLAlchemy flask+blueprint flask+SQLAlchemy SQLAlchemy使用简介 阅读廖老师写的SQLAlchemy,
分类: 其他 发布时间: 11-03 22:17 阅读次数: 0

Linux运维入门~1.虚拟机使用

大家如果刚开始学习linux又没有实践的地方,推荐大家安装使用VMware虚拟机,百度搜索下载并安装,一键解决所有问题。 接下来介绍虚拟机使用方法,以linux系统中的虚拟机为例: 本机中装有两台虚拟机:Desktop,Server 一 简单使用虚拟机 1.启动虚拟机 指令:rht-vmctl start desktop (desktop可替换为你的虚拟机名称) 如果你输入此段指令系统报错: Error: desktop not started (is already running) 别担心
分类: 其他 发布时间: 11-03 22:17 阅读次数: 0

Linux运维入门~2.命令行使用技巧

这一节我们学习与linux交互的方式 作为一个windows的老用户,初接触linux系统,甚是不习惯,但是玩两天,感觉这种输代码,系统就会有回复方式还是蛮有趣的, 甚至还能作出删库这种“有趣”的操作。。那么废话不多说,开始吧: 1.认识shell 在当前系统鼠标右击,单击Open in Terminal 即可打开终端 或者在Applications中单击Terminal 那么问题来了,shell到底是什么? shell 是操作系统中的一个软件,它包在 linux 内核的外面,为用户和内核之间
分类: 其他 发布时间: 11-03 22:16 阅读次数: 0

Linux运维入门~3.文件管理

本节会与大家分享一些文件管理常用的命令 帮助大家理解在linux中管理文件目录 windows的老用户应该知道,在windows中是文件夹中包含文件与文件夹, 但是在Linux中,文件夹称为目录。 理解这一点就可以开始啦。 文件管理: 1.创建文件 指令:touch (文件目录)文件名 括号内容不加即默认当前目录 例: 小贴士: 1)touch命令用来创建单个空白文件或批量创建空白文件 2)指令:pwd 显示当前目录 例: 2.创建目录 mkdir (所在目录)目录名称 括号内不加即为当前目录
分类: 其他 发布时间: 11-03 22:16 阅读次数: 0

Linux运维入门~4.输入输出管理与vim管理

今天我们来聊一下输入输出管理与vim 一 输入输出管理 1.输出管理 在Linux运维过程中,我们会需要管理输出的信息,或是储存到文件,或是调用部分信息 那我们举个例子: 在普通用户student下,利用find指令查看/etc 下文件 指令:find /etc/ -name passwd 会显示很多报错信息,这时如果需要分类储存到文件中,就需要用到输出重定向 find /etc/ -name passwd > file 重定向输出正确信息到file find /etc/ -name pass
分类: 其他 发布时间: 11-03 22:16 阅读次数: 0

Linux运维入门~5.用户管理

无论是在企业中还是日常生活中,登录一台设备肯定不只一个人,所以,这个时候就要用到今天介绍的多用户管理。 1.用户分类 在linux下用户是根据角色定义的,具体分为三种角色: 超级用户:拥有对系统的最高管理权限,默认是root用户。 普通用户:只能对自己目录下的文件进行访问和修改,具有登录系统的权限。 虚拟用户:不能登录系统,它们的存在主要是方便系统管理,满足相应的系统进程对文件属主的要求。 2.用户和组的概念 我们知道,Linux是一个多用户多任务的分时操作系统,如果要使用系统资源,就必须向系
分类: 其他 发布时间: 11-03 22:16 阅读次数: 0

Linux运维入门~6.文件权限管理

出于安全的考虑,多用户操作系统需要具备保障个人隐私和系统安全的机制。在Linux中,无论是文档还是硬件设备都以文件的形式存在, 相应地,安全机制也主要表现为对文件访问权限的控制。要保证相应的文件被可用的用户操作。 本节就是linux相应的文件权限管理。 1.查看文件权限 ls -l 文件 ls -ld 目录 ll 文件 ll -d 目录 2.文件权限的读取 1)文件类型 - rw- r-- r-- 1 root root 0 Oct 8 07:30 westos - 空文件,或者文本 d 目录
分类: 其他 发布时间: 11-03 22:15 阅读次数: 0

Linux运维入门~7.进程管理

在Linux中,系统未完成并且正在进行的工作就是进程 使用命令:gnome-system-monitor 即可 1.查看进程 进程查看命令 ps -A 所有进程 ps -a 在当前环境中运行的进程,不包含环境信息 ps -u 显示进程用户信息 ps a 在当前环境中运行的进程 ps x 列出系统中所有运行包含tty输出设备 ps f 显示进程的父子关系 ps e 显示进程的详细信息(系统资源的调用) 1)ps 常用组合 ps aux 显示系统中所有进程并显示进程用户 ps ef 显示进程详细信
分类: 其他 发布时间: 11-03 22:15 阅读次数: 0

Linux运维入门~8.sshd服务管理

本节介绍的是sshd服务,sshd=secure shell,是通过网络在主机中开启shell的服务 我们需要两台安装并启动sshd服务的虚拟机来完成操作,一台serve作为服务端(黑底绿字),一台desktop作为客户端。 服务端IP:172.25.254.178 客户端IP:172.25.254.201 此时可以连接对方主机 1.口令连接 ssh username@ip 文本模式的链接 ssh -X username@ip 可以在链接成功后开启图形模式 例:知道对方ip和root密码后,获
分类: 其他 发布时间: 11-03 22:15 阅读次数: 0