算法（二）--------SHA & Simhash - 代码天地

算法（二）--------SHA & Simhash

其他 2019-03-07 01:17:37 阅读次数: 0

版权声明： https://blog.csdn.net/Geroge_lmx/article/details/82833135

一. 哈希算法即SHA算法，安全散列算法：

python中的字典是一个散列表，由一个散列函数和数组实现。用于创建散列表的散列函数，接受一个字符串，返回数组的索引号。SHA也是一个散列函数，根据一个字符串，生成另一个字符串。SHA具有以下特点：

1. 同一个SHA函数，生成的字符串长度是固定的；

2. 无法通过散列值，推导出原始字符串;

3. SHA是局部不敏感的，如果修改字符串中的一个字符，得到的散列值将截然不同，因此攻击者将无法通过散列值是否相似来破解密码；

SHA散列函数应用于比较两个文件是否相同，存储，检查密码。如下代码封装了两个常用的方法，哈希一个字符串以及哈希一个文件：

import hashlib

def hashStr(strInfo):
    """对字符串进行hash"""
    hashObj = hashlib.sha256()
    hashObj.update(strInfo.encode("utf-8"))
    return hashObj.hexdigest()

CHUNCKSIZE = 2048
def hashFile(fileName):
    """对文件进行hash"""    
    hashObj = hashlib.sha256()
    with open(fileName, 'rb') as f:
        while True:
            # 这个地方不能一次性读取出来,如果文件太大,内存不够
            chunk = f.read(CHUNCKSIZE)
            if not chunk:
                break
            hashObj.update(chunk)
    return hashObj.hexdigest()
    
print(hashStr("hello"))
print(hashFile("测试.txt"))

二. Simhash局部敏感的散列算法

对于局部敏感的散列算法，如果对字符串做细微的修改，那么simhash生成的散列值也只存在细微的差别。利用这个特点，我们可以比较两个字符串的相似层度，这很有用！例如;

搜索引擎可以利用simhash判断网页是否已经被收集；
论文查重
上传涉及版权问题的文件，自动拒绝

猜你喜欢

转载自blog.csdn.net/Geroge_lmx/article/details/82833135

算法（二）--------SHA & Simhash

SimHash算法

LSH之simHash算法

SimHash算法原理

simhash

Algorithm：SimHash算法+倒排索引

网页去重之Simhash算法

JAVA实现simHash算法等工具类

以图搜图技术与simhash算法.md

字面文本相似度算法——SimHash

simhash原理以及用python3实现simhash算法详解（附python3源码）

Simhash算法原理和网页查重应用

[转]文档去重算法：SimHash和MinHash

海量数据去重之SimHash算法简介和应用

[转] 文本相似性算法Simhash原理及实践

新闻去重新闻内容去重算法simhash实践

根据simhash找出集合中相似文档的算法

文本相似性算法Simhash原理及实践

基于 SimHash 算法的文本相似度计算原理简介

simhash的原理

去重算法，simhash，shingle，百度去重算法

算法 # SimHash 算法：文本相似度、文本去重、海量文本快速查询

爬虫中的网页去重最适合的算法---simhash算法

simhash简单实现 python java （有助于更好的理解算法）

相似性︱python+opencv实现pHash算法+hamming距离（simhash）（三）

【java 走进NLP】simhash 算法计算两篇文章相似度

【python 走进NLP】simhash 算法计算两篇文章相似度

Java 实现一个基于 SimHash 算法的海量相似文本检索工具

终结篇：Java 实现 SimHash 算法和相似文本检索工具代码

使用SimHash算法实现千万级文本数据去重插入（python版代码）

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)