图像相似度识别算法aHash|dHash|PHash

2023-09-18 17:26:25


aHash\pHash\dHash 是常用的图像相似度识别算法,原理简单、实现方便。

aHash算法

Hash算法进行图片相似度识别的本质,就是将图片进行Hash转换,生成一组二进制数字,然后通过比较不同图片的Hash值距离找出相似图片。aHash中文叫平均哈希算法,顾名思义,在进行转化过程中将用到像素均值。

基本原理

  1. 缩小尺寸。这样做会去除图片的细节,只保留结构、明暗等信息,目的是统一图片大小,保证后续图片都有相同长度的哈希值,方便距离计算
  2. 灰度化处理。将图片全部转换为统一的灰度值
  3. 计算像素均值。计算像素的灰度平均值
  4. 哈希值计算。将每个像素的灰度,与平均值进行比较。大于或等于平均值,记为1,小于平均值,记为0,由此生成二进制数组
  5. 图片配对,计算汉明距离。距离越近,越相似。当图片缩小为8X8时,通常认为汉明距离小于10的一组图片为相似图片。

优缺点

优点:速度快
缺点:精确度较差,对均值敏感

python实现

from PIL import Image
import os 
import numpy as np

# 均值哈希算法
def aHash(image):
	image_new = image
	# 计算均值
	avreage = np.mean(image_new)
	hash = []
	for i in range(image.shape[0]):
		for j in range(image.shape[1]):
			if image[i.j] > avreage:
				hash.append(1)
			else:
				hash.append(0)
	return hash

# 计算汉明距离
def Hamming_distance(hash1,hash2):
	num = 0
	for index in range(len(hash1)):
		if hash1[index] != hash2[index]:
			num += 1
	return num

if __name__  == '__main__':
	image1 = Image.open("image1.png")
	image2 = Image.open("image2.png")
	# 缩小尺寸并灰度化
	image1 = np.array(image1.resize((8,8),image.ANTIALIAS).convert('L'),'f')
	image2 = np.array(image2.resize((8,8),image.ANTIALIAS).convert('L'),'f')
	hash1 = aHash(image1)
	hash2 = aHash(image2)
	dist = Hamming_distance(hash1,hash2)
	# 将汉明距离转化为相似度
	similarity = 1 - dist * 1.0 /64
	print('dist is ' + '%d' % dist)
	print('similarity is ' + '%d' % similarity)

dHash算法

dHash中文叫差异哈希算法,在对图片进行哈希转换时,通过左右两个像素大小的比较,得到最终哈希序列

基本原理

  1. 缩小尺寸。将图像缩小为9X8大小,此时照片上有72个像素点
  2. 灰度化处理
  3. 计算差异值,获得最后哈希值(与aHash主要区别)。比较每行左右两个像素,如果左边的像素比右边的像素更亮(左边的像素值大于右边像素值),则记录为1,否则为0。因为每行有9个元素,左右两个一次比较可得8个值,所以8行像素共可以得出64个值,因此此时哈希值为长度是64的0-1序列。
  4. 图片配对,计算汉明距离

优缺点

速度快、判断效果比aHash好

python代码实现

from PIL import Image
import os 
import numpy as np
import time
# 差异哈希算法
def dHash(image):
	image_new = image
	# 计算平均值
	avreage = np.mean(image_new)
	hash = []
	# 每行前一个像素大于后一个像素为1 相反为0 生成哈希
	for i in range(8):
		for j in range(8):
			if image[i,j] > image[i , j+1]:
				hash.append(1)
			else:
				hash.append(0)
	return hash

# 计算汉明距离
def Hamming_distance(hash1,hash2):
	num = 0
	for index in range(len(hash1)):
		if hash1[index] != hash2[index]:
			num += 1
	return num

if __name__ == '__main__':
	image1 = Image.open('image1.png')
	image2 = Image.open('image2.png')
	start = time.time()
	image1 = np.array(image1.resize((9,8),Image.ANTIALIAS).convert('L'),'f')
	image2 = np.array(image2.resize((9,8),Image.ANTIALIAS).convert('L'),'f')
	hash1 = dHash(image1)
	hash2 = dHash(image2)
	dist = Hamming_distance(hash1,hash2)
	end = time.time()
	# 将距离转换为相似度
	similarity = 1 - dist * 1.0 / 64
	print('dist is '+ '%d' % dist)
	print('similarity is '+'%d'%similarity)
	print('time is ' + '%f'%(end-start))
	
更多推荐

信创办公–基于WPS的EXCEL最佳实践系列 (限制可录入内容)

信创办公–基于WPS的EXCEL最佳实践系列(限制可录入内容)目录应用背景操作过程1、数据有效性(支出证明单)2、如何完成数据有效性的使用(差旅报销申请表)3、清除数据验证4、利用圈释无效数据,验证已输入数据的有效性。5、灵活性调整数据有效性。应用背景本章内容主要讲解:如何在WPS上利用excel去获取数据,如何通过手

dockerfile用ENTRYPOINT好还是用CMD好

在Dockerfile中使用`ENTRYPOINT`和`CMD`都有其用途和优劣势,具体取决于你的应用和需求。这两个指令的主要区别在于如何处理容器启动时的命令参数。1.`CMD`指令:-`CMD`用于定义容器启动时的默认命令,但它可以在运行容器时被替代。如果在运行容器时提供了命令参数,那么这些参数会覆盖`CMD`中定义

说下 RESTful API 使用的几个方法

在最近的面试中,有问到说是说一下RESTfulAPI的几个方法。这次面试问的问题还是比较多的,但是很多问题都是开放性问题,说心里话很长时间没有遇到这样比较好的沟通式面试了。不少公司,以上来就做题目,这个让人很反感。不过现在做题目的过程中,很多公司也都强调,我们不需要有完整的方案,不能运行也没有关系,主要是看思路吧。小结

C++之mutex、operator()、lambda应用总结(二百三十一)

简介:CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长!优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀人生格言:人生从来没有捷径,只有行动才是治疗恐惧和懒惰的唯一良药.更多原创,欢迎关注:Android系统攻城狮1.前言本篇目的:理解C+

总结分析 | 基于phpmyadmin的渗透测试

一、什么是phpmyadmin?phpMyAdmin是一个以PHP为基础,以Web-Base方式架构在网站主机上的MySQL的数据库管理工具,让管理者可用Web接口管理MySQL数据库。借由此Web接口可以成为一个简易方式输入繁杂SQL语法的较佳途径,尤其要处理大量资料的汇入及汇出更为方便。其中一个更大的优势在于由于p

凌恩明星产品eDNA再升级:海洋脊椎动物数据库上线!!

凌恩生物明星产品鱼类eDNA产品再次大升级!海洋脊椎动物数据库个性化定制服务上线!自建海洋脊椎动物个性化数据库,更全面的物种分类,更完善的分析内容!!eDNA宏条形码技术在海洋物种多样性调查研究中的优势明显,相比于传统的捕捞、拖网监测技术,eDNA宏条形码技术灵敏度更高,能够检出更多的海洋脊索物种,并且具有高时效性,在

MySQL缓冲池Buffer Pool

前言​在应用系统中,为加速数据访问,会把高频的数据放在「缓存」(Redis、MongoDB)里,减轻数据库的压力。在操作系统中,为了减少磁盘IO,同时为了快速响应,引入了「缓冲池」(bufferpool)机制。​MySQL作为一个存储系统,为提高性能,减少磁盘IO,同样具有「缓冲池」(bufferpool)机制。介绍​

风靡全国的真人猫抓老鼠是什么?

某音上这个词条2.6亿,小某书上1.2亿。据说已经风靡全国50多个城市了。各大新闻网站和自媒体人争相报道,热度直接拉满!现在的年轻人真会玩!仔细了解过后发现,它火是有内在原因的,现在都市工作后没有可以放松的体育项目,健身房老跑路不说,普通人很难坚持下来,那么多年轻人想要社交破圈。这游戏活动都能解决。社交+娱乐+运动,一

使用企业订货软件的担忧与考虑|网上APP订货系统

使用企业订货软件的担忧与考虑|网上APP订货系统网上订货系统担心出现的问题1,如果在订货系统中定错(多)货物了该怎么办其实这也是很多人在网购或者是现实中经常会犯的一个错误,但是网上订货平台为大家提供了很多的解决方案,其中对于订单的修改就是其中一种。我们可以将网上企业订货系统系统,想象成为一个大型的电商平台。而对于订单修

C语言之双向链表

C语言之双向链表双向链表的创建和遍历#include<stdio.h>#include<stdint.h>//定义结点结构体typedefstructstudent{//数据域intnum;//学号intscore;//分数charname[20];//姓名//指针域structstudent*front;//保存上一

WebAssembly跨平台开发

一、简介WebAssembly是一种新型的低级字节码,其设计目标是提供一种可移植的目标代码。WebAssembly可以在浏览器中运行并与JavaScript交互,可用于在Web平台上运行高性能,低延迟的应用程序,也可用于跨平台开发桌面应用、服务端应用和IoT应用程序。与JavaScript的对比,JavaScript是

热文推荐