【python】《多媒体技术与应用》实验报告「数字图像压缩」「傅里叶变换」

《多媒体技术与应用》实验报告

实验名称

实验二数字图像压缩

实验时间

2022/4/11

姓名

班级

计非201

学号

成绩

实验目的

理解图像压缩的主要原则和目的，理解有损和无损压缩的概念;
了解几种常用的图像压缩编码方法;
利用 Python 进行图像压缩算法验证。

二．实验原理

用 DCT 压缩图像的过程为： (1)首先将输入图像分解为 8×8 或 16×16 的块，然后对每个子块进行二维 DCT 变换。 (2)将变换后得到的量化的 DCT 系数进行编码和传送，形成压缩后的图像格式。用 DCT 解压的过程为： (1)对每个 8×8 或 16×16 块进行二维 DCT 反变换。 (2)将反变换的矩阵的块合成一个单一的图像。

余弦变换具有把高度相关数据能量集中的趋势，DCT 变换后矩阵的能量集中在矩阵的左上角，右下的大多数的 DCT 系数值非常接近于 0。对于通常的图像来说，舍弃这些接近于 0 的 DCT 的系数值，并不会对重构图像的画面质量带来显著的下降。所以，利用 DCT 变换进行图像压缩可以节约大量的存储空间。压缩应该在最合理地近似原图像的情况下使用最少的系数。使用系数的多少也决定了压缩比的大小。在压缩过程的第 2 步中，可以合理地舍弃一些系数，从而得到压缩的目的。在压缩过程的第 2 步，还可以采用 RLE 和 Huffman来进一步压缩.

三．实验内容与关键步骤

求 RGB 彩色空间各个通道：

彩色空间转换（RGB-HSI）：

信号的傅里叶变换

图像的傅里叶变换

基于频域滤波的图像压缩

JPEG 压缩算法中的 DCT 部分

四．代码

1. 求 RGB 彩色空间各个通道

from skimage import data
from matplotlib import pyplot as plt
import numpy as np

image = data.logo()  # 载入测试图像
fig = plt.figure()
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
# 两行两列的第一个子图
axis = fig.add_subplot(221)
plt.axis('off')  # 不显示坐标轴
plt.imshow(image)  # 显示RGB彩色图像
plt.title('RGB图像')
# 第二个子图
axis = fig.add_subplot(222)
imageR = image[:, :, 0]
plt.axis('off')
plt.imshow(imageR, cmap='gray')  # 显示R通道图像
plt.title('R通道图像')
# 第三个子图
axis = fig.add_subplot(223)
imageG = image[:, :, 1]
plt.axis('off')
plt.imshow(imageG, cmap='gray')  # 显示G通道图像
plt.title('G通道图像')
# 第四个子图
axis = fig.add_subplot(224)
imageB = image[:, :, 2]
plt.axis('off')
plt.imshow(imageB, cmap='gray')  # 显示B通道图像
plt.title('B通道图像')
plt.show()
# plt.savefig('RGB通道图像.tif')   #也可以把结果保存为图像文件

2. 彩色空间转换（RGB-HSI）

import skimage
from matplotlib import pyplot as plt
import math
import numpy as np
import sys
from skimage import io


# 定义RGB转HSI
def rgb2hsi(r, g, b):
    r = r / 255
    g = g / 255
    b = b / 255
    h = 0
    num = 0.5 * ((r - g) + (r - b))
    den = ((r - g) * (r - g) + (r - b) * (g - b)) ** 0.5

    if b <= g:
        if den == 0:
            den = sys.float_info.min
        h = math.acos(num / den)
    elif b > g:
        if den == 0:
            den = sys.float_info.min
        h = (2 * math.pi) - math.acos(num / den)

    s = 1 - (3 * min(r, g, b) / (r + g + b))
    i = (r + g + b) / 3

    return int(h), int(s * 100), int(i * 255)


# 注意skimage中的图片读取方式
image = io.imread('lenacolor.png')
hsi_image = np.zeros(image.shape, dtype='uint8')
for ii in range(image.shape[0]):
    for jj in range(image.shape[1]):
        r, g, b = image[ii, jj, :]
        h, s, i = rgb2hsi(r, g, b)
        hsi_image[ii, jj, :] = (h, s, i)

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.subplot(2, 3, 1)
plt.axis('off')
plt.imshow(image)
plt.title('RGB原图像')
plt.subplot(2, 3, 2)
plt.axis('off')
plt.imshow(image[:, :, 0], cmap='gray')
plt.title('R分量')
plt.subplot(2, 3, 3)
plt.axis('off')
plt.imshow(hsi_image)
plt.title('HSI图像')
plt.subplot(2, 3, 4)
plt.axis('off')
plt.imshow(hsi_image[:, :, 0], cmap='gray')
plt.title('H分量')
plt.subplot(2, 3, 5)
plt.axis('off')
plt.imshow(hsi_image[:, :, 1], cmap='gray')
plt.title('S分量')
plt.subplot(2, 3, 6)
plt.axis('off')
plt.imshow(hsi_image[:, :, 2], cmap='gray')
plt.title('I分量')
plt.savefig('HSIimage2.tif')

3. 信号的傅里叶变换

import matplotlib.pyplot as plt
import numpy as np

"""
中文显示工具函数
"""


def set_ch():
    from pylab import mpl
    mpl.rcParams['font.sans-serif'] = ['FangSong']
    mpl.rcParams['axes.unicode_minus'] = False


set_ch()


def show(ori_func, ft, sampling_period=5):
    n = len(ori_func)
    interval = sampling_period / n
    # 绘制原始函数
    plt.subplot(2, 1, 1)
    plt.plot(np.arange(0, sampling_period, interval), ori_func, 'black')
    plt.xlabel('时间'), plt.ylabel('振幅')
    plt.title('原始信号')
    # 绘制变换后的函数
    plt.subplot(2, 1, 2)
    frequency = np.arange(n / 2) / (n * interval)
    nfft = abs(ft[range(int(n / 2))] / n)
    plt.plot(frequency, nfft, 'red')
    plt.xlabel('频率 (Hz)'), plt.ylabel('频率谱')
    plt.title('傅里叶变换结果')
    plt.subplots_adjust(left=None, bottom=None, right=None, top=None, wspace=None, hspace=0.9)  # 调整子图间距
    plt.show()


# 生成频率为 1（角速度为 2 * pi）的正弦波
time = np.arange(0, 5, .005)
x = np.sin(5 * np.pi * 3 * time)
y = np.fft.fft(x)
show(x, y)

4. 图像的傅里叶变换

from skimage import data
import numpy as np
from matplotlib import pyplot as plt

"""
中文显示工具函数
"""


def set_ch():
    from pylab import mpl
    mpl.rcParams['font.sans-serif'] = ['FangSong']
    mpl.rcParams['axes.unicode_minus'] = False


set_ch()

img = data.coins()
f = np.fft.fft2(img)  # 快速傅里叶变换算法得到频率分布
fshift = np.fft.fftshift(f)  # 默认结果中心点位置是在左上角，转移到中间位置

fimg = np.log(np.abs(fshift))  # fft 结果是复数，求绝对值结果才是振幅

# 展示结果
plt.subplot(121), plt.imshow(img, 'gray'), plt.title('原始图像')
plt.subplot(122), plt.imshow(fimg, 'gray'), plt.title('傅里叶频谱')
plt.show()

5. 基于频域滤波的图像压缩

# 导入相关库
from skimage import data, color
import numpy as np
import matplotlib.pyplot as plt

"""
中文显示工具函数
"""


def set_ch():
    from pylab import mpl
    mpl.rcParams['font.sans-serif'] = ['FangSong']
    mpl.rcParams['axes.unicode_minus'] = False


set_ch()

D = 10
# 读入图片
new_img = data.astronaut()
new_img = color.rgb2gray(new_img)

# numpy中的傅里叶变化
f1 = np.fft.fft2(new_img)
f1_shift = np.fft.fftshift(f1)
# np.fft.fftshift()函数来实现平移,让直流分量在输出图像的重心

# 实现理想低通滤波器
rows, cols = new_img.shape
crow, ccol = int(rows / 2), int(cols / 2)  # 计算频谱中心
mask = np.zeros((rows, cols), np.uint8)  # 生成rows行cols的矩阵，数据格式为uint8
for i in range(rows):
    for j in range(cols):
        if np.sqrt(i * i + j * j) <= D:
            # 将距离频谱中心小于D的部分低通信息 设置为1，属于低通滤波
            mask[crow - D:crow + D, ccol - D:ccol + D] = 1
f1_shift = f1_shift * mask

# 傅里叶逆变换
f_ishift = np.fft.ifftshift(f1_shift)
img_back = np.fft.ifft2(f_ishift)
img_back = np.abs(img_back)
img_back = (img_back - np.amin(img_back)) / (np.amax(img_back) - np.amin(img_back))

# plt.figure(figsize=(15,8))
plt.figure()
plt.subplot(121), plt.imshow(new_img, cmap='gray'), plt.title('原始图像')
plt.subplot(122), plt.imshow(img_back, cmap='gray'), plt.title('滤波后图像')
plt.show()

6. JPEG 压缩算法中的 DCT 部分

# 基于离散余弦变换DCT的图像压缩
import cv2
import numpy as np
import matplotlib.pyplot as plt

img = cv2.imread('coffee.png', 0)  # 读取图片

img1 = img.astype('float')  # 将uint8转化为float类型

img_dct = cv2.dct(img1)  # 进行离散余弦变换

img_dct_log = np.log(abs(img_dct))  # 进行log处理

img_recor = cv2.idct(img_dct)  # 进行离散余弦反变换

# 图片压缩，只保留100*100的数据
recor_temp = img_dct[0:10, 0:10]
recor_temp2 = np.zeros(img.shape)
recor_temp2[0:10, 0:10] = recor_temp
# 压缩图片恢复
img_recor1 = cv2.idct(recor_temp2)
# 显示
plt.subplot(221)
plt.imshow(img)
plt.title('original')

plt.subplot(222)
plt.imshow(img_dct_log)
plt.title('dct transformed')

plt.subplot(223)
plt.imshow(img_recor)
plt.title('idct transformed')

plt.subplot(224)
plt.imshow(img_recor1)
plt.title('idct transformed2')
plt.subplots_adjust(left=None, bottom=None, right=None, top=None, wspace=None, hspace=0.9)  # 调整子图间距
plt.show()

五．实验结果与分析

求 RGB 彩色空间各个通道

Coffee

Retina

Logo

结果