对于数字识别这个任务而言,它并不是一个新的研究方向,很久之前就有很多的学者们在关注这个问题,并提出了一些可行的解决方案,本小节我们将对这些方案进行简单的总结。
在现实生活中,我们经常会看到各种各样的LCD屏幕,小到我们的MP3,大到广场中的电视等,随着各种应用的不断出现,LCD屏幕频繁的出现在我们现实生活中的多个场景中,而快速、准确的识别出LCD上面的数字就成为了一个新的刚需,这样可以极大的节约人力和物力成本,下面将对LCD屏幕数字识别的原理进行说明,知其然不许知其所以然。
# coding=utf-8
# 导入一些python包
from imutils.perspective import four_point_transform
from imutils import contours
import imutils
import cv2
# 定义每一个数字对应的字段
DIGITS_LOOKUP = {
(1, 1, 1, 0, 1, 1, 1): 0,
(0, 0, 1, 0, 0, 1, 0): 1,
(1, 0, 1, 1, 1, 1, 0): 2,
(1, 0, 1, 1, 0, 1, 1): 3,
(0, 1, 1, 1, 0, 1, 0): 4,
(1, 1, 0, 1, 0, 1, 1): 5,
(1, 1, 0, 1, 1, 1, 1): 6,
(1, 0, 1, 0, 0, 1, 0): 7,
(1, 1, 1, 1, 1, 1, 1): 8,
(1, 1, 1, 1, 0, 1, 1): 9
}
# 读取输入图片
image = cv2.imread("example.jpg")
# 将输入图片裁剪到固定大小
image = imutils.resize(image, height=500)
# 将输入转换为灰度图片
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
# 进行高斯模糊操作
blurred = cv2.GaussianBlur(gray, (5, 5), 0)
# 执行边缘检测
edged = cv2.Canny(blurred, 50, 200, 255)
cv2.imwrite('edge.png', edged)
# 在边缘检测map中发现轮廓
cnts = cv2.findContours(edged.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = imutils.grab_contours(cnts)
# 根据大小对这些轮廓进行排序
cnts = sorted(cnts, key=cv2.contourArea, reverse=True)
displayCnt = None
# 循环遍历所有的轮廓
for c in cnts:
# 对轮廓进行近似
peri = cv2.arcLength(c, True)
approx = cv2.approxPolyDP(c, 0.02 * peri, True)
# 如果当前的轮廓有4个顶点,我们返回这个结果,即LCD所在的位置
if len(approx) == 4:
displayCnt = approx
break
# 应用视角变换到LCD屏幕上
warped = four_point_transform(gray, displayCnt.reshape(4, 2))
cv2.imwrite('warped.png', warped)
output = four_point_transform(image, displayCnt.reshape(4, 2))
# 使用阈值进行二值化
thresh = cv2.threshold(warped, 0, 255, cv2.THRESH_BINARY_INV | cv2.THRESH_OTSU)[1]
cv2.imwrite('thresh1.png', thresh)
kernel = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (1, 5))
# 使用形态学操作进行处理
thresh = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, kernel)
cv2.imwrite('thresh2.png', thresh)
# 在阈值图像中查找轮廓,然后初始化数字轮廓列表
cnts = cv2.findContours(thresh.copy(), cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cnts = imutils.grab_contours(cnts)
digitCnts = []
# 循环遍历所有的候选区域
for c in cnts:
# 计算轮廓的边界框
(x, y, w, h) = cv2.boundingRect(c)
# 如果当前的这个轮廓区域足够大,它一定是一个数字区域
if w >= 15 and (h >= 30 and h = 40):
digitCnts.append(c)
# 从左到右对这些轮廓进行排序
digitCnts = contours.sort_contours(digitCnts, method="left-to-right")[0]
digits = []
# 循环处理每一个数字
i = 0
for c in digitCnts:
# 获取ROI区域
(x, y, w, h) = cv2.boundingRect(c)
roi = thresh[y:y + h, x:x + w]
# 分别计算每一段的宽度和高度
(roiH, roiW) = roi.shape
(dW, dH) = (int(roiW * 0.25), int(roiH * 0.15))
dHC = int(roiH * 0.05)
# 定义一个7段数码管的集合
segments = [
((0, 0), (w, dH)), # 上
((0, 0), (dW, h // 2)), # 左上
((w - dW, 0), (w, h // 2)), # 右上
((0, (h // 2) - dHC) , (w, (h // 2) + dHC)), # 中间
((0, h // 2), (dW, h)), # 左下
((w - dW, h // 2), (w, h)), # 右下
((0, h - dH), (w, h)) # 下
]
on = [0] * len(segments)
# 循环遍历数码管中的每一段
for (i, ((xA, yA), (xB, yB))) in enumerate(segments): # 检测分割后的ROI区域,并统计分割图中的阈值像素点
segROI = roi[yA:yB, xA:xB]
total = cv2.countNonZero(segROI)
area = (xB - xA) * (yB - yA)
# 如果非零区域的个数大于整个区域的一半,则认为该段是亮的
if total / float(area) > 0.5:
on[i]= 1
# 进行数字查询并显示结果
digit = DIGITS_LOOKUP[tuple(on)]
digits.append(digit)
cv2.rectangle(output, (x, y), (x + w, y + h), (0, 255, 0), 1)
cv2.putText(output, str(digit), (x - 10, y - 10), cv2.FONT_HERSHEY_SIMPLEX, 0.65, (0, 255, 0), 2)
# 显示最终的输出结果
print(u"{}{}.{} \u00b0C".format(*digits))
cv2.imshow("Input", image)
cv2.imshow("Output", output)
cv2.waitKey(0)
上图展示了该算法的运行结果和一些中间结果。第1行第1列表示的是原始的输入图片,它和代码中的image对应,我们需要识别的是LCD面板上面的34.5;第1行第2列表示的是Canny边缘检测算法的检测结果,它对应于代码中的edged,通过该图我们可以发现Canny边缘检测的结果中含有我们感兴趣的目标,即中间的LCD;第1行第3列表示的是对输入的灰度图片应用视角变换后的结果,即获得了LCD屏幕所在的位置,它和代码中的warped相互对应;第2行第1列表示的是对获取到的LCD屏幕进行二值化后的结果,它和代码中的thresh 相互对应,由于LCD上面的数字和背景之间具有较大的差异,因而通过简单的二值化我们就可以获得我们感兴趣的目标-数字;第2行第2列表示的是对二值化结果进行形态学操作之后的结果,它和代码中的thresh 相互对应,我们可以发现执行了形态学操作之后的结果更多平滑,同时过滤掉很多的噪声,有利于后续的识别。
上图展示了算法进行数字识别的实现细节。即通过遍历每一个数字中的7个段,并统计该段中非零像素的个数,当其统计值大于整个区域的一半时,认为该段是亮的,当统计完所有的这7个段之后,在预定义的数字词典中进行查找,并输出最终的结果即可。
到此这篇关于Python+Opencv实现数字识别的示例代码的文章就介绍到这了,更多相关Opencv 数字识别内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!