扫描件对账单转 Excel:准确率的诚实真相
扫描或拍照的对账单,对电脑来说只是一张图片,没有文字层,普通转换会得到空表。要转,得先 OCR 把文字认出来。但金融文档的数字、日期 OCR 是公认难点,准确率远低于文本 PDF——这篇讲清为什么、怎么尽量提高,以及什么时候根本不该用扫描件。
为什么扫描件这么难转准?
OCR 对清晰印刷体效果不错,但对金额、日期这种「错一个数字就全错」的内容特别脆弱:小数点被识别成逗号、8 被认成 3、倾斜或发虚的扫描会让整行崩。研究实测显示,金融文档的数字/日期 OCR 准确率明显偏低,低质扫描、手写批注、花体字会进一步恶化。
怎么尽量把准确率拉回可用区?
流水筛的扫描件 OCR 做了几件事来提数字识别率,但仍标 Beta:
- 金额列字符集白名单:只认 0-9 . , - ( ),减少把数字误识成字母。
- 图像预处理:灰度 + 阈值二值化,让数字边缘更清晰。
- 高分辨率渲染:把页面以更高 DPI 渲染再 OCR。
- 余额校验兜底:逐行验算余额,对不上的行标红让你重点核对。
最好的办法:别用扫描件
如果能从网银重新下载官方 PDF 月结单(而不是扫描纸质件),那是带文字层的文本型 PDF,用「银行对账单转 Excel」会又快又准得多。扫描件 OCR 是退而求其次的兜底——能省掉大部分录入,但每个金额都请人工复核。
常见问题
手机拍的对账单能转吗?
能试,但属于扫描件 OCR(Beta)范畴,准确率受拍摄质量影响很大。拍得正、清晰、光照均匀会好一些;导出后务必逐行核对金额。
OCR 出来的表能直接用吗?
不建议直接用。把它当「省掉大部分录入」的草稿,用余额校验定位可疑行、人工核对每个金额后再用。
更新于 · 流水筛团队