扫描件对账单 OCR(Beta)
扫描或拍照的对账单,对电脑来说只是一张图片,没有可提取的文字层,普通转换会得到一张空表。扫描件 OCR 先用浏览器本地的 tesseract 引擎把图里的文字「认」出来(金额列限定只认数字和符号、做灰度二值化预处理来提识别率),再走同一套表格抽取。必须诚实地讲:金融文档的数字 / 日期 OCR 是公认的难点,实测准确率远低于清晰文本,低质扫描、手写批注、花体会进一步崩——所以这是 Beta,导出后请务必逐行核对每一个金额,并用余额校验帮你抓错。全程本地,文件不上传。
扫描或拍照的对账单,对电脑来说只是一张图片,没有可提取的文字层,普通转换会得到一张空表。扫描件 OCR 先用浏览器本地的 tesseract 引擎把图里的文字「认」出来(金额列限定只认数字和符号、做灰度二值化预处理来提识别率),再走同一套表格抽取。
Beta:金融数字 OCR 准确率有限,扫描质量越差越不准。导出后请逐行核对每一个金额,并参考余额校验。能从网银重新下载文本型 PDF 的话,请改用「银行对账单转 Excel」会准得多。
如何扫描件 OCR(Beta)?
- 1拖入扫描件 / 拍照的对账单 PDF 或图片。
- 2选择识别语言(中文+英文,或仅英文更快)。
- 3流水筛本地 OCR + 预处理(首次下载语言包),再切分行列。
- 4逐行核对金额(务必!),用余额校验定位可疑行,再导出。
为什么用流水筛扫描件 OCR(Beta)?
- 没文字层也能试:扫描件、手机拍的流水,本来只能手敲,这里先 OCR 出文字再结构化,至少帮你省掉大部分录入。
- 为数字而调:金额列字符集白名单(只认 0-9 . , - ( ))+ 图像预处理,把金融数字识别尽量往可用区拉。
- 诚实标 Beta + 余额兜底:我们不假装扫描件和文本 PDF 一样准,明确标 Beta,并用余额校验帮你揪出识别错的行。
常见问题
诚实说:不如文本型 PDF 稳。OCR 对清晰印刷体效果好,但金融文档的数字、日期识别是公认难点,实测准确率明显偏低;倾斜、发虚、过暗、手写的低质扫描会更差。所以这是 Beta——把它当「省掉大部分录入」的助手,每个金额都请人工复核,并用余额校验抓错。
首次要下载 OCR 语言包(中文约 20MB),浏览器会缓存,之后再用就快了。整体速度也看页数和你设备性能。
如果能从网银重新下载官方 PDF 月结单(而不是扫描纸质件),那是带文字层的文本型 PDF,用「银行对账单转 Excel」会又快又准得多。扫描件 OCR 是退而求其次的兜底。
找你的银行专属说明
想看流水筛怎么读你这家银行的流水?打开 支持的银行列表 ,每家主流银行都有专门的版式说明与内嵌转换工具。
更新于 · 流水筛团队