如何创建易于访问的电子课本
htmlweb工具markdownOCRUU在线工具flowkitpdftauri工具集换行电子课本白描表格

如何创建易于访问的电子课本

更新于 2025-06-19
1744

背景

国家中小学智慧教育平台提供了可复制文字的 pdf 格式的中小学教材供预览(其实目前也可以进行下载),但 pdf 文件布局固定,无论在什么设备上查看,内容的排列和样式都不会改变。导致在移动端浏览体验较差。

在线 html 文档的好处

对个人学习而言,将其文本内容制作为 html ,通过 html 文档自适应的流式布局,根据设备的屏幕大小和方向,自动对文本进行重排,可以提供更好的阅读体验。同时也利于浏览器使用 TTS 进行语音朗读(pdf 格式通常会在段内多出很多不必要的换行,导致语音朗读产生停顿)。而且制作成 web 页面之后,访问也更快捷、方便,因此,使用 web 技术对电子课本进行在线化是非常有价值的。

本文将以 dors 中收集的中学历史课程的在线化制作为例,探讨如何制作易于访问的电子课本。

制作电子课本时,为了确保文本内容的精确性,我没有尝试使用 AI 进行全文 OCR。制作的基本方式是进行文本复制,并使用 markdown 进行简单排版。

教材制作为 web 页面过程中的问题

在文本复制时,可能会遇到以下困难:

  1. 换行问题:直接复制 pdf 文本,得到的结果中,一个段落内,每一个视觉行的末尾都会多出换行符,而这些换行是不符合语义的,不应该保留。对这些换行符号,需要高效地删除。
  2. 表格的处理:课本中可能存在一些表格。手动复制内容并制作表格是非常痛苦的,于是就需要使用工具将表格自动识别为 markdown。

工具选用

有很多 web 工具能够帮助解决以上问题,例如 UU在线工具 就提供了 在线删除所有回车换行 | 一键清除文本换行符 - 的工具,白描olmocr.com 支持对复杂的文档进行文字识别等。

白描提供的电子表格识别的能力可以将表格识别为 html ,然后可以直接复制 html 或通过 tableconvert 转换成 markdown 后复制进 markdown 文档中。也可以使用有大预言模型能力的 OCR,直接识别后生成 markdown,但这也存在一些局限,因为一旦指定了输出格式是 markdown,可能无法适应一些复杂表格的布局排版。

但当使用这些工具时不停地在各种标签页中切换,是很费神的。

一站式工作台的推出

基于上述问题,为了提升这项工作(以及别的工作)的体验,结合实际中的其他需求,我开发了桌面端工作流整合应用 flowkit —— 一个个人一站式工作台,用于配置工作流,组合为完成某项工作所需的多种工具,为用户提供一站式的工作体验,从而在一些电脑办公场景中加速工作流程,提高工作效率。

正如上文中所描述的,处理一个流程(如表格的识别)可能会使用多种工具(如白描或 mistral),所以这个应用中应能灵活地选用工具,不给用户设限。

flowkit 中提供了预置的工具集:其中包含有在从 pdf 中复制文本这个场景下会用到的【文本处理工具】。这个工具支持删除换行的同时,保留段落之间的空行。这样就能按段落复制文本进入工具中进行预处理,得到的每一段都移除了不必要的空行,而且输入的每段之间手动插入一个换行符,即可标识段落,这样一直累计复制文本到此工具中,就可以得到处理好的文本内容。不用再费神去移除段内的换行,这样就大大提高了复制这些文本的工作效率。

flowkit 的文本处理功能
flowkit 的文本处理功能

另一个有用的预置工具是 ocr 功能。虽然已有 web 页面 olmocr.com 提供了相应服务,但将其深度集成更能提升用户体验,为此 flowkit 运用了原生桌面应用的能力,使用本地代理服务解决跨域问题,实现了更加简洁易用的界面,支持粘贴、拖拽和点击上传,使用起来十分方便。