带箭头图标的手稿 书和放大镜图标 反复核对图标 过程检查表图标 声誉带图标 毕业帽图标 提问语音气泡图标 耳机电话图标 手机呼叫图标 登录箭头图标 B +纸图标 成为B+纸图标 标签纸的图标 反馈语音气泡图标 反馈双语音气泡图标 相似性检查图标 专业发展图标 管理培训图标 教练培训图标 学生训练图标 集成的图标 系统状态图标 系统需求图标 菜单图标 选中标记图标 下载图标 标题图标 提示图标 QuickMark设置图标 教案图标 成功故事的图标 信息图标 白皮书图标 白皮书图标 新闻稿的图标 新闻图标 事件的图标 网络直播图标 视频图标 信封图标 斑块图标 灯泡图标 见解灯泡图标 培训图标 搜索图标 用户图标 隐私图标 教练图标 Instructor-1图标 调查员图标 管理图标 学生图标 语音语法图标 图尼廷标志(文本和图标)图标 Facebook的图标 Twitter图标 LinkedIn图标 谷歌+图标 灯泡图标 双筒望远镜图标 戏剧面具图标 放大镜图标 信号检查指示灯 红旗图标 分析和组织图标
联系销售

正如我们在以前写过的发布在人工智能辅助评分,我们建造了Gradescope,以便给讲师分级超级大国.我们的技术允许教师花更少的时间在评分和其他行政任务,以便他们可以花更多的时间与学生互动,改进教学。

Gradescope是用来批改在线作业、编程项目和扫描手写作业的,所以我们的技术需要做的一部分就是处理手写文本。在这篇由两部分组成的文章中,我们将详细介绍解决这一问题的挑战,当前的最先进(SOTA)方法,以及我们的端到端深度学习系统如何执行。

所面临的挑战

我们处理的笔迹图像是由学生上交的测试提交;一开始是手工填写纸质试卷,然后转换成数字图像,学生的作业就会自动从中提取出来。结果图像(图1)是部分或整页大小的,包含手写文本、数学方程、表格、图纸、图表、边注、划掉的文本,以及使用箭头/回旋插入的文本和其他工件的多个区域。课程内容各不相同,涵盖了从小学到研究生的许多学科。

我们的手写识别人工智能(AI)的作用是识别和转录这些图像中的手写答案。此外,由于我们需要服务于各种各样的用例,人工智能必须超越文本识别,并执行额外的任务。具体地说,它必须:

  1. 识别哪些区域应该被转录为文本,哪些区域不应该:图纸、划掉的文本、特殊符号、表格和数学。
  2. 正确抄写文本的区域。
  3. 在序列中发射转录区域,它们被期望被读取。
  4. 执行辅助任务,如生成格式和语义提示。
  5. 性能至少与公开的文本识别服务相同。

我们将此问题称为全页手写识别(Full Page HTR)1.这个问题比经典的手写文本识别(HTR)要困难得多,后者仅限于识别单字或单行文本图像中的文本。

图1所示。数据示例:(a)带绘图的整页文本。(b)整页计算机源代码。(c)嵌入数学的图表和文本。(d)数学和文本区域、嵌入式数学和杂散工件。

典型方法的局限性

学术文献和解决这一问题的典型方法通常只尝试识别单字或文本行的裁剪图像。裁剪文字/线条的任务被委托给另一个步骤,称为图像分割。一个端到端文本识别系统将这两个步骤连接在一起,然后是第三步:将单独识别的单元拼接回一个通道。这种方法有几个问题:

首先,图像分割通常是基于手工制作的特征和启发式,这些特征和启发式对不同的数据来源不具有鲁棒性,并且可能在一些意想不到的扫描条件下崩溃2

其次,在许多情况下,文本的清晰分割甚至是不可能的,例如,当线条是弯曲的,或者夹杂着非文本符号和人工制品,这在我们处理的数据中是很常见的。

第三,从单独转录的文本区域拼接一个完整的转录会引入另一个系统,该系统本身具有出错的潜力,并且易受数据变化的影响。

第四,为了提高精度,经典系统包括关闭词汇解码;一种将他们的词汇量限制在一组固定词汇的系统。这对我们来说行不通,因为我们必须迎合许多不同学科的术语,国际专有名词,甚至像化学分子式这样的特殊事物。

最后,多步骤设计将端到端任务分解,使得执行需要来自另一个阶段的信息的子任务变得困难,例如,在不丢失原始格式和缩进(在转录计算机源代码时很重要)以及其他辅助任务(如识别表格、绘图等)的情况下,将单独识别的片段拼接回一段,即使它们包含一些文本,也可以跳过它们。

针对这些问题,我们设计了一个基于端到端深度学习的模型架构,即上述步骤都是隐式的,是从数据中学习的。调整模型以适应新的数据集或添加新的功能,只是用不同的标签或不同的数据进行再培训或微调的问题。

最终,我们的模型超过了所有主要供应商提供的文本识别云api的性能,并在全页面手写识别领域开创了一个新的发展阶段。阅读所有相关内容在这里在这篇博客的后续文章中。

了解更多关于gradscope的信息

脚注

  1. 我们对整页HTR的定义超越了其他一些出版物,后者将其定义为只承认单个段落,而不是整页。在我们看来,这个问题应该被称为完整段落HTR。
  2. 这些系统将需要重新发展,以适应新的数据或条件。