学科专业
陈智能教授学术报告预告
时间:2022-08-28 访问量:
场景文本识别:从视觉识别到视觉—语言交互
湖南科技大学计算机科学与工程学院将于2022年8月29日周一上午10:30在逸夫楼210举行跨媒体计算领域的线下学术报告会,敬请光临!
报告题目:场景文本识别:从视觉识别到视觉—语言交互
报告人:陈智能,复旦大学计算机科学技术学院青年研究员
报告时间:2022年8月29日周一10:30~11:30
报告摘要:
场景文本识别旨在识别自然场景中拍摄的图像文本,将其中的文字区域转化为计算机可读取和编辑的符号,其多年以来一直是计算机视觉领域的重要研究问题,广泛应用于图像搜索、自动驾驶等诸多任务中。本报告聚焦深度学习时代,场景文本识别方法从单纯利用字符级视觉特征,到利用文本行视觉特征,再到视觉和语言联合建模的发展演进过程。通过对近年来其中的代表性方法进行介绍,引导听众建立场景文本识别领域的技术概貌。