2024年05月05日 星期日

中国科学技术大学走进商丘市第一高级中学开展科普讲座

发布时间:2024/04/20

4月17日中国科学技术大学教授张信明、副教授周颢莅临商丘市第一高级中学,与我校迎宾路校区执行校长杨殿勇,就学生发展及两校合作问题举行座谈,并代表校方赠予纪念品。座谈结束后,张信明教授为同学们作题为《多模态深度学习》科普讲座。

微信图片_20240425105633.jpg

张信明,中国科学技术大学教授、博士生导师,国家级人才网评专家,教育部全国博士学位论文抽检评审专家等。主持国家自然基金项目、国家重点研发计划课题及子课题项目。

报告会上,张教授通过深度学习简史、计算机视觉简介和相关研究介绍三个板块向同学们讲解了多模态深度学习的相关概念和技术进展、人工智能的历史与发展阶段,以及计算机视觉的基础知识及其在深度学习框架下的应用。

微信图片_20240425105637.jpg

张教授表示,多模态深度学习是当前深度学习领域的前沿,自感知机时代就开始了对复杂功能的追求,一路从其起源探索至复杂网络结构的形成;尤其在计算机视觉简介板块,深度学习模型在处理不同类型数据时的结构和训练流程中,为了获得更好的性能需要创建巨大的数据集和更深的模型,再通过模型的训练与验证,目前深度学习算法已经能够模仿人类的视觉系统,对图像进行深入的理解和分析。

微信图片_20240425105639.jpg

张教授还着重介绍了其实验室在多模态数据处理领域取得的显著成果,特别是在文本到图像的超分辨率重建、银行中普遍存在的低质量文本图像问题,通过混合单图像和文本图像的超分辨率方法、掩码重建范式以及引入MAE等技术手段,成功提高了文本图像的分辨率,从而解决了信息不清晰的问题。同时,实验室还在视频理解和点云数据处理领域展开了前沿研究。在视频理解方面,其实验室与腾讯合作,利用CLIP模型进行时序建模,提升了在视频帧序列上的动作识别能力,尤其是实现了general、few/zero-shot任务的性能提升。在点云数据理解方面,实验室提出了一种新的三维向量表示方法,增强了对点云数据的理解能力。

微信图片_20240425105642.jpg

张教授还向同学们介绍了前沿的生成模型“SoRA”,它能够依据用户提供的文本提示生成相应的视频内容,代表了多模态生成技术的最新突破。尽管SoRA的训练和推理成本极高,但其技术前景广阔,吸引了腾讯、阿里巴巴等众多企业和研究机构的关注,并有多个公司正在研发类似功能的产品。

通过此次讲座,同学们不仅了解了多模态深度学习的脉络和发展趋势,更意识身处人工智能时代,需紧随科技发展趋势,主动学习并运用前沿人工智能技术,培养跨学科的综合思维方式,在未来的学习实践活动中能够有效运用人工智能解决实际挑战,在日新月异的科技浪潮中保持积极探索的精神,矢志攀登科技领域巅峰。