创新文化

【“一所一人一事”展播】杨雅婷:多语言智能,事业源自使命

发布时间:2023-10-08

    智能,是智力和能力的总称;语言智能,是指具备用言语思维、用言语表达和欣赏语言深层内涵的能力结合在一起并运用自如的能力;而多语言智能,在本文中的定义是指运用信息技术使机器拥有同时掌握人类的多种语言智能,是人工智能的一大挑战。

中国科学院新疆理化技术研究所(以下简称新疆理化所)多语种信息技术研究室副主任杨雅婷研究员,主要从事的就是多语言智能关键技术研究。

耐得住寂寞做科研,第一个十年

“从多语种信息处理,到多语言自然语言处理与机器翻译,再到多语言内容理解、大模型与自然语言生成,我所有的研究工作都是围绕多语言智能。”

杨雅婷研究员一直从事多语种信息处理技术的研究,2012年博士毕业获得中国科学院院长奖。当年只有27岁的她,留所建立了多语种自然语言处理研究方向,团队规模仅有2名职工和2名研究生,是她科研生涯的第一个里程碑。

从建立多语言的标准规范做起,团队在该领域建立地方标准6项,参与发布人工智能分委会国家标准《人工智能 面向机器学习的数据标注规程》;从基础数据资源库做起,提出多层级多粒度的资源库的规范设计方法与数据资源库的质量自动评价模型及质量评估方法,建立亿级规模语料资源库,获批中国科学院民族语音文字信息处理特色科学数据库;从多语言生成机理与表示及建模做起,开发的系列复杂形态分析软件填补了多语言自然语言处理评测中缺乏有效分析工具的空白;从数据驱动的自然语言处理创新应用做起,开展命名实体识别、机器翻译、内容理解、大模型与自然语言生成研究,研究成果获得了“新疆维吾尔自治区科技进步一等奖”;从成果落地与实战应用做起,“多语言机器翻译”、“智能文本处理系统”、“多语言跨模态内容理解平台”、“疆小译”等研究成果在新疆、北京、上海、广州、杭州、温州、厦门等地的14家实战相关部门或企业部署实战应用。

她总说“要耐得住寂寞做科研,认准的方向就一直走下去,办法总比困难多”。工作的第一个十年专心做了一件事儿——多语言智能。接下来的每一个十年,希望她能在这条科研道路上继续做深、做强。

始终肩扛使命与担当,重大需求牵引

始终面向国家重大战略,立足区域实际需求,开展关键技术攻坚,是中国科学院人做“国家事”、担“国家责”的使命。“新疆事就是国家事”。习近平总书记在新疆视察时指出“聚焦新疆工作总目标,推动事关长治久安的根本性、基础性、长远性工作”。作为中国科学院在新疆地区唯一一所高技术类研究所,肩上的有使命和担当。

“‘十二五’期间围绕教育文化开展多语言智能研究、‘十三五’期间围绕社会稳定与长治久安发挥多语言智能的支撑作用,‘十四五’期间以多语言智能助力国家网络空间内容安全和‘一带一路’高质量发展,以国家重大需求为牵引,我们的目标很明确,有压力更有动力。”杨雅婷研究员作为研究室的副主任和新疆重点实验室的副主任,主抓科研工作,科研的“火车头”要找准方向,更要动力十足。

“从重大需求中把控科研方向,从实际工作中凝练科研项目,从科研任务中锻炼个人能力”。作为技术负责人她负责的第一项科研项目是中国科学院战略先导科技项目(A类)课题,做过这类项目的人都知道这是一块硬骨头,但很好提升了科研能力,形成了严谨的科研态度和良好的科研作风。作为主持人她先后负责国家自然科学基金、国家重点研发项目课题、新疆维吾尔自治区十三五重大科技专项课题、中国科学院科技创新重点部署项等国家及省部级重大项目19项。

以“定位、定人、定事、定标”的原则,面向国家和区域的重大需求,2022年组织建立2个科研关键技术攻坚小组,以身作则发挥先锋模范作用。她总说“咱们干的事情非常有意义,对促进“一带一路”高质量发展,提升信息获取与掌控能力,维护社会稳定和长治久安,守护好祖国信息安全的西大门有重大意义”。

扎根新疆不负韶华,疆才疆用

立足国家安全重大需求与“一带一路”高质量发展的战略需求,迫切需要推动多语言智能产业发展。杨雅婷研究员所带领的团队致力于将“多语言智能”与政治文化经济活动中的领域、行业相结合,助力信息化社会的高速发展,使得数字经济与实体经济深度融合,加速政府管理和社会治理模式创新,完成了从数据“处理”向内容“理解”模式的进阶,在多种语言和模态相互交融的环境中,赋予人工智能学习、理解和推理多语言跨模态信息的能力。同时,开展信创环境下的软硬件适配工作,取得国产化适配认证6项,肩负自主知识产权技术向西对外输出重任。成果获得新疆自治区科技进步一等奖1项,2022数字中国创新大赛全国总决赛二等奖1项、华东赛区三等奖1项、中国科学院首届技能大赛人工智能领域三等奖1项。

“这些成果和成绩属于团队的每一个人,新疆是一个急需人才的地方”。杨雅婷研究员是新疆本地人,祖父辈是那个年代支援边疆的大学生,她取得中国科学院研究生院博士学位后,也留在新疆,组建并带领了一支长期扎根新疆、从事多语言智能关键技术攻关的科研团队,成员毕业于中国科学院大学、清华大学、复旦大学、华中科技大学、武汉大学、吉林大学、新疆大学等全国多所高校,很多都是在外求学后,选择回来建设自己家乡的年轻人。

潜心科研中的积累与沉淀,杨雅婷研究员入选新疆维吾尔自治区“天山英才”青年科技拔尖人才、中国科学院青促会优秀会员等9项人才计划,建立了新疆维吾尔自治区“面向‘一带一路’的多语言文本内容理解研究天山创新团队”。团队中的多名成员也入选了“天山英才”、“天山雪松”、中国科学院青促会等多项人才计划,成长为了研究所科研中坚力量。疆才返疆、疆才疆用,虽只是星星之火,却也贡献着不息的力量。

结束语

多语言智能信息处理,对于杨雅婷来说是一份一生为之坚守的事业,这份事业源自中国科学院人肩上的使命与担当!