郑程睿的算法转型之路!

567次阅读
没有评论

 Datawhale干货 

作者:郑程睿,申昊科技算法工程师

从语言学到数据

我在美国读的大学。因为长期以来对语言的热爱,我学的第一个专业是语言学(Linguistics)。学习语言学尽管能满足我的兴趣和好奇心,当时很难留美工作。在加州浓厚的硅谷文化熏陶下,再加上我们的通识教育课让我“深度学习”了大数据时代的概念,也让我有了转码的念头。我意识到社会已经不再需要那么多专业的语言人才用人脑解决语言问题;而是由电脑,由机器学习,由NLP来解决。于是,在那个Alpha Go引领深度学习爆火的年代,我转专业到数学,学习了大量的统计学和线性代数,为之后学习数据和机器学习奠定基础。在此期间,我并未舍弃对语言学的挚爱,将其设为辅修学科,历时三年半圆满完成了学业。

NLP之路的开始

大四的后半年,我去了联想AI Lab做NLP实习生,投身于客服对话机器人的开发之中。在大模型还没有出现之前,我们做的还是传统的需要对话管理的对话机器人,依赖于大量数据标注以识别用户意图。我从繁复的数据标注工作起步,直至面临一个挑战:新上线的日语对话机器人尚处于冷启动阶段,缺乏可用的对话训练数据。所以初期对话只能通过机器人定规则来实现对话,等它上线后有了数据了再去训练。而这正是我的NLP之路的开始,我自学了Python,并凭借自身的日语优势及前期积累的标注经验,采用Bag-of-words方法赋予词项权重,成功将日语客服机器人对社交用语的理解率提升至70%, 将日语客服对话机器人推广上线。

转型算法工程师

我回到了美国读研究生学数据分析。因为对NLP的热爱,我还是申请打破课程规定,选修了很多机器学习相关的课程。留美工作最好的办法就是实习转正,而我也找到了一家大型零售商的数据分析暑假实习机会。然而突然席卷美国的新冠疫情使得公司取消了招聘,我只能找到初创公司的无薪实习。尽管留美的希望变得渺茫,但正是这个实习让我大量锻炼了数据工程和NLP的能力,实现了转型。公司想做北美木材业的B2B电商平台,我作为数据组的组长,需要带领8名实习生一起爬取目标商家的基本信息,用文本分类等NLP算法去做数据的转换,实现整个ETL流程。由于疫情期间美国求职市场很差,我也放弃了留美的愿望,转投阿里的跨境电商速卖通的数据研发工程师。虽然我对做机器学习更有兴趣,但是因为较薄弱的工程能力,一直没有勇气尝试做算法工程师。没想到面试完以后,我意外地得到了算法工程师的岗位。

转型之路

回望来路,我经历了从美国到中国、从文科跨至理工科再到工科领域、从互联网行业过渡到工业界的巨大转变,但是一直以来不变的是我选择的道路一定是passion-driven。我由兴趣驱动,不断地通过课余的时间自学AI。也许当前的经历和技能并不能立马变现,或是一些不可抗的外力会让我事与愿违。但是我一直相信这些经历和技能给我带来的潜移默化的改变是我转型之路上最大的动力。比如我一直坚持学的语言学、日语看似对机器学习没什么联系,但正是我长期的坚持使得我能从数据标注的实习中能够转型到NLP。

同时,我一直认为个人成就其实都是由内因和外因共同成就的。一直以来我都拥有了大量的资源,使得我站在了一个更高的平台上。我的转型之路上很大程度上是依靠了美国大学鼓励独立自主、通识教育的体制。课外也少不了AI社区大量贡献者的支持。我在学习AI的方面获得了来自Youtube、Bilibili等视频平台如StatQuest、Andrew Ng、MIT、李宏毅、李沐等知名博主的精彩教学。还有知乎、Stack Overflow、CSDN等文字平台的知识分享。而在实际工作中,我不断从Hugging Face、魔搭、GitHub、arXiv等平台汲取前沿技术和力量,积极将开源社区的智慧成果应用于业务场景中。

郑程睿的算法转型之路!

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy