阿里达摩院NLP二面凉经

一面(50分钟)

来面试官介绍他们组情况,问我有什么想问的?

    1. 问研究生期间的研究方向;
    1. 研究内容有提到 DSSM,询问是否知道现在对 DSSM 的改进模型,回答不知,现在更多做的生成模型,因此问题转到生成模型;
    1. 询问对生成模型的了解,发展情况,询问项目中的难点,回答解码策略,谈到了 Beam Search 和 Sample 策略。
    1. CNN 模型中池化层的作用,Max Pooling 是如何反向传递梯度的。
    1. 机器学习中正则化做什么的?约束模型参数,防止过拟合。
    1. 正则化有 L1 和 L2 正则化,区别是什么?扯了一下解空间什么的,这一部分参看《百面机器学习》中【L1正则化与稀疏性】部分的内容,基本就是我遇到的问题了,我没回答上。
    1. 问深度学习,Transformer 模型架构说一下?按照图结构 balabala 说下。
    1. Dropout 有什么作用?类似于 Bagging 。在 Transformer 模型中 dropout 主要用在哪里?dropout 在每个子层之间,设置为 0.1。看过源码吗?看过源码,看的哈佛实现的那一版本。(面试官应该也看过这个版本,说写的很好)
    1. Transformer 和 BERT 的位置编码有什么区别?
    1. Transformer 用的 Layer Normalize 还是 Batch Normalize?Layer,有什么区别?...
    1. 传统机器学习会哪些?决策树和 GBDT 区别说下。
    1. Sigmoid 和 ReLU 区别,ReLU 解决了什么问题。
    1. 怎么学统计机器学习的?看视频...
    1. Python、C++、Java 哪个用的多一点?值传递和引用传递区别。
    1. Python 垃圾回收了解吗?用过,细节不清楚。
    1. 进程和线程区别
    1. Linux 多个进程如何通信的?
    1. 贪心和 DP 区别?
    1. DP 的一般做法流程?
    1. 开放问题,海量商家和海量语料,语料不平衡,语料对商家 group by 后按照时间排序,怎么解决。先扯了下哈希分桶,不平衡用归并排序。

二面(一小时二十分钟)

提前找阿里同学查了下背景资料,知道了面试官名字,查了下 arxiv 上有 20 篇论文,不乏各种顶会。。。。

    1. 围绕个人科研方向,项目怎么做的,这个领域(DSSM语义匹配方向)这些年发展历程,有哪些模型,模型的改进是什么?
    1. 上一面中提到了 NLP 中的一些预训练模型,然后这些预训练模型有什么特点?谈及了各种 Mask Language Model(BERT、GPT 等)
    1. 微软 UniLM 主要为解决什么问题提出的?三个子模型分别是什么?