阿里达摩院NLP二面凉经

一面（50分钟）

来面试官介绍他们组情况，问我有什么想问的？

1. 问研究生期间的研究方向；
1. 研究内容有提到 DSSM，询问是否知道现在对 DSSM 的改进模型，回答不知，现在更多做的生成模型，因此问题转到生成模型；
1. 询问对生成模型的了解，发展情况，询问项目中的难点，回答解码策略，谈到了 Beam Search 和 Sample 策略。
1. CNN 模型中池化层的作用，Max Pooling 是如何反向传递梯度的。
1. 机器学习中正则化做什么的？约束模型参数，防止过拟合。
1. 正则化有 L1 和 L2 正则化，区别是什么？扯了一下解空间什么的，这一部分参看《百面机器学习》中【L1正则化与稀疏性】部分的内容，基本就是我遇到的问题了，我没回答上。
1. 问深度学习，Transformer 模型架构说一下？按照图结构 balabala 说下。
1. Dropout 有什么作用？类似于 Bagging 。在 Transformer 模型中 dropout 主要用在哪里？dropout 在每个子层之间，设置为 0.1。看过源码吗？看过源码，看的哈佛实现的那一版本。（面试官应该也看过这个版本，说写的很好）
1. Transformer 和 BERT 的位置编码有什么区别？
1. Transformer 用的 Layer Normalize 还是 Batch Normalize？Layer，有什么区别？...
1. 传统机器学习会哪些？决策树和 GBDT 区别说下。
1. Sigmoid 和 ReLU 区别，ReLU 解决了什么问题。
1. 怎么学统计机器学习的？看视频...
1. Python、C++、Java 哪个用的多一点？值传递和引用传递区别。
1. Python 垃圾回收了解吗？用过，细节不清楚。
1. 进程和线程区别
1. Linux 多个进程如何通信的？
1. 贪心和 DP 区别？
1. DP 的一般做法流程？
1. 开放问题，海量商家和海量语料，语料不平衡，语料对商家 group by 后按照时间排序，怎么解决。先扯了下哈希分桶，不平衡用归并排序。

二面（一小时二十分钟）

提前找阿里同学查了下背景资料，知道了面试官名字，查了下 arxiv 上有 20 篇论文，不乏各种顶会。。。。

1. 围绕个人科研方向，项目怎么做的，这个领域（DSSM语义匹配方向）这些年发展历程，有哪些模型，模型的改进是什么？
1. 上一面中提到了 NLP 中的一些预训练模型，然后这些预训练模型有什么特点？谈及了各种 Mask Language Model（BERT、GPT 等）
1. 微软 UniLM 主要为解决什么问题提出的？三个子模型分别是什么？

面经网

阿里达摩院NLP二面凉经

一面（50分钟）

二面（一小时二十分钟）

点赞是对小编最大的鼓励~

面试题分类

热门公司

推荐文章

友情链接