2026-01-08-机器学习复习

文章发布时间:

2026-01-09

最后更新时间:

2026-01-16

页面浏览: 加载中...

应付期末考试，整理了一些题目

1. 以下哪些是机器学习中的数据预处理步骤?（）

A. 数据清洗

B. 数据归一化

C. 特征选择

D. 数据可视化

答案: ABC

2. 监督学习包括以下哪些类型?（）

A. 分类

B. 回归

C. 聚类

D. 降维

答案: AB

3. 以下哪些算法属于无监督学习?（）

A. K-均值聚类

B. 主成分分析(PCA)

C. 关联规则挖掘

D. 线性判别分析(LDA)

答案: ABC

4. 神经网络中的激活函数有哪些作用?（）

A. 增加模型的非线性

B. 防止梯度消失

C. 对输入进行归一化

D. 加快模型收敛速度

答案: AB

5. 影响机器学习模型性能的因素有（）

A. 数据质量

B. 算法选择

C. 超参数设置

D. 硬件性能

答案: ABC

6. 在构建决策树时，以下哪些可以作为分裂节点的选择标准?（）

A. 信息增益

B. 基尼指数

C. 均方误差

D. 准确率

答案: AB

7. 以下哪些技术可以用于处理过拟合问题?（）

A. 增加数据量

B. 正则化

C. 早停法

D. 降低模型复杂度

答案: ABCD

8. 以下关于交叉验证的说法正确的是（）

A. 可以有效评估模型的泛化能力

B. 常见的有 K-折交叉验证

C. 能避免数据划分的随机性影响

D. 只适用于小数据集

答案: AB

9. 以下哪些是深度学习中的优化算法?（）

A. 随机梯度下降(SGD)

B. Adagrad

C. Adam

D. 梯度提升(Gradient Boosting)

答案: ABC

10. 对于一个二分类问题，以下哪些指标可以全面评估模型性能?（）

A. 准确率

B. 召回率

C. F1-分数

D. 特异度

答案: ABCD

11. 以下属于机器学习中常用的特征工程方法的有（）

A. 数据标准化

B. 独热编码

C. 特征缩放

D. 交叉验证

答案: ABC

12. 下列关于支持向量机(SVM)的说法正确的是（）

A. SVM 可以用于线性可分的数据分类

B. SVM 可以通过核函数处理非线性分类问题

C. SVM 的目标是找到一个最大间隔的超平面

D. SVM 对异常值不敏感

答案: ABC

13. 以下哪些是无监督学习的应用场景?（）

A. 客户细分

B. 图像识别

C. 异常检测

D. 语音识别

答案: AC

14. 机器学习中常用的损失函数有（）

A. 交叉熵损失函数

B. 铰链损失函数

C. 指数损失函数

D. 对数损失函数

答案: ABCD

15. 以下属于深度学习框架的有（）

A. TensorFlow

B. PyTorch

C. Scikit-learn

D. Keras

答案: ABD

16. 以下属于监督学习任务的有（）

A. 分类

B. 聚类

C. 回归

D. 降维

答案: AC

17. 常用的数据预处理操作包括（）

A. 数据清洗

B. 特征工程

C. 数据采样

D. 模型评估

答案: ABC

18. 以下哪些是决策树的优点（）

A. 易于理解和解释

B. 对数据的准备要求低

C. 抗过拟合能力强

D. 能处理多分类问题

答案: ABD

19. 属于集成学习算法的有（）

A. 决策树集成

B. 随机森林

C. AdaBoost

D. K-Means

答案: ABC

20. 神经网络中常用的激活函数有（）

A. sigmoid

B. ReLU

C. tanh

D. Softmax

答案: ABCD

21. 评估分类模型的指标有（）

A. 准确率

B. 精确率

C. 召回率

D. F1 值

答案: ABCD

22. 以下哪些方法可以防止模型过拟合（）

A. 增加数据量

B. 正则化

C. 减少特征数量

D. 早停法

答案: ABCD

23. 线性回归模型的假设包括（）

A. 自变量与因变量之间存在线性关系

B. 误差项服从正态分布

C. 误差项方差齐性

D. 自变量之间不存在多重共线性

答案: ABCD

24. 支持向量机的核函数类型有（）

A. 线性核

B. 多项式核

C. RBF 核

D. 高斯核

答案: ABCD

25. 以下关于 K-Means 算法的描述正确的有（）

A. 是无监督学习算法

B. 需要预先指定聚类数 K

C. 对初始聚类中心敏感

D. 最终聚类结果唯一

答案: ABC

26. 下列哪些是机器学习的常见应用领域（）

A. 图像识别

B. 自然语言处理

C. 推荐系统

D. 数据加密

E. 金融预测

答案: ABCE

27. 下列哪些是数据预处理的方法（）

A. 缺失值处理

B. 数据标准化

C. 特征选择

D. 数据分类

E. 数据归一化

答案: ABE

28. 下列哪些是监督学习算法（）

A. 线性回归

B. 决策树

C. 支持向量机

D. K 均值聚类

E. 逻辑回归

答案: ABCE

29. 下列哪些是评估模型性能的指标（）

A. 准确率

B. 精确率

C. 召回率

D. F1 分数

E. 相关系数

答案: ABCD

30. 下列哪些是特征工程的常用方法（）

A. 特征缩放

B. 特征编码

C. 特征选择

D. 特征组合

E. 数据标准化

答案: ABCD

31. 下列哪些是集成学习算法（）

A. 决策树集成

B. 随机森林

C. AdaBoost

D. bagging

E. 支持向量机

答案: ABCD

32. 下列哪些是过拟合的解决方法（）

A. 增加数据量

B. 正则化

C. 减少模型复杂度

D. 增加模型参数

E. 交叉验证

答案: ABCE

33. 下列哪些是降维方法（）

A. 主成分分析

B. 因子分析

C. 线性判别分析

D. K 均值聚类

E. 基于矩阵分解的方法

答案: ABCE

34. 下列哪些是数据挖掘的步骤（）

A. 数据收集

B. 数据预处理

C. 模型训练

D. 模型评估

E. 数据可视化

答案: ABCDE

35. 下列哪些是特征选择的方法（）

A. 单变量特征选择

B. 基于模型的特征选择

C. 递归特征消除

D. 岭回归

E. Lasso 回归

答案: ABCE

36. 下列哪些是常用的特征工程方法（）

A. 特征缩放

B. 特征编码

C. 特征选择

D. 特征组合

E. 数据归一化

答案: ABCDE

37. 下列哪些是评估分类模型性能的指标（）

A. 准确率

B. 精确率

C. 召回率

D. F1 分数

E. 相关系数

答案: ABCD

38. 下列哪些是集成学习算法（）

A. 决策树集成

B. 随机森林

C. AdaBoost

D. bagging

E. 支持向量机

答案: ABCD

39. 下列哪些是过拟合的解决方法（）

A. 增加数据量

B. 正则化

C. 减少模型复杂度

D. 增加模型参数

E. 交叉验证

答案: ABCE

40. 下列哪些是降维方法（）

A. 主成分分析

B. 因子分析

C. 线性判别分析

D. K 均值聚类

E. 基于矩阵分解的方法

答案: ABCE

41. 下列哪些是监督学习算法（）

A. 线性回归

B. 决策树

C. 支持向量机

D. K 均值聚类

E. 逻辑回归

答案: ABCE

42. 下列哪些是数据预处理的方法（）

A. 缺失值处理

B. 数据标准化

C. 特征选择

D. 数据分类

E. 数据归一化

答案: ABE

43. 下列哪些是特征选择的方法（）

A. 单变量特征选择

B. 基于模型的特征选择

C. 递归特征消除

D. 岭回归

E. Lasso 回归

答案: ABCE

44. 下列哪些是数据挖掘的步骤（）

A. 数据收集

B. 数据预处理

C. 模型训练

D. 模型评估

E. 数据可视化

答案: ABCDE

45. 下列哪些是常用的交叉验证方法（）

A. 留出法

B. K 折交叉验证

C. 移动窗口交叉验证

D. 留一法

E. 分层交叉验证

答案: ABCDE

46. 以下属于监督学习任务的有:（）

A. 图像分类

B. 语音识别

C. 聚类分析

D. 回归分析

答案: ABD

47. 以下哪些方法可以用于降低过拟合风险?（）

A. 增加训练数据

B. 正则化

C. 早停法

D. 减少特征数量

答案: ABCD

48. 以下关于支持向量机(SVM)的说法，正确的有:（）

A. SVM 可以处理线性可分和线性不可分的数据

B. 核函数是 SVM 处理线性不可分数据的关键

C. SVM 的目标是找到一个最大间隔超平面

D. SVM 对异常值不敏感

答案: ABC

49. 以下属于无监督学习算法的有:（）

A. 主成分分析(PCA)

B. 高斯混合模型(GMM)

C. 决策树

D. 自编码器

答案: ABD

50. 以下哪些是评估分类模型性能的指标?（）

A. 准确率

B. 召回率

C. F1 值

D. 均方误差

答案: ABC

51. 以下关于随机森林的说法，正确的有:（）

A. 随机森林是由多个决策树组成的集成模型

B. 随机森林可以并行训练多个决策树

C. 随机森林对缺失值和异常值不敏感

D. 随机森林只能用于分类问题

答案: ABC

52. 以下哪些方法可以用于数据降维?（）

A. 主成分分析(PCA)

B. 线性判别分析(LDA)

C. 特征选择

D. 奇异值分解(SVD)

答案: ABCD

53. 以下关于 K 近邻算法的说法，正确的有:（）

A. K 值越小，模型越容易过拟合

B. K 值越大，模型越容易欠拟合

C. 该算法的时间复杂度较高

D. 该算法对数据的尺度比较敏感

答案: ABCD

54. 以下关于集成学习的方法，正确的有:（）

A. Bagging 方法通过自助采样得到多个训练集，训练多个弱学习器

B. Boosting 方法通过迭代训练多个弱学习器，每个弱学习器关注前一个弱学习器的错误样本

C. Stacking 方法将多个弱学习器的输出作为新的特征，再训练一个元学习器

D. 集成学习一定能提高模型的性能

答案: ABC

55. 以下关于深度学习的说法，正确的有:（）

A. 深度学习通常使用大规模的数据集进行训练

B. 深度学习模型通常具有很多层

C. 深度学习可以自动学习数据中的特征

D. 深度学习只适用于图像和语音领域

答案: ABC

56. 以下哪些是逻辑回归的特点?（）

A. 用于分类问题

B. 输出是概率值

C. 可以处理多分类问题

D. 模型具有线性决策边界

答案: ABCD

57. 以下关于聚类算法的说法，正确的有:（）

A. K 均值聚类是基于距离的聚类算法

B. DBSCAN 是基于密度的聚类算法

C. 层次聚类可以构建聚类的层次结构

D. 高斯混合模型聚类是基于概率模型的聚类方法

答案: ABCD

58. 以下哪些方法可以用于处理类别不平衡问题?（）

A. 过采样

B. 欠采样

C. 调整分类阈值

D. 使用代价敏感学习

答案: ABCD

59. 以下关于梯度下降法的说法，正确的有:（）

A. 批量梯度下降(BGD)使用所有训练样本进行参数更新

B. 随机梯度下降(SGD)每次只使用一个训练样本进行参数更新

C. 小批量梯度下降(MBGD)使用一部分训练样本进行参数更新

D. 梯度下降法的目标是最小化损失函数

答案: ABCD

60. 下列哪些是机器学习的常见应用领域（）

A. 图像识别

B. 自然语言处理

C. 推荐系统

D. 数据加密

E. 金融预测

答案: ABCE

61. 下列哪些是数据预处理的方法（）

A. 缺失值处理

B. 数据标准化

C. 特征选择

D. 数据分类

E. 数据归一化

答案: ABE

62. 下列哪些是监督学习算法（）

A. 线性回归

B. 决策树

C. 支持向量机

D. K 均值聚类

E. 逻辑回归

答案: ABCE

63. 下列哪些是评估模型性能的指标（）

A. 准确率

B. 精确率

C. 召回率

D. F1 分数

E. 相关系数

答案: ABCD

64. 下列哪些是特征工程的常用方法（）

A. 特征缩放

B. 特征编码

C. 特征选择

D. 特征组合

E. 数据标准化

答案: ABCD

65. 下列哪些是集成学习算法（）

A. 决策树集成

B. 随机森林

C. AdaBoost

D. bagging

E. 支持向量机

答案: ABCD

66. 下列哪些是过拟合的解决方法（）

A. 增加数据量

B. 正则化

C. 减少模型复杂度

D. 增加模型参数

E. 交叉验证

答案: ABCE

67. 下列哪些是降维方法（）

A. 主成分分析

B. 因子分析

C. 线性判别分析

D. K 均值聚类

E. 基于矩阵分解的方法

答案: ABCE

68. 下列哪些是数据挖掘的步骤（）

A. 数据收集

B. 数据预处理

C. 模型训练

D. 模型评估

E. 数据可视化

答案: ABCDE

69. 下列哪些是特征选择的方法（）

A. 单变量特征选择

B. 基于模型的特征选择

C. 递归特征消除

D. 岭回归

E. Lasso 回归

答案: ABCE

70. 下列哪些是常用的特征工程方法（）

A. 特征缩放

B. 特征编码

C. 特征选择

D. 特征组合

E. 数据归一化

答案: ABCDE

71. 下列哪些是评估分类模型性能的指标（）

A. 准确率

B. 精确率

C. 召回率

D. F1 分数

E. 相关系数

答案: ABCD

72. 下列哪些是集成学习算法（）

A. 决策树集成

B. 随机森林

C. AdaBoost

D. bagging

E. 支持向量机

答案: ABCD

73. 下列哪些是过拟合的解决方法（）

A. 增加数据量

B. 正则化

C. 减少模型复杂度

D. 增加模型参数

E. 交叉验证

答案: ABCE

74. 下列哪些是降维方法（）

A. 主成分分析

B. 因子分析

C. 线性判别分析

D. K 均值聚类

E. 基于矩阵分解的方法

答案: ABCE

75. 下列哪些是监督学习算法（）

A. 线性回归

B. 决策树

C. 支持向量机

D. K 均值聚类

E. 逻辑回归

答案: ABCE

76. 下列哪些是数据预处理的方法（）

A. 缺失值处理

B. 数据标准化

C. 特征选择

D. 数据分类

E. 数据归一化

答案: ABE

77. 下列哪些是特征选择的方法（）

A. 单变量特征选择

B. 基于模型的特征选择

C. 递归特征消除

D. 岭回归

E. Lasso 回归

答案: ABCE

78. 下列哪些是数据挖掘的步骤（）

A. 数据收集

B. 数据预处理

C. 模型训练

D. 模型评估

E. 数据可视化

答案: ABCDE

79. 下列哪些是常用的交叉验证方法（）

A. 留出法

B. K 折交叉验证

C. 移动窗口交叉验证

D. 留一法

E. 分层交叉验证

答案: ABCDE

80. 以下属于监督学习任务的有:（）

A. 图像分类

B. 语音识别

C. 聚类分析

D. 回归分析

答案: ABD

81. 以下哪些方法可以用于降低过拟合风险?（）

A. 增加训练数据

B. 正则化

C. 早停法

D. 减少特征数量

答案: ABCD

82. 以下关于支持向量机(SVM)的说法，正确的有:（）

A. SVM 可以处理线性可分和线性不可分的数据

B. 核函数是 SVM 处理线性不可分数据的关键

C. SVM 的目标是找到一个最大间隔超平面

D. SVM 对异常值不敏感

答案: ABC

83. 以下属于无监督学习算法的有:（）

A. 主成分分析(PCA)

B. 高斯混合模型(GMM)

C. 决策树

D. 自编码器

答案: ABD

84. 以下哪些是评估分类模型性能的指标?（）

A. 准确率

B. 召回率

C. F1 值

D. 均方误差

答案: ABC

85. 以下关于随机森林的说法，正确的有:（）

A. 随机森林是由多个决策树组成的集成模型

B. 随机森林可以并行训练多个决策树

C. 随机森林对缺失值和异常值不敏感

D. 随机森林只能用于分类问题

答案: ABC

86. 以下哪些方法可以用于数据降维?（）

A. 主成分分析(PCA)

B. 线性判别分析(LDA)

C. 特征选择

D. 奇异值分解(SVD)

答案: ABCD

87. 以下关于 K 近邻算法的说法，正确的有:（）

A. K 值越小，模型越容易过拟合

B. K 值越大，模型越容易欠拟合

C. 该算法的时间复杂度较高

D. 该算法对数据的尺度比较敏感

答案: ABCD

88. 以下关于集成学习的方法，正确的有:（）

A. Bagging 方法通过自助采样得到多个训练集，训练多个弱学习器

B. Boosting 方法通过迭代训练多个弱学习器，每个弱学习器关注前一个弱学习器的错误样本

C. Stacking 方法将多个弱学习器的输出作为新的特征，再训练一个元学习器

D. 集成学习一定能提高模型的性能

答案: ABC

89. 以下关于深度学习的说法，正确的有:（）

A. 深度学习通常使用大规模的数据集进行训练

B. 深度学习模型通常具有很多层

C. 深度学习可以自动学习数据中的特征

D. 深度学习只适用于图像和语音领域

答案: ABC

90. 以下哪些是逻辑回归的特点?（）

A. 用于分类问题

B. 输出是概率值

C. 可以处理多分类问题

D. 模型具有线性决策边界

答案: ABCD

91. 以下关于聚类算法的说法，正确的有:（）

A. K 均值聚类是基于距离的聚类算法

B. DBSCAN 是基于密度的聚类算法

C. 层次聚类可以构建聚类的层次结构

D. 高斯混合模型聚类是基于概率模型的聚类方法

答案: ABCD

92. 以下哪些方法可以用于处理类别不平衡问题?（）

A. 过采样

B. 欠采样

C. 调整分类阈值

D. 使用代价敏感学习

答案: ABCD

141、SVM 算法的性能取决于（）。

A. 核函数的选择

B. 核函数的参数

C. 软间隔参数

D. 以上所有

正确答案：D

142、SVM 中的代价参数 C 表示什么？（）

A. 在分类准确性和模型复杂度之间的权衡

B. 交叉验证的次数

C. 以上都不对

D. 用到的核函数

正确答案：A

143、下列有关支持向量机说法不正确的是（）。

A. 得到的是局部最优解

B. 具有很好的推广能力

C. 是凸二次优化问题

D. 采用结构风险最小化原理

正确答案：A

144、下列有关核函数不正确的是（）。

A. 可以采用 cross-validation 方法选择最佳核函数

B. 满足 Mercer 条件的函数不一定能作为支持向量机的核函数

C. 极大地提高了学习机器的非线性处理能力

D. 函数与非线性映射并不是一一对应的关系

正确答案：B

145、一对一法分类器，k 个类别需要多少个 SVM（）。

A. k(k-1)/2

B. k(k-1)

C. k

D. k!

正确答案：A

146、有关聚类分析说法错误的是（）。

A. 无须有标记的样本

B. 可以用于提取一些基本特征

C. 可以解释观察数据的一些内部结构和规律

D. 聚类分析一个簇中的数据之间具有高差异性

正确答案：D

147、两个 n 维向量 𝛼(𝑥11, 𝑥12, ⋯ , 𝑥1𝑛) 和 𝛽(𝑥21, 𝑥22, ⋯ , 𝑥2𝑛)之间的欧式距离（euclidean distance)为（）。

A. 𝑑12 = √(𝛼 − 𝛽)(𝛼 − 𝛽)^𝑇

B. 𝑑12 = ∑ |𝑥1𝑘 − 𝑥2𝑘|

C. 𝑑12 = max(|𝑥1𝑖 − 𝑥2𝑖|)

D. cos(𝜃) = (𝛼 ∙ 𝛽)/(|𝛼||𝛽|)

正确答案：A

148、闵可夫斯基距离表示为曼哈顿距离时 p 为（）。

A. 1

B. 2

C. 3

D. 4

正确答案：A

149、关于 K-means 说法不正确的是（）。

A. 算法可能终止于局部最优解

B. 簇的数目 k 必须事先给定

C. 对噪声和离群点数据敏感

D. 适合发现非凸形状的簇

正确答案：D

150、k 中心点算法每次迭代的计算复杂度是多少？（）

A. 𝑂(1)

B. 𝑂(𝑘)

C. 𝑂(𝑛𝑘)

D. 𝑂(𝑘(𝑛 − 𝑘)^2)

正确答案：D

概率与贝叶斯相关题目

151、假设某事件发生的概率为 p，则此事件发生的几率为（）。

A. p

B. 1-p

C. p/(1-p)

D. (1-p)/p

正确答案：C

152、贝叶斯网络起源于贝叶斯统计学，是以（）为基础的有向图模型，它为处理不确定知识提供了有效的方法。

A. 线性代数

B. 逻辑学

C. 概率论

D. 信息论

正确答案：C

164. 在机器学习中，交叉验证的目的是：

A. 减少训练时间

B. 增加模型复杂度

C. 减少过拟合

D. 增加模型的泛化能力

答案：C

165. 以下关于 K 近邻算法的说法，错误的是：

A. K 值的选择对算法性能影响很大

B. 算法的计算复杂度主要取决于特征维度

C. 该算法不需要进行显式的训练过程

D. 算法的预测结果可能会受到样本分布的影响

答案：B

解析： K 近邻算法的计算复杂度主要取决于样本数量，而不是特征维度。K 值的选择会影响算法的性能，K 值过小容易过拟合，K 值过大容易欠拟合；该算法不需要进行显式的训练，直接利用训练数据进行预测；样本分布也会影响预测结果。

166. 决策树中，信息增益是通过以下哪种方式计算的？

A. 父节点的信息熵减去子节点的信息熵

B. 子节点的信息熵减去父节点的信息熵

C. 父节点的信息熵减去各子节点信息熵的加权和

D. 各子节点信息熵的加权和减去父节点的信息熵

答案：C

解析： 信息增益的计算公式为父节点的信息熵减去各子节点信息熵的加权和，用于衡量划分前后信息的减少程度，信息增益越大，划分越有效。

167. 支持向量机（SVM）的目标是：

A. 最大化分类间隔

B. 最小化分类间隔

C. 最大化训练误差

D. 最小化特征维度

答案：A

解析： 支持向量机的目标是在特征空间中找到一个最优的超平面，使得不同类别的样本之间的分类间隔最大，这样可以提高模型的泛化能力。

168. 以下哪种聚类算法是基于密度的聚类算法？

A. K 均值聚类

B. 层次聚类

C. DBSCAN

D. 高斯混合模型聚类

答案：C

解析： DBSCAN 是基于密度的聚类算法，它通过寻找数据点的密度相连区域来进行聚类。K 均值聚类是基于距离的聚类算法，通过迭代更新聚类中心；层次聚类是通过构建层次结构进行聚类；高斯混合模型聚类是基于概率模型的聚类方法。

229、SVM 的原理的简单描述，可概括为：

A. 最小均方误差分类

B. 最小距离分类

C. 最大间隔分类

D. 最近邻分类

答案：C

230、SVM 的算法性能取决于：

A. 核函数的选择

B. 核函数的参数

C. 软间隔参数 C

D. 以上所有

答案：D

231、支持向量机的对偶问题是：

A. 线性优化问题

B. 二次优化

C. 凸二次优化

D. 有约束的线性优化

答案：C

232、以下对支持向量机中的支撑向量描述正确的是：

A. 最大特征向量

B. 最优投影向量

C. 最大间隔支撑面上的向量

D. 最速下降方向

答案：C

233、假定你使用阶数为 2 的线性核 SVM，将模型应用到实际数据集上后，其训练准确率和测试准确率均为 100%。现在增加模型复杂度（增加核函数的阶），会发生以下哪种情况：

A. 过拟合

B. 欠拟合

C. 什么都不会发生，因为模型准确率已经到达极限

D. 以上都不对

答案：A

234、避免直接的复杂非线性变换，采用线性手段实现非线性学习的方法是：

A. 核函数方法

B. 集成学习

C. 决策树

D. Logistic 回归

答案：A

235、关于决策树节点划分指标描述正确的是：

A. 类别非纯度越大越好

B. 信息增益越大越好

C. 信息增益率越小越好

D. 基尼指数越大越好

答案：B

236、以下描述中，属于决策树策略的是：

A. 最优投影方向

B. 梯度下降方法

C. 最大特征值

D. 最大信息增益

答案：D

237、集成学习中基分类器的选择如何，学习效率通常越好：

A. 分类器相似

B. 都为线性分类器

C. 都为非线性分类器

D. 分类器多样，差异大

答案：D

238、集成学习中，每个基分类器的正确率的最低要求：

A. 50% 以上

B. 60% 以上

C. 70% 以上

D. 80% 以上

答案：A

239、下面属于 Bagging 方法的特点是：

A. 构造训练集时采用 Bootstraping 的方式

B. 每一轮训练时样本权重不同

C. 分类器必须按顺序训练

D. 预测结果时，分类器的比重不同

答案：A

240、下面属于 Boosting 方法的特点是：

A. 构造训练集时采用 Bootstraping 的方式

B. 每一轮训练时样本权重相同

C. 分类器可以并行训练

D. 预测结果时，分类器的比重不同

答案：D

241、随机森林方法属于：

A. 梯度下降优化

B. Bagging 方法

C. Boosting 方法

D. 线性分类

答案：B

242、假定有一个数据集 S，但该数据集有很多误差，采用软间隔 SVM 训练，阈值为 C，如果 C 的值很小，以下那种说法正确：

A. 会发生误分类现象

B. 数据将被正确分类

C. 不确定

D. 以上都不对

答案：A

243、软间隔 SVM 的阈值趋于无穷，下面哪种说法正确：

A. 只要最佳分类超平面存在，它就能将所有数据全部正确分类

B. 软间隔 SVM 分类器将正确分类数据

C. 会发生误分类现象

D. 以上都不对

答案：A

244、一般，K-NN 最近邻方法在什么情况下效果好：

A. 样本较多但典型性不好

B. 样本较少但典型性较好

C. 样本呈团状分布

D. 样本呈链状分布

答案：B

注：最近邻属于分类算法，样本多而且典型性不好容易造成分类错误（尤其是在分类边界上的样本点）。样本分布对聚类算法的影响较大。

245、混合高斯聚类中，运用了以下哪种过程：

A. EM 算法

B. 集合运算

C. 密度可达

D. 样本与集合运算

答案：A

246、主成分分析方法是一种什么方法：

A. 分类方法

B. 回归方法

C. 降维方法

D. 参数估计方法

答案：C

247、过拟合现象中：

A. 训练样本的测试误差最小，测试样本的正确识别率却很低

B. 训练样本的测试误差最小，测试样本的正确识别率也很高

C. 模型的泛化能力很高

D. 通常为线性模型

答案：A

248、已知均值和方差，下面哪种分布的熵最大：

A. 几何分布

B. 指数分布

C. 高斯分布

D. 均匀分布

答案：C

249、梯度下降算法的正确步骤是什么：

(1)计算预测值和真实值之间的误差

(2)迭代更新，直到找到最佳权重

(3)把输入传入网络，得到输出值

(4)初始化随机权重和偏差

(5)对每一个产生误差的神经元，改变相应的（权重）值以减小误差

A. 1,2,3,4,5

B. 4,3,1,5,2

C. 3,2,1,5,4

D. 5,4,3,2,1

答案：B

250、以下哪种方法会增加模型的欠拟合风险：

A. 添加新特征

B. 增加模型复杂度

C. 减小正则化系数

D. 数据增强

答案：D

251、关于 k-means 算法，正确的描述是：

A. 能找到任意形状的聚类

B. 初始值不同，最终结果可能不同

C. 每次迭代的时间复杂度是 O(n^2)，其中 n 是样本数量

D. 不能使用核函数

答案：B

252、下列关于过拟合现象的描述中，哪个是正确的：

A. 训练误差小，测试误差大

B. 训练误差小，测试误差小

C. 模型的泛化能力高

D. 其余选项都不对

答案：A

253、下方法中属于无监督学习算法的是：

A. 线性回归

B. 支持向量机

C. 决策树

D. K-Means 聚类

答案：D

254、下面关于贝叶斯分类器描述错误的是：

A. 以贝叶斯定理为基础

B. 是基于后验概率，推导出先验概率

C. 可以解决有监督学习的问题

D. 可以用极大似然估计法解贝叶斯分类器

答案：B

255、下面关于 Adaboost 算法的描述中，错误的是：

A. 是弱分类器的线性组合

B. 提升树是以分类树或者回归树为基本分类器的提升办法

C. 该算法实际上是前向分步算法的一个实现，在这个方法里，模型是加法模型，损失函数是指数损失，算法是前向分步算法。

D. 同时独立地学习多个弱分类器

答案：D

256、二分类任务中，有三个分类器 h1, h2, h3，三个测试样本 x1, x2, x3。假设 1 表示分类结果正确，0 表示错误，h1 在 x1, x2, x3 的结果分别 (1,1,0)，h2, h3 分别为 (0,1,1), (1,0,1)，按投票法集成三个分类器，下列说法正确的是：

A. 集成提高了性能

B. 集成没有效果

C. 集成降低了性能

D. 集成效果不能确定

答案：A

257、下列哪个不属于常用的文本分类的特征选择算法：

A. 卡方检验值

B. 互信息

C. 信息增益

D. 主成分分析

答案：D

258、以下哪个模型不是分类模型：

A. 最近邻

B. K 均值

C. 朴素贝叶斯

D. 逻辑回归

答案：B

262、机器学习进行的第一步是（）

A. 数据收集

B. 特征提取

C. 交叉验证

D. 模型训练

正确答案：A

解析：
机器学习流程的第一步是数据收集，因为所有后续步骤（如特征提取、模型训练）都依赖于数据。没有数据，机器学习无法进行。特征提取是数据预处理的一部分，属于后续步骤。

264、如果一个样本空间线性可分，那么，我们能找到（）个平面来划分样本。

A. 1

B. 无数

C. K

D. 不确定

正确答案：B

解析：
线性可分时，存在无数个分离超平面。只要超平面不越过样本点，稍微平移或旋转仍能保持分类正确。

265、向量 x=[1,2,3,4,-9,0]的 L1 范数是多少

A. 1

B. 19

C. 6

D. 20

正确答案：B

解析：
L1 范数是各元素绝对值之和：

$\|x\|_1=|1|+|2|+|3|+|4|+|-9|+|0|=19$

266、向量 X=[1,2,3,4,-9,0] 的 L2 范数为（）

A. 1

B. 19

C. 6

D. √111

正确答案：D

解析：
L2 范数是各元素平方和的平方根：

$\|x\|_2=\sqrt{1^2+2^2+3^2+4^2+(-9)^2+0^2}=\sqrt{111}$

267、一般，k-NN 最近邻方法在（）的情况下效果较好

A. 样本较多但典型性不好

B. 样本较少但典型性好

C. 样本呈团状分布

D. 样本呈链状分布

正确答案：B

解析：
KNN 依赖局部相似性，样本少但典型性好时，最近邻投票更可靠。团状分布是理想假设，但”少而典型”是更根本的前提。

268、以下哪些方法不可以直接来对文本分类？

A. K-Means

B. 决策树

C. 支持向量机

D. kNN

正确答案：A

解析：
K-Means 是无监督聚类算法，不依赖标签，无法直接用于分类。其他选项均为有监督分类算法。

269、以下说法错误的一项是

A. 负梯度方向是使函数值下降最快的方向

B. 当目标函数是凸函数时，梯度下降法的解是全局最优解

C. 梯度下降法比牛顿法收敛速度快

D. 拟牛顿法不需要计算 Hesse 矩阵

正确答案：C

解析：
牛顿法（二阶）在最优解附近收敛速度（二次）快于梯度下降法（线性）。C 选项表述错误。

270、下列说法错误的是？

A. 当目标函数是凸函数时，梯度下降算法的解一般就是全局最优解

B. 进行 PCA 降维时，需要计算协方差矩阵

C. 沿负梯度的方向一定是最优的方向

D. 利用拉格朗日函数能解带约束的优化问题

正确答案：C

解析：
负梯度方向是局部下降最快方向，但非全局最优（可能产生锯齿现象）。其他选项正确。

271、交叉验证方法执行时间排序（样本量 1000）

A. 1 > 2 > 3 > 4

B. 2 > 3 > 4 > 1

C. 4 > 1 > 2 > 3

D. 2 > 4 > 3 > 1

正确答案：D

解析：
时间开销：

留一法（1000 次训练）最慢（2）
重复两次 5 折（10 次训练）次慢（4）
5 折（5 次训练）较快（3）
Bootstrap（1 次训练）最快（1）
排序：2 > 4 > 3 > 1

273、下面哪句话是正确

A. 机器学习模型的精准度越高，则模型的性能越好

B. 增加模型的复杂度，总能减小测试样本误差

C. 增加模型的复杂度，总能减小训练样本误差

D. 以上说法都不对

正确答案：C

解析：
增加复杂度会提升模型拟合能力，训练误差通常减小（可能过拟合）。A 错（需综合评估），B 错（测试误差可能增大）。

274、集成学习中，下列说法正确的是？

A. 基本模型之间相关性高

B. 基本模型之间相关性低

C. 集成方法中，使用加权平均代替投票方法

D. 基本模型都来自于同一算法

正确答案：B

解析：
集成学习要求基模型”好而不同”，低相关性使错误相互纠正，提升泛化能力。

275、SVM 训练后只保留支持向量是否影响分类能力？

A. 正确

B. 错误

正确答案：A

解析：
支持向量决定了分离超平面，非支持向量不影响模型，这是 SVM 的稀疏性。

276、Soft-SVM 中如何保证线性可分？

A. C = 0

B. C = 1

C. C 正无穷大

D. C 负无穷大

正确答案：C

解析：
C 趋于无穷大时，对分类错误的惩罚无限大，迫使所有样本分类正确（退化为硬间隔）。

278、点击率预测（99%负样本）中，正确率 99%说明？

A. 模型正确率很高，不需要优化模型了

B. 模型正确率并不高，应该建立更好的模型

C. 无法对模型做出好坏评价

D. 以上说法都不对

正确答案：B

解析：
极端不平衡时，将所有样本预测为负类即可达到 99%准确率，模型未学到区分能力，需优化。

279、关于 k 折交叉验证，下列说法正确的是？

A. k 值并不是越大越好，k 值过大，会降低运算速度

B. 选择更大的 k 值，会让偏差更小，因为 k 值越大，训练集越接近整个训练样本

C. 选择合适的 k 值，能减小验证方差

D. 以上说法都正确

正确答案：D

解析：
A、B、C 均正确：k 过大计算开销大；k 大时训练集接近全集，偏差小；合适 k 可平衡偏差-方差。

289、EM 算法的核心思想是？

A. 通过不断地求取目标函数的下界的最优值，从而实现最优化的目标

B. 列出优化目标函数，通过方法计算出最优值

C. 列出优化目标函数，通过数值优化方法计算出最优值

D. 列出优化目标函数，通过坐标下降的优化方法计算出最优值

正确答案：A

解析：
EM 算法通过 E 步构造下界、M 步最大化下界，迭代逼近最优解。

291、SVM 中的代价参数 C 表示什么？

A. 在分类准确性和模型复杂度之间的权衡

B. 交叉验证的次数

C. 以上都不对

D. 用到的核函数

正确答案：A

解析：
C 控制误分类惩罚与模型复杂度（间隔大小）的权衡：C 越大，越倾向正确分类（可能过拟合）。

293、下列有关核函数不正确的是

A. 可以采用 cross-validation 方法选择最佳核函数

B. 满足 Mercer 条件的函数不一定能作为支持向量机的核函数

C. 极大地提高了学习机器的非线性处理能力

D. 函数与非线性映射并不是一一对应的关系

正确答案：B

解析：
核函数必须满足 Mercer 条件才能用于 SVM。B 选项错误，反过来说才成立。

298、关于 K-means 说法不正确的是

A. 算法可能终止于局部最优解

B. 簇的数目 k 必须事先给定

C. 对噪声和离群点数据敏感

D. 适合发现非凸形状的簇

正确答案：D

解析：
K-means 假设簇呈凸形（球形），对非凸形状（如流形、环状）效果差。

300、同质集成中的个体学习器亦称

A. 组件学习器

B. 基学习器

C. 异质学习器

D. 同质学习器

正确答案：B

解析：
同质集成中，相同类型的个体学习器称为基学习器。

302、关于 logistic 回归和 SVM 不正确的是

A. Logistic 回归目标函数是最小化后验概率

B. Logistic 回归可以用于预测事件发生概率的大小

C. SVM 可以有效避免模型过拟合

D. SVM 目标是结构风险最小化

正确答案：A

解析：
Logistic 回归通过最大似然估计参数，目标是得到后验概率的估计值，而非最小化后验概率。

303、下面关于 SVM 算法叙述不正确的是

A. SVM 是一种基于经验风险最小化准则的算法

B. SVM 求得的解为全局唯一最优解

C. SVM 在解决小样本、非线性及高维模式识别问题中具有优势

D. SVM 最终分类结果只与少数支持向量有关

正确答案：A

解析：
SVM 目标是结构风险最小化（间隔最大化+误差惩罚），而非单纯经验风险最小化。

305、下列中为生成模型的是

A. 决策树

B. 支持向量机 SVM

C. K 近邻

D. 贝叶斯分类器

正确答案：D

解析：
生成模型对联合概率 P(X,Y)建模（如朴素贝叶斯），判别模型直接对 P(Y|X)或决策边界建模（其他选项）。

308、距离度量不需要满足的特性是

A. 非负性

B. 同一性

C. 对称性

D. 递增性

正确答案：D

解析：
距离度量需满足非负性、同一性、对称性、三角不等式，无需”递增性”。

315、朴素贝叶斯利用了

A. 先验概率

B. 后验概率

C. 以上都是

D. 以上都不是

正确答案：C

解析：
朴素贝叶斯基于贝叶斯定理，利用先验概率 P(Y)和似然 P(X|Y)计算后验概率 P(Y|X)。

317、模型评估的常用方法有哪些

A. 留出法

B. 交叉验证法

C. 自助法

D. 以上都是

正确答案：D

解析：
留出法、交叉验证、自助法均为常用模型评估方法。

321、关于 EM 算法正确的是

A. EM 算法包括两步：E 算法和 M 算法

B. EM 算法一定能收敛到全局最大值点

C. 英文全称是 Expectation-Minimization

D. 以上都不正确

正确答案：A

解析：
EM 算法包括 E 步（期望）和 M 步（最大化）。B 错（可能收敛到局部最优），C 错（全称 Expectation-Maximization）。

在构建决策树时，以下哪些可以作为分裂节点的选择标准？（）
A. 信息增益 B. 基尼指数 C. 均方误差 D. 准确率
答案：A

以下关于交叉验证的说法正确的是（）
A. 可以有效评估模型的泛化能力 B. 常见的有 K - 折交叉验证 C. 能避免数据划分的随机性影响 D. 只适用于小数据集
答案：AB

155、以下哪些算法是无监督学习算法?
A.空间聚类 149 B.主成分分析 C.支持向量机 D.Q-LEARNING
正确答案：A、B

156、以下哪些算法是监督学习算法?
A.人工神经网络 B.高斯混合模型概率密度估计 C.ACTOR-CRITIC 算法 D.支持向量机
正确答案：A、D

157、当我们利用二分类支持向量机来解决多分类问题是，我们有哪两种策略？（）
A.一类对另一类 B.一类对 K-1 类 C.一类对 K 类 D.2 类对 K-2 类
正确答案：A、B
159、核函数满足的两个条件（）。
A.交换性 B.正交性 C.鲁棒性 D.半正定性
正确答案：A、D

135、直观上看，我们希望“物以类聚”，即聚类的结果“簇内相似度”⾼，且 “簇间”相似度低。（√）
136、关于 EM 算法的收敛性，EM 算法理论上不能够保证收敛。（×）
137、关于 EM 算法的用途，EM 算法只适用不完全数据的情形。（×）

138、Jessen 不等式等号成立的条件是：变量为常数。正确答案：√
139、Jessen 不等式 E(f(x)) >= f(E(x)), 左边部分大于等于右边部分的条件是函数 f 是凸函数，如果 f 是凹函数，左边部分应该是小于等于右边部分。正确答案：√ 140、EM 算法因为是理论可以保证收敛的，所以肯定能够取得最优解。（×

143、EM 算法通常不需要设置步长，而且收敛速度一般很快。正确答案：√ 144、吉布斯采样是一种通用的采样方法，对于任何概率分布都可以采样出对应的样本。（×）

136、关于 EM 算法的收敛性，EM 算法理论上不能够保证收敛。（×）
137、关于 EM 算法的用途，EM 算法只适用不完全数据的情形。（×）
138、Jessen 不等式等号成立的条件是：变量为常数。正确答案：√

139、Jessen 不等式 E(f(x)) >= f(E(x)), 左边部分大于等于右边部分的条件是函数 f 是凸函数，如果 f 是凹函数，左边部分应该是小于等于右边部分。正确答案：√

140、EM 算法因为是理论可以保证收敛的，所以肯定能够取得最优解。（×）

141、EM 算法首先猜测每个数据来自哪个高斯分布，然后求取每个高斯的参数，之后再去重新猜测每个数据来自哪个高斯分布，类推进一步迭代，直到收敛，从而得到最后的参数估计值。正确答案：√

142、EM 算法，具有通用的求解形式，因此对任何问题，其求解过程都是一样，都能很容易求得结果。（×）

≡