机器学习专业术语 机器学习常用术语词汇表
1. 数据集(dataset):机器学习算法的输入数据,可以是一组已标记的数据(有标签)或一组未标记的数据(无标签)。
2. 特征(feature):在机器学习中,特征是用于描述数据的属性或属性集。它们可以是数值、分类或文本。
3. 标签(label):在有监督学习中,标签是我们希望机器学习算法预测或分类的目标变量。
4. 模型(model):模型是机器学习算法从训练数据中学习到的规律或模式的表示。它可以是线性模型、决策树、神经网络等。
5. 训练数据(training data):用于训练机器学习模型的数据集。
6. 测试数据(test data):用于评估机器学习模型性能的数据集,它不参与模型的训练过程。
7. 特征工程(feature engineering):特征工程是从原始数据中提取有用的特征或转换特征的过程,以提高机器学习模型的性能。
8. 监督学习(supervised learning):监督学习是一种机器学习方法,它使用有标签的训练数据来训练模型,然后使用该模型来预测新的未标记数据的标签。
9. 无监督学习(unsupervised learning):无监督学习是一种机器学习方法,它使用未标记的数据来训练模型,从而发现数据的隐藏模式或结构。
10. 泛化能力(generalization):机器学习模型对未见过的数据的适应能力,即模型在训练数据上学到的规律能否推广到新的数据上。
11. 过拟合(overfitting):过拟合是指机器学习模型在训练数据上表现良好,但在测试数据上表现较差的现象。过拟合通常是由于模型过于复杂或训练数据过少引起的。
12. 欠拟合(underfitting):欠拟合是指机器学习模型在训练数据和测试数据上表现都较差的现象。欠拟合通常是由于模型过于简单或训练数据不足引起的。
13. 交叉验证(cross-validation):一种评估机器学习模型性能的方法,它将数据集划分为多个子集,然后训练和测试模型多次,最终得到模型的平均性能。
14. 分类(classification):分类是一种有监督学习的任务,它将数据划分到不同的类别中,如将电子邮件分类为垃圾邮件或非垃圾邮件。
15. 回归(regression):回归是一种有监督学习的任务,它通过建立一个函数来预测连续变量的值,如根据房屋的面积和位置来预测房价。
以上是一些常见的机器学习术语及其解释。通过了解和掌握这些术语,我们可以更好地理解机器学习算法和模型,并在实际应用中更有效地使用它们。