有监督的学习:使用标签化的数据进行训练,然后推断出输入特征和结果标签之间函数映射关系的机器学习方法,所谓训练就是求解模型参数。
绝大多数机器学习算法进行模型训练的方式:
- 分割数据:数据分为三个集合,分别是训练集、验证集和测试集。
- 使用训练集数据计算模型参数:初始化随机参数,随机抽取batch代入模型计算,然后和真实结果比较得到函数损失量,反向传播做梯度运算获得损失函数最小化的模型参数,然后再重复,知道损失函数收敛。
- 通过验证集调整模型的超参:超参是人为设定的外部参数,无法通过训练集进行训练,只能进行手动调整。
- 使用独立数据来综合评估最佳模型的性能。
深度学习网络:
隐藏层,将上一次的输入数据做转换,将其映射到一个可以对特征值进行线性分离的空间,然后激活函数将其非线性化,再给到后一层作为输入。当中间隐藏层>2,为深度神经网络模型。模型通过非线性的形式来描述真实世界的生物学问题,因为这些问题本身通常是线性模型无法解答的。
全连接网络层:网络中主要起分类器作用,本质就是将前面各层训练得到的特征空间线性的变换到另一个特征空间。目标预测就是前面各层结果的加权和。
深度卷积神经网络