亚马逊Amazon EC2使用AWS Deep Learning Containers训练深度学习模型教程

AWS Deep Learning Containers是一款由亚马逊云科技推出的预先构建的Docker镜像。借助它,用户可以跳过从头构建和优化环境的复杂流程,轻松快速部署自定义机器学习环境。为方便大家了解,本文就来简单为大家介绍一下亚马逊Amazon EC2使用AWS Deep Learning Containers训练深度学习模型教程,仅供参考。

本文涉及到亚马逊云服务:Amazon EC2

Amazon EC2提供最广泛、最深入的计算平台,可选择处理器、存储、联网、操作系统和购买模式。目前亚马逊官网提供免费套餐包括高频Intel Xeon处理器、1核1G、性能可突增的CPU、30GB SSD,免费试用12个月。

Amazon EC2

点击获取:亚马逊免费云服务器

相关推荐:《如何注册亚马逊AWS账号

一、添加Amazon ECR访问权限

1、进入亚马逊云科技官网,注册并登录。

2、打开AWS管理控制台,页面加载后,输入用户名和密码即可开始使用。然后在搜索栏中输入IAM,选择IAM以打开服务控制台。

亚马逊云科技

3、在左侧导航窗格中选择Users(用户)。

亚马逊云科技

4、现在将为新创建的IAM用户或现有的IAM用户添加权限。在IAM用户摘要页面上,选择Add Permissions(添加权限)。

亚马逊云科技

5、选择Attach existing policies directly(直接附加现有策略),然后搜索AWS ECS_FullAccess。选择Amazon_FullAccess策略,然后点击该策略以执行Review(查看)和Add Permissions(添加权限)操作。

亚马逊云科技

6、在IAM用户摘要页面上,选择Add inline policy(添加内联策略)。

亚马逊云科技

7、选择JSON页签并粘贴以下策略:

{
"Version": "2012-10-17",
"Statement": [
{
"Action": "ecr:*",
"Effect": "Allow",
"Resource": "*"
}
]
}

将此策略保存为AWS ECR,然后选择Create Policy(创建策略)。

亚马逊云科技

二、启动AWS Deep Learning Base AMI实例

1、返回AWS管理控制台主页,在搜索栏中输入EC2,然后选择AWS EC2以打开服务控制台。

亚马逊云科技

2、再次前往Amazon EC2控制台,然后点击Launch Instance(启动实例)按钮。

亚马逊云科技

3、在左侧选择AWS Marketplace页签,然后搜索deep learning base ubuntu。选择Deep Learning Base AMI(Ubuntu)。您还可以选择Deep Learning Base AMI(Amazon Linux)。

亚马逊云科技

4、选择Amazon EC2实例类型,本文选择c5.large实例。

点击Review and Launch(查看并启动)。

亚马逊云科技

5、查看实例的详细信息,并点击Launch(启动)。

亚马逊云科技

6、选择Create a new key pair(新创密钥对),然后为其命名。然后点击Download Key Pair(下载密钥对)并将密钥存储在安全位置。

亚马逊云科技

注:如果用户仍可以访问先前创建的私钥文件,则可以通过选择Choose an existing key pair(选择现有密钥对)来使用现有的私钥。

7、在控制台上选择实例ID,查看新创建的Amazon EC2实例的详细信息。

亚马逊云科技

8、使用SSH连接到新启动的实例。

在Description(说明)页签下面,复制Amazon EC2实例的公共DNS(IPv4)。

亚马逊云科技

在终端上使用以下命令切换到安全密钥所在的目录,然后使用SSH连接到实例。

cd /Users/<your_username>/Downloads/

chmod 0400 <your .pem filename>

ssh -L localhost:8888:localhost:8888 -i <your .pem filename> ubuntu@<your instance DNS>

亚马逊云科技

9、安装Docker

sudo pkill -f "apt.systemd.daily"
sudo apt install docker.io

10、使用以下命令登录Amazon ECR:

sudo su –
$(aws ecr get-login --region us-east-1 --no-include-email --registry-ids 763104351884)

注:用户需要在命令中包含“$”和圆括号。

11、使用以下命令在EC2实例上运行AWS Deep Learning Container镜像。如果Deep Learning Container镜像在本地不存在,此命令将自动拉取该镜像。

若使用CPU实例:

docker run -it 763104351884.dkr.ecr.us-east-1.amazonaws.com/tensorflow-training:2.8.0-cpu-py39-ubuntu20.04-e3

亚马逊云科技

注:此步骤可能需要几分钟时间,具体取决于镜像的大小。如果用户使用的是GPU实例,请使用“nvidia-docker”而非“docker”。此步骤成功完成后,用户将为容器输入bash提示符。

12、克隆Keras存储库,其中包括用于训练模型的示例Python脚本。

git clone https://github.com/gilinachum/keras

亚马逊云科技

13、使用以下命令开始训练经典的MNIST CNN模型:

python keras/mnist.py

亚马逊云科技

以上就是为大家介绍的在Amazon EC2上使用AWS Deep Learning Containers训练TensorFlow机器学习模型的全部流程。

相关推荐:《亚马逊云科技Amazon EC2构建通义千问大模型教程

使用教程

一文教你在亚马逊AWS上搭建生成式AI应用

2025-5-22 11:56:15

产品方案

华为云GPU加速云服务器价格及配置信息

2022-7-26 15:32:21

相关推荐