百道数据招聘: 运维工程师、架构师、商务。请发简历至 contact@baiadoadata.com

AVAR

百道助力AVAR云架构升级优化全球效能

客户背景

AVAR是元宇宙和web3虚拟厂牌,旗下有虚拟人IP、虚拟服饰品牌、数字艺术生成器。核心技术为3D程序化生成框架、人物融合算法、AR应用。应用场景为虚拟偶像、虚拟时尚、数字藏品NFT。AVAR用程序化算法生成最具规模、效率、影响力的数字资产;成为元宇宙数字资产生产和创作的虚拟厂牌;算法驱动创作力、虚拟技术革新现实需求、建设元宇宙的3D内容生态。 核心技术为3D程序化生成框架、虚拟人物融合算法、AR应用。应用场景有虚拟偶像、虚拟时尚、虚拟服装、数字藏品,目前已和小红书、阿里数藏、各大综艺和明星工作室取得合作。

Aiuni是AVAR下的专注于人工智能生成内容(AIGC)领域的创新平台,旨在通过自主研发的Unique3D技术,为用户提供从2D图像到高质量3D模型的快速转换服务。Aiuni以“让3D创作更简单”为使命,通过其高效、智能的AI工具,推动3D内容创作的普及化和高效化。无论是游戏开发、影视制作,还是虚拟现实(VR)和增强现实(AR)应用,Aiuni都能为用户提供强大的技术支持和便捷的解决方案。

业务需求和挑战

随着AVAR业务的全球扩展与推广,Aiuni.ai网站的访问频率显著增加。然而,基于现有的火山引擎云平台,用户普遍反映网站访问延迟明显,图片加载速度过慢,这些问题已导致用户对Aiuni.ai平台的不满情绪上升。鉴于此,AVAR亟需寻找一家具备更优网络性能的云服务提供商。

在当前人工智能技术迅速发展的背景下,对计算资源的需求日益增长。在现有的业务架构中,AVAR大量使用了T4和A100显卡,但在业务高峰期,火山引擎平台上会出现部分推理任务和训练任务因显卡资源不足而排队等待的情况,这不仅影响了任务执行效率,也降低了客户满意度。

此外,在业务前端的调度方面,由于采用自建的Kubernetes(K8S)集群,在业务高峰期资源利用率可高达180%,而在低谷期则降至30%,导致大量资源闲置,未能实现资源的最大化利用。

在数据安全与合规性方面,AVAR面临的挑战尤为复杂且紧迫。随着业务的全球化扩展,数据存储、处理和传输的合规性要求因地区而异,不同地区对数据存储和处理的合规性要求日益严格,现有平台在满足多区域数据合规性方面存在不足,可能带来潜在的法律风险。

解决方案

项目中,谷歌合作伙伴百道帮助AVAR的IT团队对Google Cloud上云业务成本投入规划和优化方案进行了详细分析,同时对各类问题和需求给出了非常好的解答和业务解决方案。在改造过程中,使用了一些Google Cloud的产品,助力AVAR设计基于GCP的基础架构,改进旧有在火山引擎上的架构,让客户在服务管理上偏向基础设施自动化管理、专注用户体验和保持系统的稳定运行。

方案架构描述

  • 高性能计算平台

借助Google Cloud的Compute Engine,客户可以进行大量的推理任务以及模型训练任务,不用再担心会因为算力导致的性能瓶颈;另外在部分业务场景中,客户也可以适量地使用Spot的GPU机型,在保证了推理任务的需求的同时,也可以极大地降低使用成本。

同时,随着用户数量的不断增长,Aiuni平台可以通过Google Kubernetes Engine(GKE)灵活地扩展或缩减资源,确保在业务高峰期时服务可以提供稳定的支持,当需求减少时,可以自动缩小配置,节省成本。

 

  • 数据存储与管理

通过采用Google Cloud的Cloud Storage服务,能够实现多区域部署,不仅确保符合各地区的法律法规要求,还能显著提升用户的访问速度。此外,Cloud Storage还提供了数据加密功能,客户可以上传自定义密钥,对敏感文件进行内容级加密,从而保障文件在云端存储的安全性。在数据访问层面,通过使用基于签名的Cookie(signed-cookie)机制对访问链接进行签名验证,进一步确保了数据文件的高度安全性和访问控制。

 

  • 内容分发服务

通过采用Google Cloud的Cloud CDN服务,能够为全球用户提供高效、低延迟的内容分发服务。Cloud CDN通过将静态内容缓存至全球分布的边缘节点,使用户能够从距离最近的节点获取所需内容,从而显著提升内容加载速度,优化用户体验。此外,依托Google Cloud的全球网络基础设施,仅需配置一个全球外部应用负载均衡器,即可实现全球用户的高效内容分发,确保无论用户位于何地,均能快速访问所需资源。

 

  • 图像处理服务

在业务实际场景中,常需对图像进行特定尺寸的裁切操作。借助Google Cloud的Cloud Run服务,可采用容器化部署方式来搭建相关服务。在此模式下,客户无需投入精力管理底层基础设施,仅需专注于代码的编写与部署工作。此外Cloud Run采用按需付费模式,仅在代码实际运行时产生费用,未运行时不会产生任何费用支出,这一特性能够有效降低业务成本,提升资源利用效率。

 

  • 服务监控与管理

Log Collection (Logging): 收集应用程序和服务的日志,用于故障排除和性能分析。

Performance Monitoring (Cloud Monitoring): 监控平台的性能指标,例如CPU使用率、内存使用率、请求延迟等,以便及时发现问题并进行优化。

Cost Management (Billing API): 跟踪和管理云资源的使用成本,以便控制预算并优化资源配置。 

 

使用产品

  • Google Kubernetes Engine
  • Compute Engine
  • Cloud Load Balancing
  • Cloud CDN
  • Cloud SQL for MySQL
  • Cloud Run
  • Filestore
  • Artifacts Registry

 

客户收益

增强的性能和可扩展性:与之前的基于火山引擎的基础设施相比,利用 Google Kubernetes Engine (GKE) 进行微服务编排使高峰时段的应用程序延迟降低了 30%。 GKE 卓越的自动扩展功能使平台能够无缝处理意外的需求激增,从而确保持续响应的用户体验。

降低基础设施成本:在使用了GKE的Spot机型之后,可以让客户的资源利用率达到最大化,既保证了业务的稳定运行,也让基础设施的成本降低了40%。

运维管理工具:采用Cloud Logging以及Cloud Monitoring,简化了整个日志收集和分析的过程,出现问题告警也可以及时地发送到客户的通讯工具中,这将关键事件的平均修复时间 (MTTR) 缩短了30%。