LOADING

Follow me

【转载】柏林 KubeCon 直击| 看 TensorFlow 如何从 AI 工具变身 AI 产品
三月 31, 2017|DockerPaaS

【转载】柏林 KubeCon 直击| 看 TensorFlow 如何从 AI 工具变身 AI 产品

【转载】柏林 KubeCon 直击|  看 TensorFlow 如何从 AI 工具变身 AI 产品

IDC 发布的报告显示,2017年大数据全球市场规模将达324亿美元,年复合增长率为27%,其中市场增长最快的领域是数据存储领域(53.4%)。而 BBC 预测,人工智能市场2020年全球市场规模将达到183亿美元。

企业伴随着业务的发展会积累海量的数据,而如何利用这部分数据给企业再次创造价值已经成为目前各个大数据及 AI 行业所关注的重点。

对于结构化数据(表格及数据库等)和非结构化数据(图片音频等)的分析方法及工具选择也是多种多样的。而 TensorFlow 则由于其开源和功能强大等众多优点受到众多专家的追捧。并且开发者也热情高涨地积极贡献。

但 TensorFlow 的配置和使用非常复杂,尤其在分布式环境中。TensorFlow 本身的出发点是作为一个 AI 工具存在的,而要将其产品化则存在着诸多问题需要解决。


柏林 KubeCon 直击|  看 TensorFlow 如何从 AI 工具变身 AI 产品

Supporting the Cloud Native Ecosystem


2017年3月29-30日,由 CNCF 主办的 KubeCon 在柏林拉开序幕,才云(Caicloud)首席大数据科学家郑泽宇和云开源高级工程师赵慧智受邀在会上做 TensorFlow 运行在 Kubernetes 上的技术演讲,并和大家分享了在提供这一 TensorFlow as a Service(TaaS)的技术点实现方式及解决方案。

简单来说,才云在为企业提供大数据及 AI 解决方案的同时,还为大数据及 AI 的开发者和科研机构提供一个可以实现 TensorFlow 产品化的解决方案,尤其解决其在分布式环境系统中的诸多问题。

通过基于 Kubernetes 的 TensorFlow,并且在 Kubernetes 上支持 GPU 和可视化的 UI 封装,使得 TensorFlow 可以在其原有的功能不为损失的情况下,极大的简化和封装 TensorFlow 在分布式中遇到的诸多问题,在此之上提供更多的功能。

这次才云的演讲主要包括:

1、分布式 TensorFlow 在机器学习中的作用和发展

2、How to enable GPU on Kubernetes

3、TensorFlow On Kubernetes

4、TaaS (TensorFlow as a Service)

以下是具体演讲内容摘要:TensorFlow 虽然在国内外大型企业都已经得到了广泛的应用,但是在广大中小型 IT 企业以及传统企业中,要将其应用于生产环境却仍然存在挑战。

在单机环境下,即使使用目前最先进的 GPU 都无法满足其计算量的要求。而在集群环境下, TensorFlow 存在高门槛、难配置、难管理等问题。

如下图所示,传统的分布式 TensorFlow 没有把 CPU 跟 GPU 进行虚拟化。只能直接使用物理 GPU 资源,无法让利用率最大化。


柏林 KubeCon 直击|  看 TensorFlow 如何从 AI 工具变身 AI 产品


传统分布式 TensorFlow 带来管理方面的难题,比如:训练任务队列,用户权限管理,集群管理,模型服务管理,模型自动部署,资源管理,训练任务调度等等。


柏林 KubeCon 直击|  看 TensorFlow 如何从 AI 工具变身 AI 产品

如下图所示,当分布式系统使用 K8S 对 GPU 虚拟化后,原生的 K8S 对于 GPU 的支持很弱。

但是,通过才云的平台虚拟化后,可以对 GPU 进行更加灵活自由的调度使用, 从而提升深度学习任务的训练速度。


柏林 KubeCon 直击|  看 TensorFlow 如何从 AI 工具变身 AI 产品

同时,才云两位大数据专家在大会上演示了 Caicloud 的 TaaS 界面:


柏林 KubeCon 直击|  看 TensorFlow 如何从 AI 工具变身 AI 产品


而且,还从环境搭建,模型训练,监控管理及模型在线服务等板块把原生态 TensorFlow 跟 TaaS 平台的对比。


柏林 KubeCon 直击|  看 TensorFlow 如何从 AI 工具变身 AI 产品

以下页面展示的是 TaaS 训练资源池里,可以支持多个用户,同时提交多个任务。通过这样的 TaaS 平台,我们可以任务管理,资源调度,任务状态监控,及任务优先级调度。最大化提升集群的资源使用率,及任务的执行效率。

柏林 KubeCon 直击|  看 TensorFlow 如何从 AI 工具变身 AI 产品

最后,介绍了才云的产品平台:才云的 Caicloud 平台依托于物理机,虚拟机,微软云,AWS 云平台,阿里云平台,创建了 K8S 集群。在多个 K8S 集群之上,我们建立了 Caicloud CLaaS 容器集群管理平台,平台之上有:分布式深度学习平台 TaaS,CI/CD工具 Cyclone,以及 Cargo。


柏林 KubeCon 直击|  看 TensorFlow 如何从 AI 工具变身 AI 产品


在这次 KubeCon 中,才云专家与 OpenAI 及 Google GCE Manager 分别讨论了如何部署 TensorFlow on Kubernetes 及其技术点实现方式和 GPU 在 GCE 中的 upstream 现状和后续研发工作。


柏林 KubeCon 直击|  看 TensorFlow 如何从 AI 工具变身 AI 产品

左起:Vicki Cheung、赵慧智、Jonas Schneider、郑泽宇


柏林 KubeCon 直击|  看 TensorFlow 如何从 AI 工具变身 AI 产品

才云首席大数据科学家郑泽宇在柏林 KubeCon 上演讲


柏林 KubeCon 直击|  看 TensorFlow 如何从 AI 工具变身 AI 产品

才云云开源高级工程师赵慧智在柏林 KubeCon 上演讲


KubeCon 是由 Linux Foundation/Cloud Native Computing Foundation 发起的Kubernetes 最高盛会,后续才云的参会专家将会陆续为大家带来大会其他亮点,敬请期待!才云专家在 2016 西雅图 KubeCon 上也进行了报道,点击查看往期内容:

《才云四人行,带你去看西雅图 KubeCon》

柏林 KubeCon 直击|  看 TensorFlow 如何从 AI 工具变身 AI 产品

no comments
Share

发表评论