Qcon北京2018 《容器云在头条的落地和实践》 郑建磊

2020-03-01 59浏览

  • 1.容器云在头条的落地和实践 演讲者/郑建磊
  • 2.
  • 3.
  • 4.TCE (Toutiao Compute Engine)
  • 5.PAAS 05~11 Part 2 IAAS 12~16 Part 3 网络 17~19 Part 4 物理机管理 20~21 Part 5 收益 22~23 目 CONTENTS Part 1 录
  • 6.SCM 平台 Build K8S Manager PAAS K8s集群 网络 IAAS Docker 物理机管理
  • 7.CHAPTER 01 PAAS
  • 8.SCM TOS/CEPH 平台 BUILD K8S Manager HUB 多个K8S集群
  • 9.SCM
  • 10.服务管理
  • 11.服务管理
  • 12.服务上线
  • 13.上线单状态任意控制 上线效率 ! 问题 更细粒度资源管理 服务稳定性
  • 14.CHAPTER 02 IAAS
  • 15.K8S层 上线单状态任意控制 RC -> Deployment 上线效率 滚动升级 -> 原地升级 cpu超售 抢占式调度 镜像P2P分发 & 预拉取 更细粒度资源管理 端口 cpuset & numa
  • 16.Docker层 commands such as 'docker run' and 'docker ps' appear to hang indefinitely due to huge request backlog (congestion) in containerd 上线效率 dockerd leaks ExecIds on failed exec -i Runc init block containerd-shim residue 服务稳定性 cgroup, net_cls:iterate the fds of only the tasks which are being migrated
  • 17.系统层 OOM + 驱逐 内存 磁盘 清理 + 驱逐 服务 稳定性 cgroup + 驱逐 CPU IO 硬件隔离
  • 18.系统层USE:For every resource, check utilization, saturation, and errors.
  • 19.CHAPTER 03 网络
  • 20.网络模式 Bridge Host user space kernel space hbind.ko hook sys_call_table bind to hookbind AutoHost syscall bind() write application /dev/hbind
  • 21.服务发现 端口冲突 Readinessprobe Consul -> 服务状态 NameKeeper
  • 22.CHAPTER 04 物理机 管理
  • 23.物理机管理 Agent -> DaemonSet Mesos (TCE Allocator)
  • 24.CHAPTER 05 收益
  • 25.1 2 3 资源利用率 运维效率 流量调度与业务解耦
  • 26.
  • 27.
  • 28.
  • 29.