KServe和Triton的介紹 — realtime inference

語言: CN / TW / HK

本週我們繼續ML Platform的第七講,也是最後一講,很高興邀請到Way給我們帶來的《KServe和Triton的介紹 》,相關內容總結如下:

Slides

  1. Way使用的 slides
  2. ML Platform系列講座總結:

Q&A

感謝Nancy幫忙做的總結:

  • Model Mesh serving of KServe
    • “ModelMesh addresses the challenge of deploying hundreds or thousands of machine learning models throsugh an intelligent trade-off between latency and total cost of compute resources. “
    • Model Mesh是KServe 0.7版本提出的Multi-model serving方案,適用於大規模,高密度的model scenarios. ModelMesh致力於解決的問題主要有三類:1)sidecar等額外resource的開銷;2)k8s有max pod的限制,好像一個cluster是1000pod;3)k8s 的max ip限制。
    • Model Mesh有三種不同的serving runtime選擇,triton是其中一種。這三種serving runtime給用户體驗上沒什麼區別,都是multi model使用同一個endpoint,但有一些細小的區別,例如有的runtime不支持不同model同時運行,但是有的可以同時跑,例如triton。
    • 用户在使用Model mesh時可以設定memory的threshold,然後在model loading中達到threshold後可以evict最不常用的model。此外,model serve可以對非常常用的model自動增加copy,並不需要用户額外設定。
    • 以下是額外的學習鏈接:
  • Inference graph of KServe Inference graph是Kserve最新版本0.9出來的feature。在此之前,Kserve最多支持一個single model加pre和post processing,但是model只能是一個。 2022年Q1提出這個方案,如今的0.9release版本就實現了,但是目前好像沒有production在用這個feature。 Inference graph不僅可以ensemble inference,還可以在不同model間split traffic(按照某個比例),或者按照condition分發traffic到不同的model。

再次感謝大家的參與,也希望大家有好的資源能聯繫我更新這篇文章,或者在下面留言。謝謝大家。

下週話題安排和往期話題回顧敬請參見《 系統設計開荒小分隊話題討論簡介

歡迎大家訂閲公眾號或者註冊郵箱(具體方法見左右側邊欄),可以第一時間收到更新。

Post Views: 43