當我們談到影像醫療AI時,首先想到的可能是模型的準確率度、敏感度,產品應用范疇或是產品的審批審評狀況。但當醫療人工智能陸續通過器審中心審批,開始以商品形式落地于醫院時,醫生的實際使用體驗逐漸成為醫療AI廠商關注的重點。 阻礙醫院AI正常調用的環節
當我們談到影像醫療AI時,首先想到的可能是模型的準確率度、敏感度,產品應用范疇或是產品的審批審評狀況。但當醫療人工智能陸續通過器審中心審批,開始以商品形式落地于醫院時,醫生的實際使用體驗逐漸成為醫療AI廠商關注的重點。
阻礙醫院AI正常調用的環節非常多。PACS系統接口、醫院電腦等軟硬件的兼容能力、工作站與電子病歷數據傳輸限制等因素,都有可能降低AI在實際使用中的推理速度,甚至出現多AI系統不兼容的問題。
近日,NVIDIA將TensorRT、Triton兩個工具用之于醫療AI的部署環節。這位人工智能計算的引領者曾助力大量醫療AI企完成AI模型訓練與構建,現又繼續向AI落地的下游延伸,嘗試解決醫院各科室與AI企業之間的部署糾纏。
一方面,新的工具將幫助醫療AI企業把握充分利用GPU硬件資源、充分發揮GPU的算力進行AI推理;高效部署、優化計算資源實用;安全、高效調度GPU等細節,加速院端AI推理過程,提高醫療AI的實際使用體驗。
另一方面,在當前以單病種AI為主流的時代下,許多科室通常會向某AI公司采購多種AI,并在診斷時進行多個AI間切換。在這種情況下,NIVIDA能夠為AI公司提供一種通用的支持框架,幫助企業在各種環境下部署多個人工智能。
當醫療人工智能進入精細化競爭時代,NVIDIA的新工具或將幫助醫療AI企業重構競爭力。
新一代TensorRT 8入駐醫療,AI推理效率數倍提升
推理(Inference)意為把深度學習從影像AI訓練中學習到的診斷能力應用到實際中去,是醫療人工智能模擬醫生進行輔助診斷的關鍵。
對于醫學這樣一門嚴肅的學科,AI診斷的速度與精度必須滿足高要求。這意味著,醫學AI的模型及推理過程總是非常復雜,以至于我們很難窺探AI推理的過程。
為了使醫療AI的推理變為更易把控,NIVIDA將TensorRT的適用范圍拓展至醫療場景。作為一種高性能深度學習推理(Inference)的優化器和運行引擎,TensorRT以TensorFlow框架訓練得到的模型作為輸入,為CUDA GPU生成優化了的模型運行時間,減少推理的時間來降低應用程序的延遲,減少計算和內存訪問,并利用稀疏張量核心提供額外的性能提升。

此外,TensorRT可以將研發人員訓練好的模型分解再進行融合,融合后的模型具有高度的集合度。例如,將卷積層和激活層進行融合后,計算速度可獲得顯著提升。
2021年7月,最新一代TensorRT 8.0版本將上述的優勢進行了極致提升。
TensorRT 8.0使用量化感知訓練,實現與 FP32 相當的精度和 INT8 精度,相比7.0版本運行速度和精準度都提升了1倍。此外,TensorRT 8.0加速支持大量推理模型,其中基于BERT模型的推理速度提高 2 倍。
由于采用了稀疏性技術,TensorRT 8.0可顯著提升 Ampere GPU性能,將 Ampere GPU 的吞吐量提高多達 50%,加速2:4細粒度結構。數據顯示,通過消除神經網絡中不必要的計算,用戶可以獲得超過30%的性能增長。
更為高效推理能夠解決現階段部署的眾多問題。譬如,由于醫療信息化系統對于醫院計算機系統的限制,許多醫院的軟件系統版本相對滯后,難以支撐醫療人工智能對于軟硬件的要求,TensorRT 8.0的介入則能更為充分的運用有限的計算資源,有效降低AI部署成本。
此外,高效推理、低延遲能夠優化線上流程的流暢性。無紙化時代,TensorRT 8.0將極大提升醫生的AI使用體驗。
抽絲剝繭,Triton支持下,GPU實現極致利用
TensorRT 8.0的入駐優化了醫療AI的推理,但在實際之中,NVIDIA還需解決同一環境下多種類AI部署這一關鍵問題。
NVIDIA Triton推理服務器是一款開源軟件,提供單一標準化推理平臺,可支持在多框架模型、CPU 和 GPU 以及不同部署環境(例如數據中心、云、嵌入式設備和虛擬化環境)中運行推理。
對于所有推理模式,Triton都可以簡化模型在任一框架中以及任何 GPU或CPU上的運行方式,從而在生產環境中使用 AI。結合 NVIDIA AI部署框架的最新版本NVIDIA TensorRT 8,Triton可以進一步提高神經網絡的推理效率,在不損失精度的前提下減少計算和存儲成本,實現高效推理。

目前,Triton支持多模型ensemble,以及TensorFlow、PyTorch、ONNX等多種深度學習模型框架,可以很好的支持多模型聯合推理的場景,構建起視頻、圖片、語音、文本整個推理服務過程,大大降低多個模型服務的開發和維護成本。
在金融行業,螞蟻集團借助NVIDIA Triton 推理服務器,配合T4GPU、DALI的圖像預處理能力,將多模型推理性能整體提升2.4倍,延遲降低20%,既滿足了業務的低延時需求,成本也降低了50%。這意味著,在多模態業務場景中,螞蟻集團以更低的成本構建了高性能的推理服務,同時以更低的延遲降低了整條系統鏈路的響應時間,優化了用戶體驗。
同樣的成功也有可能復制于醫療之中。一方面,Triton支持下,醫學AI企業的研究人員可以自由地為他們的項目選擇合適的框架,最大化利用GPU,幫助其盡快進行推理型;另一方面,Triton的多環境支持功能及安全保障能夠保證醫療AI在任何一家醫院順利部署,幫助部署人員更為輕松地滿足不同醫院對于不同部署環境的偏好。
解鎖TensorRT和Triton在醫療影像診斷中的應用
為了進一步幫助大家理解TensorRT和Triton在醫療影像診斷中的應用,英偉達將在10月13日14:00-15:20召開網絡研討會《解鎖TensorRT和Triton在醫療影像診斷中的應用》,詳解醫療中的TensorRT和Triton。
本次網絡研討會邀請到了NVIDIA 高級架構師趙凡博士以及安德醫智算法總監劉盼博士,兩位嘉賓將在會上分享以下內容:
- TensorRT 8最新特性;
- Triton的應用特性及如何高效使用;
- 醫療影像 AI 在部署中的常見問題以及使用技巧;
- 介紹Triton多后端的優勢及基于Pytorch/tensorflow后端的推理流程;
- 講解3D大尺度模型如何從 GraphDef 轉換到 TtensorRT plan的實戰案例;
- 講解實際真實應用環境下的模型部署和調度。
若您有興趣參與本次討論會,可移步:https://vcbeat.top/52692
本文來源:動脈網 作者:小編 免責聲明:該文章版權歸原作者所有,僅代表作者觀點,轉載目的在于傳遞更多信息,并不代表“醫藥行”認同其觀點和對其真實性負責。如涉及作品內容、版權和其他問題,請在30日內與我們聯系