naive thoughts - https://blog.hjc.im/apple-uma-for-llms-problems.htmlM4 Pro LLM decode吞吐来看可以与独显方案一战，文本生成的性能优越，但是，没有Matrix/Tensor单元，GPU Matrix吞吐较弱，导致Prompt processing、高并发性能、推测解码性能差此外，容量与带宽不匹配、扩展性缺失

05:12 · Nov 14, 2024 · Thu

https://blog.hjc.im/apple-uma-for-llms-problems.html

M4 Pro LLM decode吞吐来看可以与独显方案一战，文本生成的性能优越，但是，

没有Matrix/Tensor单元，GPU Matrix吞吐较弱，导致Prompt processing、高并发性能、推测解码性能差

此外，容量与带宽不匹配、扩展性缺失

Powered by BroadcastChannel & Sepia