https://blog.hjc.im/apple-uma-for-llms-problems.html

M4 Pro LLM decode吞吐来看可以与独显方案一战,文本生成的性能优越,但是,

没有Matrix/Tensor单元,GPU Matrix吞吐较弱,导致Prompt processing、高并发性能、推测解码性能差

此外,容量与带宽不匹配、扩展性缺失
 
 
Back to Top