日期 | 鏡像版本 | 內置庫版本 | 更新內容 |
2024.6.21 | eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4 Tag:chat-llm-webui:3.0 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm Tag:chat-llm-webui:3.0-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-vllm-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.4-blade Tag: chat-llm-webui:3.0-blade
| Torch:2.3.0 Torchvision:0.18.0 Transformers:4.41.2 vLLM:0.5.0.post1 vllm-flash-attn:2.5.9 Blade:0.7.0
| 支持Rerank模型部署。 支持Embedding、Rerank、LLM多模型同時或單獨部署。 Transformers后端支持Deepseek-V2、Yi1.5和Qwen2。 更改Qwen1.5的model type為qwen1.5。 vLLM后端支持Qwen2。 BladeLLM后端支持Llama3和Qwen2。 HuggingFace后端支持batch輸入。 BladeLLM后端支持OpenAI Chat。 BladeLLM Metrics訪問修正。 Transformers后端支持FP8模型部署。 Transformers后端支持多量化工具:AWQ、HQQ和Quanto等。 vLLM后端支持FP8。 vLLM&Blade推理參數支持設置stop words。 Transformers后端適配H20顯卡。
|
2024.4.30 | eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-vllm-flash-attn eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.3-blade
| Torch:2.3.0 Torchvision:0.18.0 Transformers:4.40.2 vllm:0.4.2 Blade:0.5.1
| 支持Embedding模型部署。 vLLM后端支持Token Usage返回。 支持Sentence-Transformers模型部署。 Transformers后端支持yi-9B、qwen2-moe、llama3、qwencode、qwen1.5-32G/110B、phi-3以及gemma-1.1-2/7B。 vLLM后端支持yi-9B、qwen2-moe、SeaLLM、llama3以及phi-3。 Blade后端支持qwen1.5和SeaLLM。 支持LLM與Embedding多模型部署。 Transformers后端發布flash-attn鏡像。 vLLM后端發布flash-attn鏡像。
|
2024.3.28 | eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2 eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-vllm eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:3.0.2-blade
| Torch:2.1.2 Torchvision:0.16.2 Transformers:4.38.2 Vllm:0.3.3 Blade:0.4.8
| 添加blad推理后端:支持單機多卡和量化配置。 Transformers后端基于tokenizer chat template模板做推理。 HF后端已支持Multi-LoRA推理。 Blade支持量化模型部署。 Blade自動拆分模型。 Transformers后端支持Deepseek和Gemma。 vLLM后端支持Deepseek和Gemma。 Blade后端支持qwen1.5和yi模型。 vLLM和Blade鏡像開放/metrics訪問。 Transformers后端流式返回支持Token統計。
|
2024.2.22 | | Torch:2.1.2 Torchvision:0.16.0 Transformers:4.37.2 vLLM:0.3.0
| vLLM擴展參數配置:支持推理時更改vLLM所有推理參數。 vLLM支持Multi-LoRA。 vLLM支持量化模型部署。 vLLM鏡像不依賴LangChain演示。 Transformers推理后端支持qwen1.5和qwen2模型。 vLLM推理后端支持qwen-1.5和qwen-2模型。
|
2024.1.23 | | Torch:2.1.2 Torchvision:0.16.2 Transformers:4.37.2 vLLM:0.2.6
| 拆分后端鏡像,后端獨立編譯&發布:新添加BladeLLM后端。 支持標準的OpenAI API。 Baichuan等模型支持性能統計指標。 支持yi-6b-chat、yi-34b-chat以及secgpt等模型。 openai/v1/chat/completions適配chatglm3 history-format。 異步流式優化。 vLLM支持模型與HuggingFace拉齊。 后端調用接口優化。 完善報錯日志。
|
2023.12.6 | eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.1 Tag: chat-llm-webui:2.1 | Torch:2.0.1 Torchvision:0.15.2 Transformers:4.33.3 vLLM:0.2.0
| Huggingface后端支持mistral、zephyr、yi-6b、yi-34b、qwen-72b、qwen-1.8b、qwen7b-int4、qwen14b-int4、qwen7b-int8、qwen14b-int8、qwen-72b-int4、qwen-72b-int8、qwen-1.8b-int4和qwen-1.8b-int8模型。 vLLM后端支持Qwen和ChatGLM1/2/3模型。 Huggingface推理后端支持flash attention。 ChatGLM系列模型支持性能統計指標。 添加命令行參數--history-format支持設置角色。 LangChain支持演示Qwen模型。 優化fastapi流式訪問接口。
|
2023.9.13 | eas-registry.cn-hangzhou.cr.aliyuncs.com/pai-eas/chat-llm-webui:2.0 Tag: chat-llm-webui:2.0 | Torch:2.0.1+cu117 Torchvision:0.15.2+cu117 Transformers:4.33.3 vLLM:0.2.0
| 支持多后端:vLLM和Huggingface; 支持LangChain演示ChatLLM與Llama2模型 支持Baichuan、Baichuan2、Qwen、Falcon、Llama2、ChatGLM、ChatGLM2、ChatGLM3以及yi等模型。 添加http和webscoket支持對話流式。 非流式返回結果包含生成Token數。 所有模型支持多輪對話。 支持對話記錄導出。 支持System Prompt設置及無模板輸入Prompt拼接。 推理參數可配置 支持日志Debug模式:支持推理時間輸出 vLLM后端單機多卡默認支持TP并行方案。 支持Float32、Float16、Int8以及Int4等精度的模型部署。
|