《經濟通通訊社27日專訊》阿里巴巴(09988)旗下阿里雲發布通義家族首個端到端
全模態大模型Qwen2﹒5-Omni-7B。該模型專為全模態感知設計,可處理文本、圖
像、音頻、視頻等多模態輸入,並實時生成文本與自然語言應答,為在手機、筆記本電腦等終端
設備部署多模態AI設立新標準。
阿里雲指,儘管僅採用了輕量級的7B參數,Qwen2﹒5-Omni-7B仍展現出卓
越的性能與強大的多模態能力,成為開發高效能、高性價比、且具使用價值的AI智能體的理想
基座模型,在智能語音應用領域尤其具有前景。例如,透過即時語音導航協助視障者安全辨識周
邊環境,分析視頻中的食材按步驟提供烹飪指導,及打造真正理解客戶需求的智能客服對話體驗
。
該模型現已在Hugging Face與GitHub上開源,並可透過Qwen
Chat及阿里雲開源社區ModelScope獲取。目前,阿里雲已開源超過200個生成
式AI模型。在各模態任務中,Qwen2﹒5-Omni-7B均展現出可媲美同參數規模的
單模態專用模型的性能。該模型在實時語音交互、自然語言生成及端到端語言指令跟蹤方面表現
出色。(bi)
《說說心理話》遺體修復師分享入行過程!初入行有冇心理壓力?「無言老師」計劃推行初衷?► 即睇