DeepSeek 的新人工智慧模型似乎是迄今為止最好的「開放」挑戰者之一

該模型DeepSeek V3由人工智慧公司 DeepSeek 開發,於週三發布,並獲得許可,允許開發人員為大多數應用程式(包括商業應用程式)下載和修改該模型。

一家中國實驗室創建了迄今為止最強大的「開放」人工智慧模型之一。

該模型DeepSeek V3由人工智慧公司 DeepSeek 開發,於週三發布,並獲得許可,允許開發人員為大多數應用程式(包括商業應用程式)下載和修改該模型。

DeepSeek V3 可以處理一系列基於文字的工作負載和任務,例如根據描述性提示進行編碼、翻譯以及撰寫論文和電子郵件。

根據 DeepSeek 的內部基準測試,DeepSeek V3 的效能優於可下載的「開放」可用模型和只能透過 API 存取的「封閉」AI 模型。在程式設計競賽平台 Codeforces 舉辦的部分程式設計競賽中,DeepSeek 的表現優於其他模型,包括 Meta 的Llama 3.1 405B、OpenAI 的GPT-4o和阿里巴巴的 Qwen 2.5 72B。

DeepSeek V3 也擊敗了 Aider Polyglot 的競爭,該測試旨在衡量模型是否能夠成功編寫整合到現有程式碼中的新程式碼等。

DeepSeek 聲稱 DeepSeek V3 是在包含 14.8 兆個代幣的資料集上進行訓練的。在資料科學中,令牌用於表示原始資料位元 - 100 萬個令牌相當於大約 750,000 個單字。

不只是訓練集龐大。 DeepSeek V3 的規模非常巨大:6,710 億個參數,或是人工智慧開發平台 Hugging Face 上的 6,850 億個參數。 (參數是模型用於進行預測或決策的內部變數。)這大約是 Llama 3.1 405B 大小的 1.6 倍,後者擁有 4050 億個參數。

參數計數通常(但並非總是)與技能相關;參數較多的模型往往優於參數較少的模型。但大型模型也需要更強大的硬體才能運作。 DeepSeek V3 的未最佳化版本需要一組高階 GPU 才能以合理的速度回答問題。

https://techcrunch.com/2024/12/26/deepseeks-new-ai-model-appears-to-be-one-of-the-best-open-challengers-yet/