Llama with Glases

About 48,300,000 results

Open links in new tab

Any time

zhihu.com
https://www.zhihu.com › question
Ollama和llama.cpp什么关系，或者说有关系吗？ - 知乎
Ollama和llama.cpp什么关系，或者说有关系吗？看上去像是Ollama是对llama.cpp的封装和添加了很多内容，Ollama底层是llama.cpp吗？显示全部关注者 72 被浏览
zhihu.com
https://www.zhihu.com › question
如何评价 Meta 刚刚发布的 LLama 4 系列大模型？ - 知乎
Apr 5, 2025 · llama真是吊死在DPO上了..... 新架构infra，长上下文，Reasoning RL，工程性coding可能还是大家今年的主攻方向。移步转眼，时间快来到了2025年中 …
zhihu.com
https://www.zhihu.com › question
如何看Meta最新开源的Llama3.3-70B-Instruct，它和之前的Llama …
Llama 3.3-70B-Instruct在多语言支持方面表现出色，尽管目前不支持中文，但它支持多达8种语言的文本输入和输出，这为全球开发者提供了广泛的应用可能性。随着社区的不断壮大和技术 …
zhihu.com
https://www.zhihu.com › tardis › zm › art
LLaMa-1 技术详解 - 知乎
Jan 21, 2025 · LLaMA 是一系列从 7 B到 65B 参数的基础语言模型。Meta 训练这些模型使用了数万亿个 token，并且证明了完全可以只使用公开可得的数据集来训练最先进的模型，而无需使 …
zhihu.com
https://www.zhihu.com › question
为什么都在用ollama而lm studio却更少人使用? - 知乎
3. 还有一点，ollama是llama.cpp实现模型推理，模型小，速度快。 4. 还有，ollama提供11434端口的web服务，重要的是还兼容openai的端点接口，可以和各种前端配合，比如ollama自己open …
zhihu.com
https://www.zhihu.com › question
Deepseek为什么蒸馏llama和Qwen模型,而不用671B满血模型去蒸 …
而DeepSeek就是用自己的这个DeepSeek-R1的671B的大模型当作教师模型来训更小的llama和Qwen等“学生”模型。对“蒸馏”想深入了解的话，可以看这篇综述：
zhihu.com
https://www.zhihu.com › question
llama.cpp里面的Q8_0,Q6_K_M,Q4_K_M量化原理是什么？ - 知乎
llama.cpp 的量化命名是由 ikawrakow 提出的，他为大部分量化实现了代码（我认为实际上是全部）。这些名称简洁明了，含义丰富，并且可能会随着新方案的开发和实现而改变。我们将内 …
zhihu.com
https://www.zhihu.com › question
为什么同为开源追平 OpenAI，Qwen 没有像 DeepSeek 一样出圈？ …
Jan 28, 2025 · Qwen靠美金就可以，并不是靠技术创新（看模型结构基本没咋变，和llama比难有优势），而且结果只是打榜，经不住真实用户拷打，R1是能经受美国佬的考验，且把NV股价 …
zhihu.com
https://www.zhihu.com › question
Meta 发布更高效的新款大模型 Llama 3.3，该模型都有哪些值得关 …
Dec 9, 2024 · Llama 3.3 指令调优的纯文本模型针对多语言对话用例进行了优化，并在常见的行业基准测试中优于许多可用的开源和闭源聊天模型。 Llama 3.3 是一个使用优化后 …
zhihu.com
https://www.zhihu.com › question
如何看待 Meta 发布 Llama3，并将推出 400B+ 版本？ - 知乎
-LLAMA-3分为大中小三个版本，小模型参数规模8B，效果比Mistral 7B/Gemma 7B略好基本持平；中等模型参数规模70B，目前效果介于ChatGPT 3.5到GPT 4之间；大模型400B，仍在训练 …

Pagination
- 1
- 2
- 3
- 4
- Next