V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  neteroster  ›  全部回复第 5 页 / 共 41 页
回复总数  801
1  2  3  4  5  6  7  8  9  10 ... 41  
4o mini 也可以传 json schema
276 天前
回复了 Devine 创建的主题 问与答 Qwen github 访问不了
被 GitHub 封组织了:

https://x.com/JustinLin610/status/1831489956512198862

我之前也见到一个仓库( LunaTranslator )在没有任何说明的情况下直接被 GitHub 干掉,后来申回来了,只能说 GitHub 有时候是会抽风(
300 天前
回复了 ChipWat 创建的主题 Local LLM mac mini 24g 大模型推理怎么样
@unidotnet #1
14B 4 位怎么可能 40G ,bf16 不加上下文都没这么大
@neteroster 网页版免费,也可以直接用
楼上 DeepSeek 充 100 ,+1 。没人恶意乱刷肯定够用,编程相关就用这个,劲大!
319 天前
回复了 CNYoki 创建的主题 Local LLM ollama 本地模型 GPU 跑不满
用 vLlm 。
mini 阉割太狠,一个字就是蠢,能力上与其说是 4o 的阉割版不如说是 3t ( 1106 ) 的加强版,加的还不多。甚至在某些 benchmark (例如 https://aider.chat/docs/leaderboards/ )上相比 3.5 还出现倒退。我自己比较关注翻译,mini 更是一塌糊涂。
那我为什么不选择 1/2 RMB 每百万 Token 的 DeepSeek 呢(
327 天前
回复了 Nostalghia 创建的主题 OpenAI 有人试过用大模型翻译长篇英文书吗?
都是分段的,没人一次性翻全部
363 天前
回复了 smalltong02 创建的主题 程序员 对 Qwen 2 模型代理能力的完整测试
很好的测试。Qwen2 确实是非常优秀的一组模型,特别是多语言能力方面的改进可圈可点。阿里选择将模型(除 72B )以 Apache2.0 开源也是非常慷慨。期待未来更强的模型。
2024-06-03 12:25:57 +08:00
回复了 TyCoding 创建的主题 机器学习 同问,如何限制 LLM 响应结构
@neteroster 对了,在线 API 还有一点忘记提了,就是做 few-shot 。如果你的任务文本不太长,可以先用前面的对话给 LLM 一些例子
2024-06-03 12:14:56 +08:00
回复了 TyCoding 创建的主题 机器学习 同问,如何限制 LLM 响应结构
其实如果用开源模型的话有很多方法可以做到。

例如说 llama.cpp 就可以用 grammar ,这是直接从采样器上面做限制的,效果会很好。除此之位还有一众更强大的推理约束工具,例如 guidance ( https://github.com/guidance-ai/guidance ), outline ( https://github.com/outlines-dev/outlines ), sglang ( https://github.com/sgl-project/sglang ),它们不止可以限制 json 输出,甚至可以限制输出满足特定的正则表达式 / 形式文法。

对于在线模型,如果不是复杂的结构,有一些办法,比如 Anthropic 的 API 支持先填充 LLM 响应的前面一部分,对于你这个例子来说,你可以指定前面部分就是 "[",这样模型就会立即开始输出,然后 stop 序列设置成 "]",就会在输出到 "]" 立即截断并返回。
2024-05-29 19:57:43 +08:00
回复了 hxm0070 创建的主题 问与答 国内这些开源大模型,哪个效果更好一些?
@googlefans 那都不是一个系列的,Qwen 开源模型系列目前最新版本是 Qwen1.5 ( https://huggingface.co/Qwen ),下一个版本是 2 。

所谓通义千问 2.5 指的实际上是 Dashscope 上型号为 "qwen-max" 的闭源模型,后者目前指向 "qwen-max-0428"( Chatbot Arena 榜上有名),而 Qwen2 开源系列将很可能超过该模型( ref: 官方 discord )
2024-05-29 19:03:06 +08:00
回复了 hxm0070 创建的主题 问与答 国内这些开源大模型,哪个效果更好一些?
等 Qwen2 ,这两周会出,不出意外的话应该会很强(推上几位相关负责人都很自信)
2024-05-19 18:45:42 +08:00
回复了 Tuatara 创建的主题 Local LLM 现在买 3090TI 玩 AI 靠谱吗
@wsbqdyhm 这个 https://github.com/RVC-Boss/GPT-SoVITS

如果不会用的话 B 站搜搜教程,现在应该听多了。
2024-05-19 08:04:08 +08:00
回复了 Tuatara 创建的主题 Local LLM 现在买 3090TI 玩 AI 靠谱吗
@muxiaofei

中文微调推荐 Qwen 系列,llama3 预训练估计没多少中文语料。

微调分不同类型,全量,LoRA ,QLoRA 等,最近也有一些新兴技术。例如,llama3 8b 用 LoRA 基本 24G 能满足,但是全量微调这个大小则是天方夜谭。部分任务下 LoRA 等技术和全量微调效果接近甚至更好,但是也有很多任务是不及全量微调的,需要实际测试。

租算力完全可行。

另外,知识库不推荐微调,先试试 RAG 。
2024-05-18 13:36:06 +08:00
回复了 Tuatara 创建的主题 Local LLM 现在买 3090TI 玩 AI 靠谱吗
@neteroster 再补充几句,70B 还没到 Mac 的适应区间,2 * 3090 就能拉爆 M3 Max 了,还是在便宜的多的情况下。拉高 batch size 差距应该会更加显著。

再大的模型?那就要想清楚你是不是真的需要那么大的模型了,现在大部分模型都集中在 <100B 区间,就算 >100B 的模型 Mac 也跑不快的。唯一有优势的可能是 MoE ,不过现阶段并不多,可能战未来吧。
2024-05-18 12:51:38 +08:00
回复了 Tuatara 创建的主题 Local LLM 现在买 3090TI 玩 AI 靠谱吗
真要考虑 Apple Silicon 跑 LLM 的话先看看这个:

https://github.com/ggerganov/llama.cpp/discussions/4167

不是所有 M 芯片都是那么快的。等级森严在苹果这里也是不会变的。

除非你非跑超大模型不可,否则就性能而言 M 芯片的性价比是不如 NVIDIA 的。总之就是先想清楚需求。

然后就是如果涉猎比较广泛,不止玩 LLM ,当然还是 NVIDIA ,毕竟生态再这里。
2024-05-01 21:32:13 +08:00
回复了 LeeReamond 创建的主题 程序员 现在装机有没有什么合适的显卡可以买?
4060Ti 16G ,但是最近涨的貌似有点多,胜在显存大些,要跑比较大的模型的话可能有用,单看性能其实性价比不高。

如果模型不需要那么大显存就 4070(s) 吧,跑模型速度会快点,游戏也能开高点画质。能接受二手的话,也可以考虑,毕竟 40 系没有经过矿潮洗礼,挑个一线带个人送保的牌子就行。

如果愿意折腾的话也可以看看 P100 / P40
2024-04-26 07:53:42 +08:00
回复了 ebushicao 创建的主题 Windows 2024 的如今 AMD CPU 在 windows11 系统的兼容性咋样了?
5800U 从 Win11 发布用到现在,没遇到过这些问题。
2024-04-23 11:44:43 +08:00
回复了 lstz 创建的主题 OpenAI 用贵的国产大模型 API 是否效果堪比 GPT4?
客观来看,国内目前还没有大模型能和 GPT4 Turbo 能力上对位。

不过 OpenAI 现在也就 4Turbo 能拿得出手了,3.5-turbo-0125 烂成什么样子就不多说了,属于是 Chatbot Arena 上要翻好几下才能看到的水平。价格也并不能算得上低。
1  2  3  4  5  6  7  8  9  10 ... 41  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2680 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms · UTC 02:54 · PVG 10:54 · LAX 19:54 · JFK 22:54
Developed with CodeLauncher
♥ Do have faith in what you're doing.