AI 弑父
大型语言模型(LLM)所谓的涌现能力,一般说成是随着模型规模的增长,突然出现新的技能,而非平滑提升。我对此有个疑惑。gpt1 gpt2 规模也涨了,能力在哪里呢? 秘笈 翻很多材料,提到涌现能力示例: 包括 在上下文中学习 (few-shot) 多步逻辑推理(数学/逻辑题) 推断他人意图(心智理论) 使用工具或编程(生成或使用代码) 我又回忆起 ChatGPT 发布那段时间,聊天窗里那个 Linux终端+Python命令行模拟,当时很惊人。这个连续上下文和逻辑推理一致性不可思议的强。 我让 gemini 和 chatgpt 做了一个deep research,我越来越确认,AI能力爆发,也就是所谓的「涌现」有个关键因素:OpenAI和微软合作 我还记得当时有个新闻说微软要造个 DGX V100 集群..
更多Configurable Intelligence
无聊看了下 Language Model Contains Personality Subnetworks ,刚好A社也最近也写了篇The persona selection model,感觉现在讨论LLM的「人格」比较火 先说下这篇论文,它提出,可以做类似「脑前额叶切除」让AI屏蔽一部分人格,不需要 fine-tune,而且就算prompt指定其它人格也无济于事。 不过它搞出来的分类比较喜剧,用的是 MBTI 。测试集是一堆 YES/NO 二元分类 光说「人格」这种问题比较抽象,有哪些应用呢?很遗憾,我对此脑袋哐当一声没太多想法,还是AI提醒了我: 因为是物理mask,所以 jailbreak 变得不太可能了 可以定向优化某些选项。它甚至在 contra.py 里可以设置 mask_gamma 这个..
更多