2023年人工智能行业总结（精简版）

所有文章1年前 (2024)发布 aiziy

0 0

在2023年，AI领域经历了诸多变革，仿佛释放了过去十几年的积累。我们将通过三条主线盘点今年AI的重要里程碑，并探索明年可能的发展方向。

首先，语言模型线取得了显著突破。ChatGPT的出现创下了用户最快增长纪录，这主要得益于人工调教和大模型的涌现现象。随后，各大公司相继发布了大模型，如Llama、ChatGLM、文心一言、通义千问、讯飞星火等。GPT4V多模态模型和Gemini的发布让大模型能够看图看视频作答。此外，围绕大模型的应用生态系统也迅速发展，催生了语言模型框架和智能体Agent的概念。然而，随着OpenAI内建向量数据库并发布Assistants API，插件服务商受到冲击。在这一过程中，山姆奥特曼的命运也发生了转折。这些里程碑事件不仅展示了AI领域的快速发展，也暗示着我们每个个体在AI大潮中的沉浮。

今年AI发展的第二条主线是AI画图，其中Midjourney、StableDiffusion和DallE是三大主流工具。Midjourney简单易用、高画质，通过简单的文字描述就可以生成高质量的图片，而StableDiffusion则以其免费、开源、可定制性的多样玩法受到欢迎。Dalle，其定位简单易用，并且有成熟的API和ChatGPT语言模型的支持。AI绘画三国的未来发展令人期待，但目前生成的形象在前后画面中的不一致问题亟待解决。

2023年AI发展的第三条主线是视频线，这条线创新不断。

年初的vits项目能完美模拟人的声音特点，AI孙燕姿能唱周杰伦的歌。sad talker技术能让图片开口说话，小和尚说话就是用了这项技术。Wav2Lip技术能修改视频的唇形，让口型与语音更协调。Heygen综合了这几大能力，能让人物用任何声音和语言说出任何话，整个过程非常流畅。此外，还有Meta的Whisper项目，能够转化声音为文本、Roop和FaceFusion的换脸软件、AnimateDiff的动画生成技术等。年底发布的SVD模型只需几句描述文字就能生成高质量动画，给创意设计带来更多可能性。