个人碎碎念channel
欢迎加入聊天吹水群组https://t.me/adelesfriends
Post-OCR-Correction:用于文本纠错,特别是 OCR 识别后的文本纠错的英文数据集,包含 31.3k 行数据
datawhale的教学项目:大模型基础

本项目旨在作为一个大规模预训练语言模型的教程,从数据准备、模型构建、训练策略到模型评估与改进,以及模型在安全、隐私、环境和法律道德方面的方面来提供开源知识。

项目将以斯坦福大学大规模语言模型课程和李宏毅生成式AI课程为基础,结合来自开源贡献者的补充和完善,以及对前沿大模型知识的及时更新,为读者提供较为全面而深入的理论知识和实践方法。通过对模型构建、训练、评估与改进等方面的系统性讲解,以及代码的实战,我们希望建立一个具有广泛参考价值的项目。

项目受众
人工智能、自然语言处理和机器学习领域的研究者和从业者:该项目旨在为研究者和从业者提供大规模预训练语言模型的知识和技术,帮助他们更深入地了解当前领域的最新动态和研究进展。
学术界和产业界对大型语言模型感兴趣的人士:项目内容涵盖了大型语言模型的各个方面,从数据准备、模型构建到训练和评估,以及安全、隐私和环境影响等方面。这有助于拓宽受众在这一领域的知识面,并加深对大型语言模型的理解。
想要参与大规模语言模型开源项目的人士:本项目提供代码贡献和理论知识,降低受众在大规模预训练学习的门槛。
其余大型语言模型相关行业人员:项目内容还涉及大型语言模型的法律和道德考虑,如版权法、合理使用、公平性等方面的分享,这有助于相关行业从业者更好地了解大型语言模型的相关问题。

项目亮点
项目的及时性:当前大模型发展迅速,社会和学习者缺少较为全面和系统的大模型教程
项目可持续性:当前大模型发展还在初期阶段,对行业的渗透还未全面展开,因此随着大模型的发展,该项目可持续的为学习者提供帮助
算法与复杂度

"这个系列的博文会逐个介绍计算机科学里面最基础、也是最重要的一部分内容:算法(algorithm)。提到它,这可能是你最擅长的部分,亦或是你学生生涯的噩梦。不管怎么样,对于学计算机的小伙伴来讲,它始终是不可回避的一个话题。不论是学生时代的你还是已经踏上了工作的岗位,算法都会一直陪伴着你。

为什么要做这个系列呢?因为网上对于这一块的内容实在是太多,甚至是太杂,而很少有把算法的知识体系整合起来形成一个系列的教学博客。于是乎想尽自己的微薄之力,让更多的人能够更好地理解算法,不畏惧算法,在未来求职的面试中不再因为它而与自己理想的公司失之交臂。"

配合这篇(算法复杂度不再是难题:解密 Big O)从数学和算法分析历史角度了解算法复杂度的文章,可能更容易理解。
焦虑的睡不着🤯🤯
斯坦福大学CS25课程将会向所有人开放,你可以通过Zoom接入直播参与课程。

英语好的人推荐看看,课程内容和讲师都很强。

这个课程主要会每周邀请Transformer研究的前沿专家,来分享他们在最新突破上的成就。比如英伟达、OpenAI以及Mistral AI的人。

内容涵盖从大型语言模型(如GPT和Gemini)到在艺术创作(比如DALL-E和Sora)、生物学和神经科学应用、机器人学等领域的创新应用。

课程主页:https://web.stanford.edu/class/cs25/
src
#ai
一本可视化讲解 GPT 大语言模型的书籍,堪称未来之书了。有点 DNS 转录转译的感觉,技术书籍就该这么写。

https://bbycroft.net/llm
GPT-SoVITS-WebUI
TTS 语音样本转换翻译
人话:用一段话素材,训练生成同声朗读。之前发过了,现在又更新了些功能🫡
https://github.com/RVC-Boss/GPT-SoVITS/
见到Taylor本人啦!🫶🏻
Back to Top