1. OpenVoice
2. 大模型课程
3. 看电影的应用
4. 基于大模型的多模态代理框架
5. 使用 ChatGPT 制作的 PDF 工具
01
OpenVoice
OpenVoice 主要优势可以分为三个方面:
-
准确的音色克隆:OpenVoice 能够准确地克隆参考音色,并生成多种语言和口音的语音。
-
灵活的语音风格控制:OpenVoice 允许对语音风格进行细粒度控制,例如情感和口音,以及其他风格参数,包括节奏、停顿和语调。
-
零样本跨语言语音克隆:生成的语音或参考语音的语言都不需要出现在大规模多语言训练数据集中。
OpenVoice 自 2023 年 5 月以来一直在为 myshell.AI 的即时语音克隆功能提供支持。截至 2023 年 11 月,全球用户已经使用了数千万次语音克隆模型,并在平台上见证了用户数量的爆炸性增长。
开源地址:https://github.com/myshell-ai/OpenVoice
02
大模型课程
Large Language Model Course(大型语言模型课程)是一个开源项目,该课程分为三个部分:
-
LLM 基础:涵盖了数学、Python 和神经网络的基础知识。
-
LLM 科学家:专注于学习如何使用最新技术构建最佳的大型语言模型。
-
LLM 工程师:专注于如何创建基于大型语言模型的解决方案并部署它们。
此外,该项目还提供了一系列与大型语言模型相关的笔记本和文章。这些资源可以帮助用户更深入地理解和应用大型语言模型,无论是从理论基础、模型构建,还是实际应用和部署等方面,都提供了丰富的学习材料。
开源地址:https://github.com/mlabonne/llm-course
03
看电影的应用
movie-web 是一个看电影的网络应用开源项目,目前已经获得了 14k 的 Star,你可以访问 movie-web.app 体验。该服务通过直观且美观的用户界面中显示来自第三方提供商的视频文件来工作。
这个项目旨在保持简单易用。功能要保持最小化,但要打磨得很好。我们不希望这个项目成为另一个庞大的流媒体网站,而是追求极简主义。
项目的主要特点包括:自动保存进度 - 可选择同步到账户、书签显示或电影,跟踪你想要观看的内容、极简主义界面,只显示所需内容
开源地址:https://github.com/movie-web/movie-web
04
基于大模型的多模态代理框架
AppAgent 是一个创新的基于大型语言模型(LLM)的多模态代理框架,设计用于操作智能手机应用程序。
该框架使代理能够通过简化的动作空间操作智能手机应用程序,模仿人类的交互行为,如点击和滑动。这种新颖的方法绕过了对系统后端访问的需求,从而扩大了其在各种应用程序中的适用性。
代理通过自主探索或观察人类的演示来学习导航和使用新的应用程序。这个过程生成了一个知识库,代理在执行不同应用程序中的复杂任务时会参考这个知识库。
开源地址:https://github.com/mnotgod96/AppAgent
05
使用 ChatGPT 制作的 PDF 工具
Stirling-PDF 是一个强大的本地托管的基于网络的 PDF 操作工具,目前已经获得了 14.5k 的 Star,它使用 Docker 进行运行,可以对 PDF 文件执行各种操作,如分割、合并、转换、重组、添加图片、旋转、压缩等。
这个本地托管的网络应用程序最初是一个100%由 ChatGPT 制作的应用程序,现在已经发展成包含了广泛的功能,可以满足你所有的 PDF 需求。
开源地址:https://github.com/Stirling-Tools/Stirling-PDF