01

OpenVoice

OpenVoice 主要优势可以分为三个方面：

准确的音色克隆：OpenVoice 能够准确地克隆参考音色，并生成多种语言和口音的语音。
灵活的语音风格控制：OpenVoice 允许对语音风格进行细粒度控制，例如情感和口音，以及其他风格参数，包括节奏、停顿和语调。
零样本跨语言语音克隆：生成的语音或参考语音的语言都不需要出现在大规模多语言训练数据集中。

OpenVoice 自 2023 年 5 月以来一直在为 myshell.AI 的即时语音克隆功能提供支持。截至 2023 年 11 月，全球用户已经使用了数千万次语音克隆模型，并在平台上见证了用户数量的爆炸性增长。

开源地址：https://github.com/myshell-ai/OpenVoice

02

大模型课程

Large Language Model Course（大型语言模型课程）是一个开源项目，该课程分为三个部分：

LLM 基础：涵盖了数学、Python 和神经网络的基础知识。
LLM 科学家：专注于学习如何使用最新技术构建最佳的大型语言模型。
LLM 工程师：专注于如何创建基于大型语言模型的解决方案并部署它们。

此外，该项目还提供了一系列与大型语言模型相关的笔记本和文章。这些资源可以帮助用户更深入地理解和应用大型语言模型，无论是从理论基础、模型构建，还是实际应用和部署等方面，都提供了丰富的学习材料。

开源地址：https://github.com/mlabonne/llm-course

03

看电影的应用

movie-web 是一个看电影的网络应用开源项目，目前已经获得了 14k 的 Star，你可以访问 movie-web.app 体验。该服务通过直观且美观的用户界面中显示来自第三方提供商的视频文件来工作。

这个项目旨在保持简单易用。功能要保持最小化，但要打磨得很好。我们不希望这个项目成为另一个庞大的流媒体网站，而是追求极简主义。

项目的主要特点包括：自动保存进度 – 可选择同步到账户、书签显示或电影，跟踪你想要观看的内容、极简主义界面，只显示所需内容

开源地址：https://github.com/movie-web/movie-web

04

基于大模型的多模态代理框架

AppAgent 是一个创新的基于大型语言模型（LLM）的多模态代理框架，设计用于操作智能手机应用程序。

该框架使代理能够通过简化的动作空间操作智能手机应用程序，模仿人类的交互行为，如点击和滑动。这种新颖的方法绕过了对系统后端访问的需求，从而扩大了其在各种应用程序中的适用性。

代理通过自主探索或观察人类的演示来学习导航和使用新的应用程序。这个过程生成了一个知识库，代理在执行不同应用程序中的复杂任务时会参考这个知识库。

开源地址：https://github.com/mnotgod96/AppAgent

05

使用 ChatGPT 制作的 PDF 工具

Stirling-PDF 是一个强大的本地托管的基于网络的 PDF 操作工具，目前已经获得了 14.5k 的 Star，它使用 Docker 进行运行，可以对 PDF 文件执行各种操作，如分割、合并、转换、重组、添加图片、旋转、压缩等。

这个本地托管的网络应用程序最初是一个100%由 ChatGPT 制作的应用程序，现在已经发展成包含了广泛的功能，可以满足你所有的 PDF 需求。

开源地址：https://github.com/Stirling-Tools/Stirling-PDF

开源项目 # # AI

文章版权归作者所有，未经允许请勿转载。

节省时间的6个WordPress快捷操作技巧

AI工具 AI快讯

4周前

010

LLaMA-Omni – 中科院推出的低延迟高质量的语音交互模型

AI工具 #

6个月前

070

TouchRetouch – AI图像编辑软件，对象感知修饰能力支持无缝修饰边缘处

AI工具 #

6个月前

01150

Fancy123 – 华中科技和华南理工推出的3D网格生成技术

AI项目框架 #

5个月前

040

暂无评论

暂无评论...

推荐 5 个本周很火的 GitHub 项目

01

02

03

04

05

github开源项目，这 3 个开源项目，吊啊。

开源了，绝了。

相关文章

节省时间的6个WordPress快捷操作技巧

LLaMA-Omni – 中科院推出的低延迟高质量的语音交互模型

TouchRetouch – AI图像编辑软件，对象感知修饰能力支持无缝修饰边缘处

Fancy123 – 华中科技和华南理工推出的3D网格生成技术

暂无评论