Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。
Whisper 是Openai 开源音频转文字的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。
Whisper有五种模型尺寸,提供速度和准确性的平衡,其中English-only模型提供了四种选择。下面是可用模型的名称、大致内存需求和相对速度。
文生3D数字人工具,借助 Make-A-Character,您可以毫不费力地从文本描述中生成可控、逼真、可动画的3D数字人角色。
易魔声EmotiVoice是一个强大的开源TTS引擎,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。
一个高度可控的虚拟模特服装试穿开源工具,OOTDiffusion可以根据不同性别和体型自动调整服装,可控试穿参数,自然融合与逼真效果。
DeepFaceLive是一款基于人工智能的面部合成技术,它可以将一个人的面部表情和动作合成到另一个人的脸上,从而实现非常逼真的面部合成效果。
一个声音克隆和文本到语音转换的开源 Python RAG框架,只需1分钟语音即可训练一个自己的TTS模型。
8spAi系统集成了全模型AI问答、创作、绘画、文生图、思维导图一站搞定!GPT4对话识图、知识库训练、文档提问总结、DALLE-3绘图、Midjourney绘画动态全功能与思维导图自动生成等功能,为用户提供了智能化的服务和体验。
求职找工作,上智联招聘
一款功能强大的照片编辑器和照片剪切应用程序,只需轻轻一按即可更改照片的背景。使用 AI 工具自动剪切图片并去除背景。
Designs.ai 是一个使用人工智能 (AI) 帮助您在几分钟内创建logo、视频、横幅、模型等设计的在线平台。
一款功能强大的在线写作工具,旨在增强您的写作体验。凭借其直观的界面和高级功能,它为创建和编辑文档提供了一个无缝平台。从语法和拼写检查到单词建议和格式帮助,WriteMe.ai 是您进行复杂和专业写作的首选合作伙伴。
Hippopx免版权图库提供了各种高清,精美的图片供您免费下载,所有图片基于CC0协议的免版权图库。
一个基于OpenAI的ChatGPT技术的浏览器扩展,Merlin AI能够在用户的浏览器上提供一键访问ChatGPT、GPT-4、Claude和Llama等高级语言模型的功能。
书译是一款基于 ChatGPT API 人工智能技术的全书翻译工具,能够快速准确地将整本 EPUB、PDF 格式的书籍翻译成你想要的语言。
显示各种文献排名,并且提供翻译、文献收藏功能,助力科研。工欲善其事,必先利其器。好的科研工具,能够让您提升数倍的学习效率。
文生3D数字人工具,借助 Make-A-Character,您可以毫不费力地从文本描述中生成可控、逼真、可动画的3D数字人角色。