Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。
Whisper 是Openai 开源音频转文字的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。
Whisper有五种模型尺寸,提供速度和准确性的平衡,其中English-only模型提供了四种选择。下面是可用模型的名称、大致内存需求和相对速度。
CustomNet旨在更好地将指定物品的图片融合到新生成的图片中,并确保原物品的样式和纹理细节得以还原。这项技术给SD商品图融合带来了一线生机。
一个声音克隆和文本到语音转换的开源 Python RAG框架,只需1分钟语音即可训练一个自己的TTS模型。
ComfyUI Portrait Master 肖像大师简体中文版。超详细参数设置!再也不用为不会写人像提示词发愁!重新优化为ison列表更方便自定义和扩展。
VideoSrt是一个可以识别视频语音自动生成字幕SRT文件的开源软件工具。适用于快速、批量的为媒体(视频/音频)生成中/英文字幕、文本文件的业务场景。
DreaMoving,一种基于扩散的可控视频生成框架,用于生成高质量的定制人类舞蹈视频。
MagicEdit 是字节跳动的一款视频编辑工具,它可以高保真度和时间连贯性地编辑视频,通过学习明确区分外观和动作。
ClipDrop,P图、抠图、移除背景、放大图片、文本删除、绘制图片,一个工具全搞定。无需安装,在线免费使用。
ZelinAI是—零代码创建AI应用的平台,国内领先的大模型集成平台,目前支持ChatGPT、GPT4.0、文心一言、MJ绘画。
一款允许用户克隆自己的声音并使用实时语音转语音和文字转语音功能创建合成音频的工具。
AI商品图背景编辑器,轻松的更换商品背景,让您的产品自由而行。
猫耳FM(M站)是一家广播剧弹幕音图站,同时也是中国声优基地。
优酷热搜榜是优酷视频平台推出的一个热门搜索排行榜。它汇集了用户在优酷平台上最热门、最受关注的搜索内容。
泡咖AI绘画基于最新一代ChatGPT-4大语言模型和最强Ai绘画Midjourney引擎深度开发而成,泡咖AI根据中国人使用习惯,进行了深度优化,可以更好的支持中文和国内网络环境。
AnyPaint是AnyPaint推出的AI内容生成产品,其通过AI计算,为用户提供含文本、图片、音频、视频、3D模型等多模态内容生成及模型训练等功能。
CustomNet旨在更好地将指定物品的图片融合到新生成的图片中,并确保原物品的样式和纹理细节得以还原。这项技术给SD商品图融合带来了一线生机。