Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。
Whisper 是Openai 开源音频转文字的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。
Whisper有五种模型尺寸,提供速度和准确性的平衡,其中English-only模型提供了四种选择。下面是可用模型的名称、大致内存需求和相对速度。
易魔声EmotiVoice是一个强大的开源TTS引擎,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。
字节跳动开发的由LLM驱动文本生成图像多合一系统,专门设计用于为不同的输入提示生成高质量的图像。
字节跳动发布的一种视频编辑工具,Boximator能让用户通过简单的操作控制生成视频中主体的运动轨迹。
一个面部图像精准恢复和个性编辑技术工具,不仅能复原受损图像细节,同时能精准捕捉和重现个人独特的面部特征。同时它还支持换脸。
AnyDoor,由香港大学、阿里巴巴和蚂蚁集团联合研发AnyDoor,可以将一张照片上的任何物品传送到另一张图片的世界中。
一个由清华大学、阿里巴巴和华中科大共同开发的一个基于扩散模型可以让人物照片说话,支持包括歌曲、多种语言的语音、嘈杂的音频在内的各种声音匹配让人物头像说话的框架。
一款由时域科技推出的AI歌声合成软件,ACE Studio能够实时合成具有逼真度的人类般歌声,为用户带来令人惊艳的听觉体验,并支持导出多种音频文件格式。
MindNow思维导图是一款简单易用高效的思维导图软件,适用于头脑风暴、思维整理、学习笔记和会议记录等多种场景使用。
使用PixelForce,解锁商拍视野,释放产品魅力。告别模特、摄影、后期制作、现场租赁,甚至是昂贵设备的限制。
AI创作家,智能AI对话聊天神器,宛如真人的AI小助理,能聊、能写、还能绘画。
Algolia是一个由人工智能驱动的托管搜索引擎,可在网站和应用程序中实现快速和相关的搜索体验。
Speak 是一款由 OpenAI 支持的英语学习平台,用户可以通过其应用进行英语对话练习,并得到 AI 导师的反馈。
"AI头号玩家"是一个分享AIGC实用技巧和资讯,以及与人工智能相关的内容的网站。
kua.ai,跨境电商及品牌出海AI内容大师,网站中提供超过300个prompt应用商家可以根据需求挑选prompt应用、满足各种跨境场景的内容所需。
易魔声EmotiVoice是一个强大的开源TTS引擎,支持中英文双语,包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。