Skip to content

Day4-人工智能开发

人工智能在音频、视觉、多模态领域的应用

学习价值

学习体系

  1. 掌握音频转文字
  2. 掌握文字转语音
  3. 掌握图像识别
  4. 掌握文生图

知识模块

  • L1.人工智能在音频、视觉、多模态领域的应用

实战需求

音频转文字

假设你现在已经面试结束,需要针对于你自己的面试内容进行复盘。为了提高复盘效率,你把语音直接转换成了文字。

提前准备一段不超过 1 分钟的音频,可以是任何内容(不能涉黄、牵涉暴力与政治内容),使用人工智能模型,将其转换为文本。

注意: 初始化 client 请使用以下代码

client = OpenAI(base_url="https://apitoken.ceba.ceshiren.com/openai/v1/"
                , api_key="你的token",)

文字转语音

假设你现在需要拍摄 vlog,vlog 的画面和声音是分开的。你已经准备好了 vlog 的配音文字,需要将它转换成成语音。

提前准备一段不超过 100 字的文本,可以是任何内容(不能涉黄、牵涉暴力与政治内容),使用人工智能模型,将其转换为语音。

注意: 初始化 client 请使用以下代码

client = OpenAI(base_url="https://apitoken.ceba.ceshiren.com/openai/v1/"
                , api_key="你的token",)

情感分析(图像识别中的内容)

请输入一段你准备好的文字(英文),判断情感是积极的还是消极的。

相关知识点

教程地址 教程视频地址 时间位置
音频转文字 音频转文字 全部
文字转语音 文字转语音 全部
图像识别 图像识别 全部
文生图(仅了解) 文生图(仅了解) 全部

实战代码

音频转文字

参考相关知识点教程:音频转文字

文字转语音

参考相关知识点教程:文字转语音

情感分析

参考相关知识点教程:图像识别

  • 场景 1,女朋友给男朋友发消息:我很好。
  • 场景 2,男朋友给女朋友发消息:你要这么想我也没办法。
  • 其他场景可以自行尝试。

总结

  1. 人工智能多模态的应用场景。
  2. 如何使用人工智能将音频转文字。
  3. 如何使用人工智能将文字转语音。
  4. 如何使用人工智能进行情感分析。