核心技术

我们的产品的核心技术包括:

1. 基于ResNet18的场景分类模型 2. 基于ORB算法的特征点检测 3. 基于mediapipe的人脸检测 4. 基于faster-whisper的语音识别 5. 基于pyttsx3的语音合成 6. spark-image、spark-chat多种大模型调用

 

以下是详细技术文档

一、place365classification_pytorch

- swanhub:https://swanhub.co/WangSi/place365classification_pytorch

1. 项目简介

本项目使用ResNet-18神经网络模型在Place365数据集上进行训练,实现了场景分类的功能。同时,我使用Gradio库将模型封装成一个可视化的应用。

2. 数据集

我使用的数据集是Place365,这是一个大规模的场景分类数据集,包含了365种不同的场景类别,可以用于训练和评估场景分类模型。

3. 模型

我选择了ResNet-18作为我们的神经网络模型。ResNet-18是一种深度残差网络,它通过引入残差连接来解决深度神经网络中的梯度消失和表示瓶颈问题。ResNet-18包含18层(不包括输入层和输出层),其中有5个卷积块,每个块包含一个或两个卷积层。训练过程数据如下:

4. 可视化

我使用Gradio库将模型封装成一个可视化的应用。Gradio是一个用于创建可交互的机器学习模型演示的库,它可以快速地生成一个用户界面,让用户可以直观地看到模型的输入和输出。

5. 运行

要运行这个应用,你需要安装以下的Python库:

然后,你可以运行app.py来启动应用。

应用启动后,你可以在浏览器中打开显示的URL,然后上传一张图片,应用会显示出模型对这张图片的预测结果。

以上就是我的场景分类神经网络项目的技术文档,希望对你有所帮助。如果你有任何问题,欢迎随时向我提问。

二、ORB特征提取与大模型

- swanhub:https://swanhub.co/Dawn/visionvoice

- github:https://github.com/PineappleSnowy/visionvoice

1. ORB算法综述

ORB(Oriented FAST and Rotated BRIEF)特征检测算法是一种基于FAST(Features from Accelerated Segment Test)关键点检测和BRIEF(Binary Robust Independent Elementary Features)特征描述子的算法。该算法结合了FAST关键点检测的高速和BRIEF特征描述子的稳定性,具有较高的性能和鲁棒性。
ORB算法的原理主要包括以下几个步骤:

1. FAST关键点检测:首先使用FAST算法检测图像中的关键点。FAST算法通过比较像素点与其邻域像素点的灰度差异来判断是否为关键点,并且通过选取适当阈值进行快速的检测。

2. 方向分配:对检测到的关键点进行方向赋值,使其具有旋转不变性。可以利用图像的梯度信息或者其他方式来确定关键点的主方向,从而实现对关键点的旋转不变性。

3. BRIEF特征描述子:使用BRIEF算法对每个关键点周围的像素点进行描述,生成二进制特征描述子。BRIEF算法通过比较像素点对之间的灰度值来生成二进制描述子,它不仅计算速度快,而且具有一定的鲁棒性。

4. 特征匹配:通过比较关键点的BRIEF描述子来进行特征匹配,从而找到图像中的相似区域。可以使用一些匹配算法(如汉明距离、最近邻匹配等)来进行特征匹配。

5. 鲁棒性增强:为了提高ORB算法的鲁棒性,可以对关键点进行一些鲁棒性增强的操作,如采用多尺度检测、动态阈值设置等,从而提高匹配的准确性和稳定性。

总的来说,ORB特征检测算法结合了FAST的高速和BRIEF的稳定性,具有较好的性能和鲁棒性,适用于图像特征检测和匹配等应用场景。

在视界之声中,ORB主要运用如下:

2. 多模态大模型及大语言模型调用

1. request参数

2. 调用方式:

三、语音识别技术

视界之声中的语音识别技术包含以下两个方面:

1. faster-whisper语音识别:

2. SpeechRecognition语音技术:

四、人脸检测技术