Reconeixement de veu mitjançant l'API de Google Speech i Python: 4 passos

Taula de continguts:

Pas 1: ReSpeaker USB 4-Mic Array
Pas 2: instal·leu les biblioteques necessàries
Pas 3: Text a veu a Python amb la biblioteca Pyttsx3
Pas 4: unir-ho tot: crear reconeixement de veu amb Python mitjançant l'API de reconeixement de veu de Google i la biblioteca Pyttsx3

👤 Autora John Day 📧 [email protected].
⏱ Public 2024-01-30 08:12.
🖍 Última modificació 2025-01-23 14:37.

Reconeixement de veu

El reconeixement de la parla és una part del processament del llenguatge natural que és un subcamp de la intel·ligència artificial. Per dir-ho d’una manera senzilla, el reconeixement de veu és la capacitat d’un programari informàtic per identificar paraules i frases en llenguatge parlat i convertir-les en text llegible per humans. S'utilitza en diverses aplicacions com ara sistemes d'assistent de veu, domòtica, chatbots basats en la veu, robot d'interacció amb veu, intel·ligència artificial, etc.

Hi ha diferents API (Application Programming Interface) per reconèixer la veu. Ofereixen serveis gratuïts o de pagament. Aquests són:

CMU Esfinx
Reconeixement de veu de Google
API de Google Cloud Speech
Wit.ai
Reconeixement de veu de Microsoft Bing
API Houndify
IBM Speech To Text
Snowboy Hotword Detection

Utilitzarem el reconeixement de veu de Google aquí, ja que no requereix cap clau d'API. Aquest tutorial té com a objectiu proporcionar una introducció sobre com utilitzar la biblioteca de reconeixement de veu de Google a Python amb l'ajut de micròfons externs com ReSpeaker USB 4-Mic Array de Seeed Studio. Tot i que no és obligatori fer servir un micròfon extern, fins i tot es pot utilitzar un micròfon incorporat per a un portàtil.

Pas 1: ReSpeaker USB 4-Mic Array

El ReSpeaker USB Mic és un dispositiu de quatre micròfons dissenyat per a aplicacions d’intel·ligència artificial i de veu, desenvolupat per Seeed Studio. Té 4 micròfons omnidireccionals integrats d’alt rendiment dissenyats per captar la veu des de qualsevol lloc de la sala i 12 indicadors LED RGB programables. El micro USB ReSpeaker admet sistemes operatius Linux, macOS i Windows. Els detalls es poden trobar aquí.

El micròfon USB ReSpeaker ve en un bon paquet que conté els elements següents:

Una guia de l'usuari
ReSpeaker USB Mic Array
Cable micro USB a USB

Així que estem preparats per començar.

Pas 2: instal·leu les biblioteques necessàries

Per a aquest tutorial, suposo que utilitzeu Python 3.x.

Instal·lem les biblioteques:

pip3 instal·la SpeechRecognition

Per a macOS, primer haureu d’instal·lar PortAudio amb Homebrew i després instal·lar PyAudio amb pip3:

brew install portaudio

Executem l'ordre següent per instal·lar pyaudio

pip3 instal·la pyaudio

Per a Linux, podeu instal·lar PyAudio amb apt:

sudo apt-get install python-pyaudio python3-pyaudio

Per a Windows, podeu instal·lar PyAudio amb pip:

pip instal·lar pyaudio

Creeu un fitxer python nou

nano get_index.py

Enganxeu get_index.py a sota del fragment de codi:

importa pyaudio

p = pyaudio. PyAudio () info = p.get_host_api_info_by_index (0) numdevices = info.get ('deviceCount') for i in range (0, numdevices): if (p.get_device_info_by_host_api_device_index (0, i).get ('maxInput '))> 0: print ("Identificador de dispositiu d'entrada", i, "-", p.get_device_info_by_host_api_device_index (0, i).get (' name '))

Executeu l'ordre següent:

python3 get_index.py

En el meu cas, l'ordre dóna la següent sortida a la pantalla:

Identificador de dispositiu d'entrada 1: matriu ReSpeaker 4 Mic (UAC1.0)

Identificador de dispositiu d'entrada 2: micròfon MacBook Air

Canvieu device_index per número d’índex segons el que vulgueu a sota del fragment de codi.

importar reconeixement de veu com a sr

r = sr. Recognizer () speech = sr. Microphone (device_index = 1) with speech as source: print ("say something! …") audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'ca-US') print ("Heu dit:" + recog) excepte sr. UnknownValueError: print ("El reconeixement de veu de Google no ha pogut entendre l'àudio") excepte sr. RequestError com a e: print ("No s'han pogut sol·licitar resultats al servei de reconeixement de veu de Google; {0}". Format (e))

Es va triar l'índex del dispositiu 1 perquè ReSpeaker 4 Mic Array serà la font principal.

Pas 3: Text a veu a Python amb la biblioteca Pyttsx3

Hi ha diverses API disponibles per convertir text a veu en python. Una d’aquestes API és el pyttsx3, que al meu entendre és el millor paquet de text a veu disponible. Aquest paquet funciona a Windows, Mac i Linux. Consulteu la documentació oficial per veure com es fa.

Instal·leu el paquet Utilitzeu pip per instal·lar el paquet.

pip instal·la pyttsx3

Si sou a Windows, necessitareu un paquet addicional, pypiwin32, al qual necessitarà per accedir a l'API de veu nativa de Windows.

pip instal·la pypiwin32

A continuació, es converteix el fragment de codi del text en veu mitjançant pyttsx3:

importació de pyttsx3

motor = pyttsx3.init ()

engine.setProperty ("taxa", 150) # Percentatge de velocitat

engine.setProperty ("volum", 0,9) # Volum 0-1

engine.say ("Hola, món!")

engine.runAndWait ()

Pas 4: unir-ho tot: crear reconeixement de veu amb Python mitjançant l'API de reconeixement de veu de Google i la biblioteca Pyttsx3

El codi següent s’encarrega de reconèixer la parla humana mitjançant Google Speech Recognition i de convertir el text en veu mitjançant la biblioteca pyttsx3.

importa reconeixement de veu com a sr

import pyttsx3 engine = pyttsx3.init () engine.setProperty ('rate', 200) engine.setProperty ('volume', 0.9) r = sr. Recognizer () speech = sr. Microphone (device_index = 1) with speech as source: audio = r.adjust_for_ambient_noise (source) audio = r.listen (source) try: recog = r.recognize_google (audio, language = 'en-US') print ("Has dit:" + recog) engine.say (" Heu dit: "+ recog) engine.runAndWait () excepte sr. UnknownValueError: engine.say (" El reconeixement de veu de Google no ha pogut entendre l'àudio ") engine.runAndWait () excepte sr. RequestError com a e: engine.say (" No s'ha pogut sol·liciteu resultats al servei de reconeixement de veu de Google; {0} ". format (e)) engine.runAndWait ()

Imprimeix la sortida al terminal. A més, també es convertirà en parla.

Vostè va dir: Londres és la capital de Gran Bretanya

Espero que tingueu una millor comprensió de com funciona el reconeixement de veu en general i, sobretot, de com implementar-lo mitjançant l'API de reconeixement de veu de Google amb Python.

Si teniu cap pregunta o comentari? Deixa un comentari a continuació. Estigueu atents!

Recomanat:

Reconeixement de veu amb Arduino (Bluetooth + LCD + Android): 6 passos

Reconeixement de veu amb Arduino (Bluetooth + LCD + Android): en aquest projecte, farem reconeixement de veu amb Arduino, mòdul Bluetooth (HC-05) i LCD. construïm el vostre propi dispositiu de reconeixement de veu

Mirall màgic intel·ligent flotant des de l’ordinador portàtil antic amb reconeixement de veu Alexa: 6 passos (amb imatges)

Mirall màgic intel·ligent flotant des de l’ordinador portàtil antic amb reconeixement de veu Alexa: inscriviu-vos al meu curs “Electrònica en poques paraules” aquí: https://www.udemy.com/electronics-in-a-nutshell/?couponCode=TINKERSPARK Consulteu també el meu canal de youtube aquí per obtenir més projectes i tutorials d'electrònica: https://www.youtube.com/channel/UCelOO

Com connectar l'aplicació d'Android amb AWS IOT i entendre l'API de reconeixement de veu: 3 passos

Com connectar l'aplicació d'Android amb AWS IOT i entendre l'API de reconeixement de veu: aquest tutorial ensenya a l'usuari com connectar l'aplicació d'Android al servidor AWS IOT i entendre l'API de reconeixement de veu que controla una màquina de cafè. L'aplicació controla la màquina de cafè mitjançant Alexa Servei de veu, cada aplicació

Reproductor de música de reconeixement de veu CS122A: 7 passos

Reproductor de música de reconeixement de veu CS122A: es tracta del reproductor de música de reconeixement de veu. Pot reproduir fins a 33 cançons en funció del nombre de títols i de l'artista que deseu

Robot guia amb funció de reconeixement de veu: 7 passos (amb imatges)

Robot Guiador amb funció de reconeixement de veu: Guia Robot és un robot mòbil que hem creat per guiar els visitants a diversos departaments del nostre campus universitari. Hem aconseguit parlar algunes afirmacions predefinides i avançar i retrocedir segons la veu d’entrada. A la nostra universitat no tenim

Reconeixement de veu mitjançant l'API de Google Speech i Python: 4 passos

Taula de continguts:

Reconeixement de veu

Pas 1: ReSpeaker USB 4-Mic Array

Pas 2: instal·leu les biblioteques necessàries

Pas 3: Text a veu a Python amb la biblioteca Pyttsx3

Pas 4: unir-ho tot: crear reconeixement de veu amb Python mitjançant l'API de reconeixement de veu de Google i la biblioteca Pyttsx3

Recomanat:

Reconeixement de veu amb Arduino (Bluetooth + LCD + Android): 6 passos

Mirall màgic intel·ligent flotant des de l’ordinador portàtil antic amb reconeixement de veu Alexa: 6 passos (amb imatges)

Com connectar l'aplicació d'Android amb AWS IOT i entendre l'API de reconeixement de veu: 3 passos

Reproductor de música de reconeixement de veu CS122A: 7 passos

Robot guia amb funció de reconeixement de veu: 7 passos (amb imatges)

Com soldar amb una bateria AA i una bateria de cotxe: 8 passos

Rellotge de CD personalitzat: 3 passos

Suport ràpid per a iPod: 4 passos

Braç robòtic Alexa: 4 passos

Cartell / logotip LED de neó: 3 passos (amb imatges)

Sistema de reg automàtic de plantes Arduino: 8 passos (amb imatges)

Llums d’avís del SAI: 4 passos

Fer feina divertit: configurar el controlador Xbox per a Autodesk Inventor: 6 passos

Motor 'N Motor: 7 passos

VW Standheizung Smarthome Einleitung: 4 passos

Sistema de detecció d'incendis forestals basat en IOT: 8 passos

Bambú clar (llum connectada): 3 passos

Xarxa d'estacions de sensors per a control d'il·luminació i seguretat: 5 passos (amb imatges)

Sintetitzador làser d'una guitarra de joguina semblant a un heroi de guitarra: 6 passos

Spinning EL Wire Techno Vortex Thingee: 7 passos

El suport de la tassa de paper (per a un IPhone, IPod Classic, PSP, Blackberry, etc.): 5 passos