in

dr. Arelí Rojo Hernández, Departamento de Matemática Aplicada y Sistemas, UAM-C

[Aplausos] [Música] [Música] [Aplausos] [Música] [Música] [Aplausos] [Música] B [Música] [Música] [Aplausos] [Música] [Música] Eh Buenas tardes jóvenes Sean bienvenidos a la tercer faena matemática del trimestre 23 o y hoy contamos con la presencia de la doctora Areli rojo Hernández eh la doctora Areli realizó estudios de licenciatura aquí en

Hmap palapa y estudió la ingeniería en electrónica posteriormente realizó estudios de maestría maestría en ciencias de ingeniería en microelectrónica en el IPN y allí mismo realizó estudios de de doctorado en comunicaciones y electrónica eh sus áreas de interés son el procesamiento de Señales digitales y analógicas el filtrado inteligente o adaptativo los

Sistemas de control eh analógico y digital las redes neuronales y lógica difusa la eh detección de anomalías en video y microcontroladores y tablas de desarrollo eh la doora Ari es profesora desde enero del 2018 y cuenta con eh artículos de investigación en revistas internacionales indexadas y además ha impartido conferencias en eventos tanto

Nacionales como internacionales Y actualmente es jefa del departamento de matemáticas aplicadas y sistemas en nuestra eh hermana la wam este guajimalpa y hoy nos presenta su charla las matemáticas en La Voz escuchamos con atención arel gracias Qué tal Buenas tardes primero que nada mucho gusto de estar aquí este

Gracias por la invitación este Bueno espero que esto sea de su interés okay Bueno mi charla se llama las matemáticas en la voz como ya este me hicieron de favor de mencionarlo pues vamos a comenzar okay Bueno eh las matemáticas están en todas partes las encontramos hasta en la

Sopa No por nada las sopas instantáneas dicen 5 minutos ahí tenemos a las matemáticas y bueno los sonidos eh son señales analógicas la voz humana incluida dentro de estas señales eh tienen un valor de amplitud en cada momento eso significa que en cada instante de tiempo hay un valor asociado

A él y bueno para poder transmitir la voz y escucharla y no nada más la voz cualquier sonido es necesario poder procesar eh esta señal en este caso es necesario digitalizar la porque así como el ser humano la percibe es una señal eh analógica eso significa que en todo

Momento es es constante en cada instante de tiempo hay un pequeño sonido que que la señal eh en la cual tiene un valor o un voltaje en este caso entonces de ahí que la señal sea analógica para el caso del procesamiento de Señales necesitamos digitalizar dicha

Señal este proceso es el que vemos aquí eh a grandes rasgos sigue cuatro pasos que tenemos nuestra señal original analógica que es lo que les digo es continua en todo momento eh en todo momento tenemos un valor pero eso es ideal sabemos que en en realmente cuando la procesamos cuando la escuchamos en

Nuestros aparatos en nuestras computadoras y diversas eh gadgets No tenemos todos los puntos porque en este caso tendríamos eh archivos de audio pesadísimos entonces eh Como eso es imposible se procede a hacer el eh el procesamiento de digitalizar una señal y para ello lo primero que hacemos Es un

Proceso de muestreo Es decir de toda nuestra señal original tomamos solo algunos puntos que nos van a permitir posteriormente recuperar la señal lo más parecida que sea posible a la original eh este proceso de muestro es tomar pequeños puntos o pequeñas muestras e cada cierto tiempo Cada cierto periodo

De tiempo y posteriormente de de este paso se hace un proceso de cuantización que es prácticamente a cada muestra eh asignarles un valor de nivel en este caso en el ejemplo que les muestro a la señal más pequeña o la muestra más pequeña tiene un nivel dos y la más

Grande un nivel tres para finalmente después de que tenemos una cuantización el último paso es hacer una codificación la codificación es asignar pues justamente eso un código a cada valor de nivel lo que nos va a permitir transformar y pasar de una señal analógica original con miles de puntos a una señal

Eh prácticamente una cadena de bits que ya van a ser la representación digital de nuestra señal original que es con lo que vamos a trabajar entonces al final nosotros nuestra voz sonido cualquier cosa en este caso de audio va a quedar representada como una cadena de bits pero este simplemente como aquí lo

Mencionó solo es el paso o el primer paso que hacemos para que nosotros podamos tener los sonidos y pod poderlos reproducir en computadoras celulares eh grabadoras cualquier dispositivo digital realiza o tiene este procedimiento para poder eh pasar nuestra nuestro sonido a a una forma digital Y que nuestro aparato pueda

Reproducirlo Pero qué más hay qué más se puede hacer Bueno entonces cómo hacen los gadgets Y en este caso eh uno de los más grandes ejemplos son los asistentes por ejemplo de Inteligencia artificial Cómo le hacen para entendernos para entender las palabras que estamos diciendo las órdenes que estamos dando porque el

Proceso anterior solo nos ayuda a poder escuchar los sonidos en nuestros aparatos pero para reconocerlos necesitamos procesar un poco más esa señal esa cadena de bits necesitamos procesarla más para que nuestros aparatos nuestros galletos Gadget sean capaces de identificar tanto palabras como a a los hablantes en este

Caso con el procesamiento Uy Me F más rápido con el procesamiento de la voz podemos justamente identificar palabras qué es lo que hace su Alexa su Siri lo que tengan eh Identifica las palabras que ustedes están diciendo independientemente de qué persona las diga otra aplicación eh que podemos a la

Que podemos llegar utilizando el procesamiento de la voz Es identificar al hablante que es una característica biométrica Que prácticamente es que con nuestra voz podamos un aparato una computadora un celular pueda decir si sí eres tú o no eres tú entonces eso es identificar al hablante también es posible identificar

El género de una persona sin ser este cerrado unos es Open Mind Pero simplemente identifica entre hombre y mujer no porque sabemos que las mujeres tenemos un nivel de frecuencia de voz un tanto más agudo que el de los hombres entonces procesando la voz podemos diferenciar entre los dos géneros eh

Biológicos y también podemos identificar una edad aproximada de la persona que está hablando Digo aproximada porque algunas veces aunque ya estamos adultos nuestra voz no cambia tanto pero en el caso de los hombres es muy notorio el cambio de voz Entonces es procesando la voz también podemos identificar

Aproximadamente el rango de edad en la que está una persona Finalmente y en esto estuve trabajando un poco en mi doctorado eh se está procesando la voz para tratar de identificar las emociones A través de la voz si bien nosotros como seres humanos somos capaces definitivamente de identificar emociones los aparatos o la

Ia en este punto todavía no lo es apenas se trabaja en ello eh Y bueno hay diferentes y diversas aplicaciones para ello en esta en esta me voy a centrar en eso quiero avanzar un poco más pero es posible hacerlo Ah Y entonces Y entonces bueno para esto

Tenemos los coeficientes estrales en la escala de Mel que son los que nos van a ayudar a caracterizar nuestra voz y los que nos van a permitir trabajar principalmente en las dos primeras aplicaciones iones identificación de palabras e identificación de hablante entonces aplicamos Ah Estoy jugando trabajamos con ellos y estas

Estos coeficientes nos sirven como vemos aquí en la presentación para representar eh la voz humana eh basados en la percepción que nosotros tenemos sirven para identificar el contenido relevante de una señal de voz y para descartar la que no sirve en este caso sobre todo periodos de silencio y

Bueno los mfcc para por sus siglas en inglés fueron introducidos en los años 80 y han sido el método de caracterización de voz por de faul o por elección de todo el mundo para poder identificar palabras y personas En qué consisten los mfcs el proceso que hacemos para poder

Caracterizar la voz mediante este método es el siguiente primero tenemos la conversión de analógico a digital que fue la que les expliqué hace un momento de llegar a nuestra cadena de bits una vez que llegamos a la cadena de bits tenemos una etapa de pre nfasis en

La cual podemos aplicar un primer filtro con el cual eh es posible hacer que nuestras señales en altas frecuencias sean eh tengan un mayor énfasis justamente de ahí la el nombre de pracis que se vean un poco más eh grandes y que nosotros podamos extraer y que sea extraer más

Información y que sea más fácil trabajar con estas frecuencias después se hace un proceso de ventaneo y aquí se ocupan la ventana a preferencia que hay ventana de haming ventana de haming y bueno todas las ventanas que ustedes puedan conocer se decide con cuál trabajar y pues

Prácticamente la que más les caiga gorda es la que se aplica Esa es la buena en este caso yo utilicé ventana de H para este ejemplo y también durante el periodo de de ventaneo hacemos un una separación en tramas o en muestras extra aparte a la que ya

Hicimos aquí porque ya tomamos cierta cantidad de puntos importantes Entonces de esa cantidad de puntos volvemos a retomar o hacer una partición en pequeños bloques esa cadena de bits y lo que hacemos Es tomar tramas de 20 milisegundos Que tengan un traslape que

Puede ir del 25% el 50% al 75 por de la señal con el objetivo de tomar la mayor cantidad de puntos y tener la menor pérdida de información entonces 25% es bueno 75 por ya es mucha información de más entonces 50% es como que el ideal

Pero y ahí ya también va a depender de qué tanta información quieran ustedes procesar entonces cualquiera de los tres valores es válido en el traslape eh Para en este caso yo utilicé un 25% de traslape para tener menor cantidad de datos después de eso eh aplicamos furier En este caso puede ser la

Articulo Recomendado
3 estrategias que nos ayudaron a ganar becas completas para universidades en EE. UU.

Transformada discreta de fourrier o la transformada rápida de fourrier en este diagrama yo coloqué la la discreta pero para el ejemplo que les vengo a explicar hoy utilicé realmente la rápida Entonces nada más hay que tomarlo en cuenta que aquí se me olvidó cambiar esta d por una

F y el siguiente paso de ahí es ahora sí aplicar a nuestra señal o a nuestras muestras traslapadas a nuestros frames traslapados el banco de filtros de Mel que si ustedes ven son triángulos Vale y justamente Este es el punto que me gustaría explicarles hoy a ustedes más a

Detalle si ustedes van a la bibliografía s Google y escriben eh identificación de palabras y de voz van a encar con este método de mfcc y les van a decir justamente lo que yo les estoy explicando que tienen que aplicar este banco de filtros y en los artículos

En todas partes van estar y aplicamos el banco de filtros triangulares en todos los artículos pero nunca les explican o nunca nos explican cómo crear ese banco de filtros que A mi parecer es interesante y bonito porque no requiere matemáticas tan elevadas para generarlo creo que lo más complicado aquí es la

Transforma de furier antes y después y el aplicar los logaritmos pero de ahí el generar estos triángulos es matemáticas básicas que pues ahora sí cualquier persona pensaría yo que con preparatoria podría realizarlo Entonces eso es lo que quiero explicarles el día de hoy y en este caso

Ah primero debemos de tener en cuenta para para comenzar con la construcción de nuestros triángulos lo primero a tener en cuenta es que nuestra señal de voz tiene una frecuencia de muestreo a la cual la grabamos o la retomamos en este caso eh yo puse 16 khz puede ser

Cualquier otra frecuencia todo los cálculos en esta presentación van a estar basados en esta frecuencia de muestreo posteriormente necesitamos calcular la cantidad de frecuencias centrales que va a tener nuestro banco de filtros Es decir de esta parte de aquí pues Cuántas Cuántas frecuencias centrales o cuál es el Cuántas

Frecuencias habría de cada triángulo prácticamente Cuántos puntos centrales hay de cada triángulo entonces eh justamente primero vamos a encontrar Cuántas frecuencias centrales necesitamos tomando en cuenta que tenemos esta frecuencia de muestreo en la ecuación número uno les muestro que para hacer este cálculo eh Solo necesitamos aplicar el 7 logaritmo de

Nuestra frecuencia central que son 16 khz entre 1300 y a eso sumar la raíz cuadrada de nuestra frecuencia central al cuadrado entre 100300 + 1 este ya es un valor o una fórmula eh establecida sobre todo porque se trabaja en la escala de Bart que es la escala en la

Que se trabaja para los filtros de Mel Entonces les digo que juego me hago bromas nada más yo solita entonces eh sustituyendo nuestros valores nuestra frecuencia central y resolviendo obtenemos que vamos a tener un máximo de 22 frecuencias centrales pero hay que tener en cuenta que la cantidad de frecuencia centrales

No es equivalente a la cantidad de triángulos que va a tener nuestro banco de filtros Por qué como nuestros triángulos van traslapados Eso significa Déjenme regreso al dibujito Eso significa que por ejemplo para formar de aquí a acá necesitamos esta frecuencia central y esta que son dos aquí hay tiene su frecuencia central

Y este triángulo tiene otra frecuencia central y este tercero tiene otra frecuencia central tenemos tres pero para formarlos necesitamos una dos tres cuatro y no tres si lo notan que hay una diferencia entonces debido a esto la cantidad de frecuencias centrales no es equivalente a la cantidad de triángulos

Que que va a tener nuestro filtro entonces para saber cuántos triángulos tenemos que encontrar usamos este ecuación en la cual ya tenemos el 22 que acabamos de calcular eh Y a dos 2 por 22 son 44 – 2 son 42 / 2 tenemos 21 entonces en total vamos a tener 21

Triángulos que son los que tenemos que encontrar que son los que tenemos que formar posteriormente Necesitamos saber cuáles son esas frecuencias centrales para poder Ya empezar a formar nuestros triángulos para ello utilizamos esta ecuación nuevamente esta ecuación sale de la frecuencia de la escala de B en la

Cual eh tenemos 325 por e a la 2n / 7 entre e a la n / 7 en el cual n es el número de triángulo el número de triángulo al que se le va ar la frecuencia central Entonces si estamos en la parte más pegada al cero y vamos a

Encontrar la primer frecuencia central Pues el valor de n sería uno que es lo que les pongo en este ejemplo si estamos encontrando la frecuencia central del triángulo número tres Ah bueno en vez de uno sería tres igual en la parte de abajo en vez de uno sería tres y vamos a

Repetir eso tantas veces necesitemos o tantos triángulos tengamos en este caso vamos a ir de valores de un hasta 21 una vez que hacemos esos cálculos encontramos las frecuencias centrales para cada uno de nuestros triángulos que son las que les muestro en esta tabla ahora idealmente es y lo digo idealmente

Porque aquí está bonito están equidistantes los triángulos Eh Al final se van a dar cuenta que no quedan de esta forma que quedan eh en en bajas frecuencias los triángulos un poco más pegados y se van separando conforme avanzamos a frecuencias altas Pero para motivos de de Claridad eh los coloqué equidistantes

Entonces para hacerlo más sencillo lo que yo hice fue que a cada frecuencia central pues las fui bautizando como fc0 fc1 y bueno iba a llegar hasta fc21 donde fc0 no la coloqué aquí pero es frecuencia cero fc1 corresponde a 174.99 eh hz F por ejemplo 5 corresponde a

6638 hz y así nos vamos hasta el 21 o 22 en este caso Debería ser hasta Hasta hasta el 22 porque recordemos tenemos 22 frecuencias centrales pero solo va a haber 21 triángulos y Okay entonces ya tenemos estos valores de aquí abajo y como lo ven en la imagen el valor de las

Amplitudes de los triángulos hacia arriba en el en la parte y es unitario eso significa que también tenemos pues estos puntos de acá entonces aquí Homero está preguntando Entonces cómo encuentro los triángulos no sé si alguno se le ocurre alguna forma de cómo cómo genero mis triángulos con esa

Información viendo la imagen no sé si se les ocurra algo si alguien quiera participar con su conocimiento no necesitan ir más allá de lejos alguna idea no analicen los triangulitos Ajá alguien alguien no nos enojamos eh todo se vale No okay no se preocupen estamos para eso Okay pues hay dos dos formas

Eh aplicando trigonometría y un poco de del conocimiento que nos heredó Pitágoras y al final de cuentas si ustedes Ven aquí muy tenue tengo una línea y si lo vemos así tengo dos triángulos rectángulos so Entonces qué nos enuncia el teorema de Pitágoras si yo quiero Quiero saber cuánto vale

Este valor y ya tengo este de aquí y este de acá y sé que de aquí Acá hay uno sí recordamos que nos dice Pitágoras que el valor de la hipotenusa es igual a la suma del cuadrado del cateto adyacente más el cateto opuesto entonces pues ya con eso nada más es aplicar

Sumas y raíces Y de ahí pues ya encontramos este al menos Bueno este lado no para encontrar del otro lado Pues es lo mismo tenemos este valor tenemos este valor Pues igual sumas o más bien potencia sumas y raíces y ya quedó No ese es el método

Eh cortito pero pues para agregarle un poco de de sabor y sazón al asunto a mí me gustó irme por el método de geometría analítica en el cual tengo dos puntos cada triángulo son dos pendientes la diferencia es que tengo una pendiente positiva una pendiente negativa

Sé en qué punto está este En qué punto está fc1 en qué punto está fc2 y bueno vamos a aplicar nuestro conocimiento de geometría analítica para ello lo primero que podemos encontrar y utilizar es la pendiente donde si ya tengo los puntos Bueno pues calcular la pendiente es

Restas y una división que todos sabemos hacer No necesitamos ni la calculadora entonces justamente de nuestra imagen anterior encontramos estos puntos en este caso el punto fc0 corresponde a le corresponde las coordenadas 00 están de acuerdo conmigo al punto a o este punto central lo llamé a y le corresponde el

Punto eh en x fc1 y en y1 y así nos vamos no por ejemplo el fc3 tendría eh eh cer en x y al al revés F eh fc3 en en en x y 0 en y porque no sube el D tendría fc4 en x y 1 en

D entonces encontrando esos puntos llego a esta tabla en la cual ya les en listo pues juntamente los valores de esos puntos y sustituyendo cada uno de esos puntos puedo encontrar todas las pendientes de todas las rectas sean positivas o sean negativas Vale entonces ya tengo las pendientes

Pero todavía no tengo el Triángulo solamente tengo pendientes eh Y bueno aquí ya ustedes saben cómo Cómo calcular la pendiente tenemos X y Y pues son los puntos eh de los dos puntos en los que estoy trabajando Entonces pues nada más es sustituir de aquí para acá y guardar esos valores dependientes de

Momento no se los puse en tabla pero pues sí si se tiene posteriormente Es importante saber que eh Me voy a regresar a esta imagen que al final Como este banco de filtros lo vamos a empalmar prácticamente con nuestra señal de voz que aquí ya no les

Puse la imagen pero imaginen que mi señal de voz está como que encimada eso significa que el banco de filtros va a estar repartido en toda mi señal de voz Necesito saber entonces Cuántas muestras hay en toda esa señal de voz o en cada trama en este caso como les

Mencioné al inicio tengo tramas de 20 milisegundos entonces lo que yo necesito saber es justamente a cada frecuencia de muestreo Cuántos puntos o Cuántas muestras van a ver del cero a esta frecuencia de muestreo Cuántas muestras habría o qué frecuencia le tocaría igual a esta frecuencia Qué cantidad desde

Articulo Recomendado
Beca para Madres Mexicanas Convocatoria Complementaria 2022 Subvención USD 20,000.=

Cer0 hasta fc2 Qué cantidad de muestras habría ese espacio y no sé en f5 qué cantidad hay de muestras hay desde f0 hasta f5 de toda la señal que voy a procesar entonces de ahí es que sale esta ecuación de acá mi frecuencia central máxima que ya la calculé eh con

Las con la ecuación número dos me parece o un encontré la tabla de las frecuencias centrales Bueno entonces retomando mi frecuencia máxima yo digo que eh la cantidad máxima de de muestras que va a haber en este Rango de frecuencias de 0 hasta f22 que es eh la frecuencia

5730 van a haber 512 valores 512 muestras este valor no me lo sa en la manga no eh considerando que el siguiente paso del filtro de bancos triangulares es eh otra vez antes de este punto y después de este punto es trabajar con furier debemos recordar que

Se trabaja en potencias de dos Entonces si nosotros tenemos Y si hacemos el cálculo de que eh nuestra frecuencia de muestr es 16000 khz y que nuestras muestras van de 200000 de 20 milisegundos Perdón vamos a encontrar que en 20 milisegundos caben 320 muestras entonces en potencias de 2s 2 a

La 8 es 256 que nos queda cortito para las 320 que requerimos entonces si agarramos dos a las a la nueve tenemos 512 que se pasa tantito pero que en la que ya aseguramos que tenemos la cantidad de muestras que necesitamos la que sigue la siguiente potencia sería

1024 que totalmente aseguramos que ya tenemos la cantidad hasta además de muestras pero nos implica costo computacional entonces nos quedamos con la frecuencia o con la cantidad de muestras más cercanas en las potencias de dos que justamente es 512 entonces de ahí sale ese valor y entonces entonces

Eh sabemos que en la frecuencia máxima vamos a tener hasta 512 muestras entonces nuevamente de aquí por ejemplo imaginen que est fuera pues hasta ahí está bien este entonces necesitamos saber desde cero para allá tendría más los demás triángulos que son los 21 pero desde

Cero hasta hasta la fc2 que son las 512 entonces lo que quiero saber es Mira de esas 512 muestras Cuántas le corresponden desde f0 a f1 Cuántas le corresponden desde o hasta fc2 esa es la pregunta Cuántas muestras de esas 500 eh 12 le corresponden a cada frecuencia eso lo encontramos con esta

Fórmula y vemos que son aproximadamente 15 muestras Entonces vamos a sustituir eh para encontrar Cuántas muestras entonces corresponden a cada frecuencia central que encontramos entonces vamos a ir sustituyendo nuestras frecuencias centrales que ya ya habíamos encontrado y eh aplicando esta ecuación en la que ya encontramos que son 15 muestras y de ahí

Obtenemos Cuántas Eh cuántos valores o Cuántas muestras tocaría cada frecuencia en este caso desde f0 a fc1 habría 26 muestras de las 512 que tenemos disponibles de la f0 a la f3 por ejemplo habría 34 de las 512 disponibles vale Así nos vamos a ir encontramos justamente todas las frecuencias de todas nuestras

Frecuencias centrales A cuántas muestras equivalen eh de las 512 que tenemos disponibles utilizando estas dos fórmulas y lo siguiente es recordemos retomando eh Un pasito antes que ya teníamos nuestras pendientes pero todavía no teníamos las rectas entonces para encontrarla las rectas pues aplicamos la ecuación de la recta o

Simplemente de la ecuación de la pendiente que la tengo por acá lo que yo Necesito encontrar es el valor de de mi recta en este caso empiezo a trabajar con esta fórmula la manipulo un poquito y llego a esta ecuación En donde ya encuentro la ecuación de la recta donde mn son

Eh la pendiente que encontré y es la ecuación de la recta mn es la pendiente que que que ya encontré de cada una de las rectas XN es el vector de los puntos que se tendrá en cada recta nuevamente este va a ser un vector porque de nuestra cantidad de muestras ustedes se

Van a dar cuenta que cada recta no va a tener la misma cantidad de puntos en medio van a variar de acuerdo a la frecuencia de muestreo que teníamos entonces por eso es que se genera un vector entonces va a vectores no sé por decirles algo de tres valores de cinco

Valores de X cantidad de valores eh en cada una de las rectas y bueno yn es el vector que va va a depender del va a depender del tamaño de puntos que va a tener cada una de nuestras rectas y finalmente fcn que es el valor de la frecuencia central que ya calculamos

Previamente entonces para saber cuántos puntos de nuestra señal hay en cada una de las rectas pues simplemente retomando esta esta tabla lo que yo necesito saber y voy a moverme entre esta y la que sigue acá por ejemplo mi primera recta se está formando entre fc0 y fc1 y para formar

Terminar de formar el Triángulo la siguiente recta va de fc1 a fc2 entonces tomando eso en cuenta yo necesito saber de fc0 a fc1 hay 26 muestras porque del cero Pues no hay nada y la la otra pendiente la negativa para terminar de formar el primer triángulo iba de fc1 a

Fc2 entonces en fc1 estamos que hay 26 muestras pero yo necesito saber cuántas muestras hay de fc1 a fc2 entonces simplemente es restar 30 – 26 que es 4 y así nos vamos para la siguiente frecuencia va a ser de fc2 a fc3 30 4 –

30 40 men 34 y si se dan cuenta de aquí para acá hubo cu de aquí a este punto hubo cuatro Pero de aquí hacia acá ya cambió ya hubo seis de aquí aquí otra vez seis de 53 a 61 ya 53 ya varió otra vez ya no son ya no es

Un tamaño de se Entonces esto era lo que les mencionaba que cada recta va no va a tener la misma cantidad de puntos no va a estar formada por la misma cantidad de muestras o de puntos sino que va a depender justamente de estas frecuencias y de estos valores de muestras que se

Asignaron con las ecuaciones que ya se mencionaron m qué es lo que les indico aquí que justamente Pues el tamaño o la cantidad de de puntos con las que vamos a formar cada una de las rectas pues va va a cambiar y va a depender al final de la

Frecuencia de muestreo con la que iniciamos y entonces todo este procedimiento para encontrar Cuántos puntos hay de aquí desde f0 hasta la a y de a hasta fc2 es eso calcular la pendiente ver Cuántos cuántos de los 512 puntos caben de aquí acá luego despejar para encontrar la

Ecuación de esta recta y luego es identificar de nuestras muestras Cuáles son los puntos que caen en ese espacio y eso que Les acabo de mencionar solo fue para encontrar por ejemplo está pendiente entonces al final de cuentas el proceso se tendría que repetir para todas las rectas que necesitamos que en este

Caso que en este caso si habíamos dicho que teníamos aquí se ve un poquito menos voy a moverme hacia atrás por ejemplo en este pequeño nosotros tenemos que son cinco triángulos pero cuántas rectas tenemos no tenemos cinco tenemos el doble o no Porque para cada triángulo necesitamos dos rectas por lo tanto el

Procedimiento todo este procedimiento se se va a repetir el doble de veces me explico y Bueno ahí ya entra la parte de la programación en donde ustedes Pues si está haciendo un proceso repetitivo Pues un ciclo for o un ciclo While y ya no lo tienen que hacer uno por uno

Vale entonces con esto eh se lo logra formar finalmente el banco de triángulos que aquí en esta diapositiva les muestro que es cómo queda al final el banco de triángulos o el banco de filtro triangular en el cual era lo que les mencionaba en la parte de bajas frecuencias los triángulos van más

Pegaditos y conforme vamos avanzando a las frecuencias altas los triángulos se van separando vale es decir en los triángulos o en estas pendientes más alejadas va a haber una mayor cantidad de muestras van a tener más información vale Este banco de filtros nos ayuda a darle énfasis a las altas frecuencias

Vale toma eh la menor cantidad de información en Las bajas y le da un poco más de énfasis a las altas frecuencias pero este procedimiento les repito e al menos en lo que yo he buscado nadie les dice Cómo hacer sus triángulos nada más le dicen y y usan esto pero pues De

Dónde sale pues ahí uno se tiene que no sé inventar el hilo negro de teorama de Pitágoras pero pues de aquí sale y igual ustedes si también observan justo les mencionaba al inicio que puede salir también con Pitágoras porque al final son triángulos rectángulos entonces Posiblemente no lo he hecho lo

Voy a hacer posiblemente contraigo los rectángulos el procedimiento se reduzca porque ya tengo los catetos ya tengo Cuánto valen las distancias entonces pues ya nada más es Elevar al cuadrado raíces y sancia cuadrado no sé si hasta aquí tengan alguna duda permítanme much mejor Okay entonces Okay ya tenemos los filtros triangulares les

Repito nadie les dice cómo hacerlos Pero qué procede después ah al inicio en las primeras diapositivas les mostraba yo los pasos que se necesitan para identificar las palabras o al hablante entonces nos quedamos en este punto una vez que tenemos y aplicamos a nuestra cadena de

Bits a nuestra señal eh que ya le aplicamos ventaneo y y dividimos en tramas le aplicamos ese filtro ese banco de filtros triangulares que ya creamos después les aplicamos el logaritmo y nos vamos de retroceso aplicamos si aplicamos dft Bueno pues tenemos que aplicar la transformada inversa discreta

Articulo Recomendado
Centro de acopio UAM-I | Unidad de Protección Civil UAM Iztapalapa

De fourrier y como yo les mencioné hace rato yo apliqué la transformada rápida de Fer entonces aquí sería la transformada rápida inversa de Fer para ir en concordancia y después de esto cuando salimos de este punto lo que se nos va a generar es una matriz una matriz

Característica de la señal que estamos procesando y aquí los muestro y no nada más eso una vez que obtenemos esa matriz eh aplicando eh una resta podemos una resta Sí una resta porque son deltas podemos encontrar eh A lo que se les llama coeficientes Delta coeficientes Delta Delta que son características extras que

Se obtienen con este procedimiento y luego de ahí pues ya con eso ya tenemos nuestras matrices características pero [Música] avanzando Qué se hace con ellos una vez que ya tenemos la matriz característica justamente esa matriz característica va a estar asociada a un solo audio Eso quiere decir que por

Ejemplo si nosotros queremos identificar palabras cada palabra va a tener su matriz es decir cada audio o cada palabra va a estar asociada y y va a estar casada con el banco de filtros el banco de filtros va a ser el mismo pero va a estar aplicado a diferente señal de

Voz o a diferente palabra en este caso qué tanta qué tantas matrices vamos a tener tantas palabras queramos identificar o tantas personas queramos identificar vale Y hasta aquí quedan los mfcc pero lo que se hace con ellos justamente es el último paso ya para que nuestros el último paso que hacen

Nuestros aparatos para poder decirnos o identificar lo que estamos diciendo lo último que hace es justamente esos valores de mfcc que encontramos son lo que alimenta una red neuronal una máquina de soporte vectorial un modelo de mezclas gusanas algoritmo de K medias Bueno cualquier algoritmo de Ah clasificación que ustedes conozcan o que

Se inventen se inventan alguno Pues aquí entraría esa parte entonces nuestros mfcs son lo que alimentan eh nuestro clasificador y el clasificador es Al final el que nos dice Ah bueno acabas de decir sutana de tal palabra o el que está hablando si es mereng anito o no es

Mereng anito pero al final sin esta parte de las características sería imposible que los aparatos o que la ía en general nos nos pudiera decir qué se está diciendo o quién está hablando vale H entonces justamente a la salida de de la etapa de clasificación ya se puede

Tener la identificación de las palabras o de quién se está hablando vale Y bueno tengo mis referencias y bueno no sé si tienen alguna pregunta y por ahí Homero les está dando un sabio consejo muchachos no no lo ignoren bien pues este Muchas gracias por la presentación y pues ya estamos en la

Aplausos Gracias bien Y pues pasamos a la sesión de dudas alguna duda algún comentario Lo que ustedes quieran comentarle a la doctora nad nad tiene ninguna duda noj mirar YouTube estamos transmitiendo vía YouTube entonces este a ver [Música] permítanme no algún comentario Sí este bueno recuerden la La

Charla las matemáticas en la en la voz es importante que ustedes se den cuenta no de cómo es que se aplica la matemática en divers estas áreas del conocimiento verdad que que valoren el el el aprender no el saber todas las herramientas de las que podemos eh hacer

Uso para estudiar este distintos temas no de de investigación eh bien este recuerden Recuerden que estamos eh celebrando el 50 aniversario de la Huista palapa y ocho 8 años de de lunes de páginas matemáticas lo cual nos este nos tiene muy muy contentos No que ya haya durado 8 años este seminario Y

Tenemos tenemos regalos verdad tenemos regalos para para ustedes entonces dado que nadie quiere este preguntar pues Areli Areli tienes alguna alguna pregunta para ellos para que se ganen este este premio Ah creo que no no no le avisamos a él Se nos olvidó verdad la los regalos esperando que sí hubiera este preguntas

Preguntas por parte de de ustedes chicos Ah que que se note que sí estaban bien atentos Ah por allá Tenemos una pregunta muy bien eh el micrófono les llevamos el micrófono por ahí por favor Gracias Mientras tanto los demás a ver quién más se quiere ganar este este eh

Obsequio adelante eh La pregunta es cuál cree la aplicación más próxima e digamos a la rama de la ciencia con las ías que están saliendo pues estoy 100% segura que las ías ocupan esto para poder identificarte palabras y hablantes y y te digo al menos yo en este momento estoy

Trabajando en que a partir de esto también sea posible identificar una emoción no es la única forma eso es muy importante no lo mencioné no es la única forma de caracterizar la voz hay energía hay Pit hay cruces por cero etcétera Pero para identificar las emociones no

Se no se tiene algo todavía escrito en piedra Entonces esa podría ser una aplicación muy importante y aplicación bueno como para qué cosa serviría o para qué querríamos nosotros que nuestra ía sepa si estamos Este enojados tristes contentos hay varias aplicaciones la que siempre les da risa simplemente en parja usualmente cuando

Están el hombre y la mujer y le pregunta qué tienes nada Y ustedes no tiene nada no quizás ahí ponen el celular y a escuchar ya les Digamos si si está enojada creo que sería una ayuda es una aplicación muy burda pero otra no sé si ustedes recordarán en algún momento mm

En qué año fue me parece por ahí del 2017 o algo así fue muy sonado que un piloto alemán estaba muy deprimido muy deprimido tan deprimido que tiró el avión que iba pilotando murió toda la tripulación evidentemente é y todos los pasajeros porque él iba muy muy deprimido Entonces si por ejemplo este

Tipo de aplicaciones se colocaran o se les hiciera un test a pilotos a chóferes etcétera para analizar si están emocionalmente preparados para realizar un viaje pues Definitivamente creo que evitaríamos este tipo de problemas quizás hubiéramos podido está muy triste no lo dejes viajar porque posiblemente

Va a ir muy distraído no o una persona enojada sabemos que al manejar es más violenta no Entonces es una aplicación una posible ventana Futura en la que sí podría entrar este procesamiento para para Sí yo lo veo a a mediano plazo corto no pero a mediano plazo sí lo veo

Como aplicación en las ias vale muchas gracias más bien alguna otra pregunta jóvenes bien atrás perfecto Hola buenas tardes Bueno ya que habl de las emociones entonces podemos decir que para identificar las emociones y verlas des un punto de vista matemático podríamos verla por ejemplo

No sé la intensidad que se hace la voz para poder plasmarlo poder mostrarlo y bueno otra más o menos Cuánto tiempo es lo que ha durado toda esta investigación y Como cuánto tiempo cree que tardaría en poder aplicarlo en las cuestión de las emociones Okay sí sí se puede plasmar de

Hecho se puede hacer de una señal de voz puede sacar el espectrograma ya visualmente puedes ver eh Por ejemplo cuando estamos enojados definitivamente tendemos a alzar la voz Entonces sí se ve clarísimo cuando estamos triste todo lo contrario tendemos a hablar más bajito incluso más pausadamente entonces

Sí se puede eh Y esa justamente es caracterizar La Voz De acuerdo a sus energías eh o a sus amplitudes si lo quieres ver de esta forma Y ahora qué tanto nos tardemos a llevar la aplicación Pues no sé déjame sigo con la investigación porque no lo he hecho

Tengo tengo los algoritmos pero los tengo en simulación Entonces es la forma es pasar eso A qué te gusta arduino raspberry fpga etcétera ese último paso no lo he hecho pero sí se puede term no quieres trabajar en proyecto terminal con todo gusto en colaboración con Cuajimalpa se puede

Hacer en efecto podrías ir a H Pero bueno también está con esta pala verdad Claro que sí bien alguna otra duda jóvenes adelante Usted dijo que estaba trabajando en en las emociones no eh encontró algo interesante no sé algún intervalo donde pueda determinar si una persona está mintiendo diciendo que está

Enojado está triste o está feliz no lo encontré algo así tan específico no lo encontré lo que sí pude hacer es sí diferenciar las emociones de acuerdo a una cantidad inmensa de características que que proces no nada más proces esto que energías speach cruces por cero

Eh apliqué otro tipo de filtros que son los gamat eh Y sí se diferencían las emociones eh bastante para poder encontrar o determinar algo así se necesitaría una base de datos un tanto más fina que es el voy a decirlo así que es el eh el

Talón de alquiles de esta parte de la investigación no hay bases de datos enfocadas al reconocimiento y emociones entonces para poder eh ver si este procesamiento puede discriminar entre C una persona tamb entiendo o no con una base de datos podríamos probar si sí o

Si no se tendría que tener una base de datos especializada justamente en la que tengamos emociones reales y en la que tengamos emociones fingidas y ahora sí alimentar nuestro procesamiento y Ver ver qué sale sería interesante muy bien muchas gracias alguna otra duda jóvenes no Okay pues

Bueno ya nada más para finalizar en YouTube Nada más tenemos un comentario de Víctor Gabriel Medina Félix que le agradece a la doctora Ari por la interesante charla y pues bien chicos con esto finalizamos la faena de este bueno la tercer faena matemática de nuestro seminario y Ah le

Agradecemos Se me olvidaba agradecerle a la doctora arel por la charla Muchas gracias y los dos los dos primeros preguntas aquí está su obsequio Gracias jóvenes y los demás tienen que los primeros gracias Nos vemos el en 15 días jóvenes bonita tarde i

What do you think?

Written by d2jma

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

UACM Cuautepec

¿Qué es un altavoz? – Conoce tu rol y perfil.