Detección y reconocimiento de caras.

Detección de las caras de la imagen, almacenamiento en la BBDD y reconocimiento del protagonista.

ETIQMEDIA analiza los frames de un vídeo para detectar las caras presentes en el mismo. Para ello, se hace uso de la Inteligencia Artificial y del Deep Learning entrenado con un gran volumen de datos etiquetados. Posteriormente, de cada cara se extrae un vector de características que actúa como la representación óptima de las mismas. Estos valores se comparan con los existentes en una base de datos y, en caso de que se encuentre al protagonista, se devolverá su identidad. Adicionalmente, si es personaje es desconocido, el usuario puede realimentar el algoritmo con esta nueva información. De esta manera, se conoce quiénes aparecen en un vídeo y en qué instantes lo hacen, mejorando así la catalogación de contenido audiovisual.

OCR

Detección de texto en pantalla y transcripción del mismo.

Las tecnologías OCR sirven para transcribir con una alta fiabilidad los textos que aparecen en la imagen. ETIQMEDIA cuenta con su propia tecnología OCR acompañada, además, de un robusto detector de textos. Para ello, el proceso de lectura se divide en dos fases: inicialmente se detecta la región donde aparece texto en la imagen. Posteriormente, esa región se envía a la OCR Engine de ETIQMEDIA la cual la trascribe a texto. Adicionalmente, ETIQMEDIA utiliza la información del vídeo en el que aparece el texto para refinar y filtrar los resultados de la transcripción de textos frente a un OCR aplicado únicamente frame a frame. Los filtros desarrollados en ETIQMEDIA para agrupar esta información suponen una mejora diferencial frente a otros sistemas.

Scene understanding

Segmentación e identificación de los planos y escenas que componen el vídeo.

Las tecnologías de scene understanding se centran en la comprensión de una imagen o un vídeo, de tal manera que un sistema sea capaz de percibir y extraer información de la misma manera que lo haría un humano. Dentro de este amplio campo, ETIQMEDIA se centra en el reconocimiento de planos y escenas. Mediante un motor de inteligencia artificial entrenado con miles de planos y escenas, nuestro algoritmo es capaz de identificar cada uno de los planos y escenas que componen un vídeo. Así, para un partido de fútbol, ETIQMEDIA es capaz de segmentar el vídeo en las sucesivas jugadas: gol, falta, fuera, córner, etc. Y, a su vez, para cada jugada es capaz de identificar los diferentes planos que la forman, plano de juego, primer plano jugador, repetición, grada, etc.

Detección de logos

Detección de logos y marcas en vídeo.

ETIQMEDIA cuenta con una potente Red Neuronal Convolucional (CNN) capaz de detectar y reconocer diversos logos y marcas en un vídeo incluso a tiempo real y utilizando las más novedosas y potentes técnicas de Computer Vision. Los logos y marcas pueden detectarse en múltiples situaciones y es robusto ante condiciones adversas como oclusiones, rotaciones, cambios de tamaño o cambios de iluminación. Dado un vídeo, esta tecnología de ETIQMEDIA será capaz de predecir qué marcas aparecen en él, en qué ubicación en la imagen y en qué instantes temporales. Esto nos permite detectar un logo en cualquier situación, desde fotocalls a cortinillas de patrocinio. De esta manera, es posible aplicar esta tecnología a ámbitos como el márketing, seguimiento de marcas y el Product Placement.

GPU y Multithreading

Utilización de las últimas técnicas de programación multithread y GPU para optimizar el rendimiento de la plataforma.

Una de las prioridades de ETIQMEDIA es optimizar los tiempos de computación para reducir al máximo el tiempo desde que un contenido entra en el flujo hasta que está preparado para ser consumido por el usuario. Para ello trabajamos con las dos tecnologías más utilizadas para reducir tiempo de computación paralelizando procesos independientes dentro de un análisis de vídeo: computación GPU (Graphics Processor Unit) y multithreading. La GPU es una unidad de procesamiento optimizada para el análisis de imagen, ya que es capaz de llevar a cabo gran número de operaciones simples en paralelo. Las operaciones sobre imágenes trabajan con operaciones matriciales, que se llevan a cabo de forma óptima gracias a la arquitectura GPU. Esto además libera al procesador principal del servidor (CPU) que puede dedicarse a realizar otras operaciones al mismo tiempo. El multithreading es la capacidad de un sistema de trabajar con múltiples procesos o threads al mismo tiempo. En este caso la CPU es capaz de trabajar con múltiples procesos avanzando en paralelo en aquellas operaciones que no estén relacionadas. Esta arquitectura evita el tener que ejecutar de forma consecutiva trabajos que no requieren transferencia de información entre ellos, de nuevo acelerando el tiempo de ejecución del sistema global. ETIQMEDIA hace uso de estas tecnologías reduciendo en un factor 10x el tiempo de ejecución frente a un sistema sin paralelizar.

Reconocimiento automático del habla

Transcripción y subtitulado automático del habla.

ETIQMEDIA cuenta con una potente tecnología de reconocimiento del habla (ASR) que presenta las tasas de acierto más altas del mercado. El ASR es capaz de tomar un audio de entrada y transcribirlo y subtitularlo a texto tanto en diferido como en directo. Además, el ASR de ETIQMEDIA cuenta con la capacidad de transcribir contenido bilingüe en las principales lenguas de España (español, catalán, euskera, gallego, balear y valenciano) y soporta los diferentes acentos y formas de pronunciación existentes mediante un robusto modelado de las características de voz. Asimismo, los modelos son entrenados específicamente para cliente y para dominios específicos, maximizando así las tasas de acierto frente a sus competidores.

Sincronización audio-subtítulos

Reajuste de la sincronía audio-subtítulos para contenidos capturados de la señal de difusión.

Una de las necesidades habitualmente detectadas en la catalogación de contenido audiovisual es la de contar con una fuente de información textual asociada a un vídeo pero sin estar sincronizada con el audio. Puede tratarse tanto de una trascripción del audio sin marcas temporales como de unos subtítulos que no están perfectamente sincronizados, como sucede en gran parte de los contenidos emitidos en TDT en España. Para ambas situaciones, ETIQMEDIA cuenta con una tecnología de sincronización de subtítulos capaz de alinear una transcripción o unos subtítulos con lo que se está diciendo en el audio de forma síncrona. Como resultado, se tendrán unos subtítulos finales perfectamente sincronizados.

Segmentación de hablantes

Segmentación automática del contenido por intervenciones.

ETIQMEDIA en colaboración con la Universidad de Zaragoza cuenta con un potente algoritmo capaz de segmentar un contenido audiovisual por las diferentes intervenciones que existan en el mismo, asignando un ID único a cada uno de los hablantes presentes. De esta manera, se conocen los tiempos en lo que comienza y termina de hablar cada hablante. Esta información es especialmente útil en contenidos como ruedas de prensa o sesiones plenarias, ya que permite al cliente navegar cómodamente a través del vídeo por preguntas-respuesta o por las propuestas de cada interventor. También es útil para obtener todos aquellos instantes en los que un hablante específico ha intervenido, así como para calcular el tiempo total de sus intervenciones.

Control de calidad en audio (QC)

Examen automático de la calidad de una pieza de audio antes de ser transcrito.

ETIQMEDIA cuenta con un potente módulo capaz de examinar la calidad de una pieza de audio antes de ser enviada al ASR. Para ello, se determina si la voz está por encima del ruido. El QC de audio permite estimar la fiabilidad de los resultados de la transcripción automática a priori, evitando así transcribir piezas excesivamente ruidosas que, de lo contrario, degradarían las prestaciones del reconocedor automático. Es, por tanto, una pieza clave en las tecnologías de audio y en el ASR de ETIQMEDIA.

Reconocimiento de entidades

Extracción automática de las entidades de un texto o de una transcripción automática.

ETIQMEDIA aplica las técnicas más vanguardistas del Deep Learning y el Procesamiento de Lenguaje Natural para abordar el reconocimiento de entidades (NER). Dado un texto, nuestro NER es capaz de detectar las principales entidades que aparecen en el mismo y las clasifica en diferentes tipos: localizaciones, organizaciones y protagonistas. Este mismo proceso puede ser aplicado a la salida de nuestro transcriptor automático, dada las altas prestaciones de este y la robustez de nuestro NER. El reconocimiento de entidades permite a cada cliente realizar búsquedas por palabras sobre su contenido, devolviendo así los resultados de aquellos vídeos en donde aparece. Además, se puede seleccionar que función cumple la palabra que se está buscando (organización, lugar, o protagonista), evitando así la ambigüedad existente al buscar por palabras que pueden cumplir diversas funciones.

Traducción automática

Traducción automática de un texto o de una transcripción automática entre las principales lenguas de España.

ETIQMEDIA ha desarrollado un algoritmo de traducción automática basado en las últimas tendencias del Procesamiento de Lenguaje Natural. El motor de traducción de ETIQMEDIA es capaz de traducir entre las principales lenguas de España (español, catalán, euskera y gallego) y también el inglés, presentando unas altas tasas de acierto incluido en idiomas de pocos hablantes. ETIQMEDIA ha diseñado y desarrollado una metodología para especializar modelos de traducción en nichos específicos, pudiéndose obtener un traductor excepcionalmente bueno en ámbitos concretos como la política o el institucional. Gracias a la traducción automática, el cliente podrá realizar búsquedas sobre su contenido no solo en la lengua origen del contenido sino también en las restantes.

Categorización de textos

Clasificación automática de textos en diferentes categorías y basándose en ontologías estándares o propias.

ETIQMEDIA en colaboración con el ITAINNOVA cuenta con una tecnología de categorización de textos y noticias que es capaz de analizar sintácticamente texto y clasificar el contenido en diferentes categorías trabajando con ontologías. La categorización puede trabajar con ontologías estándares como IPTC, asignando de forma automática un segmento de un contenido a la categoría asociada. También es posible trabajar con ontologías propias del cliente, permitiendo que sea este quien defina las categorías y subcategorías en las que desea clasificar el contenido.

Big data

Procesamiento de grandes volúmenes de datos para alimentar las tecnologías de aprendizaje automático y mejorar la catalogación de contenido.

La disciplina del Big Data o inteligencia de datos engloba toda actividad relacionada con la manipulación masiva de grandes volúmenes de datos con el fin de extraer patrones repetitivos de los mismos que sirvan posteriormente para crear modelos predictivos. ETIQMEDIA recolecta, almacena y analiza múltiples datos de diversa índole tales como audio, vídeo, imágenes o texto con el propósito de que sirvan para entrenar sus tecnologías basadas en el aprendizaje automático. En ETIQMEDIA basamos muchos de nuestros algoritmos en tecnologías de Deep Learning, lo que nos obliga a generar y gestionar continuamente grandes cantidades de datos con los que realimentar nuestros sistemas. El Big Data es, por tanto, la base sobre la cual se apoyan el resto de las tecnologías desarrolladas en ETIQMEDIA.

ETIQMEDIA ha sido beneficiaria de fondos FEDER para el desarrollo de nuestra plataforma de automatización de la transcripción y la subtitulación tanto en directo como en diferido de contenido audiovisual multilingüe.