Skip to content

Sections
Personal tools
You are here: Home » Research » Projects » Phase II » IM2.VP ( Visual/video processing ) - lay summary

IM2.VP ( Visual/video processing ) - lay summary

Document Actions

Visual/video processing

 

IM2.VP
IP Head: Jean-Philippe Thiran (ITS/EPFL)
Partners: ITS/EPFL, LASA/EPFL,IDIAP, FKI/UniBE, BIWI/ETHZ, UniNe

English summary

This Individual Project (IP) deals with one of the basic and most important modality in human-computer and human-to-human interactions, i.e. the visual modality. We develop image processing methods to analysis the content of images and video sequences. In particular, the following research topics are investigated, that are most relevant in the context of IM2, for the automated analysis of human-machine and human-human interactions:

  • face detection and recognition: faces are one of the most important parts of an image showing a human in his/her interaction with other humans or with computers. Detecting faces is thus a primary component in many automatic image analysis systems. Moreover, face recognition is one possible subsequent step, that allows the automatic recognition of a participant, for instance in a meeting, or the authentication of a client in front of an automatic system.
  • visual focus of attention detection and analysis: in the context of the automatic analysis of human-to-human interaction, for instance during meetings, detecting the focus of attention of the participants is a key elements. We develop methods for automatic definition of visual points of attention, that are likely to attract the attention of participants, and we also develop methods to estimate the visual focus of attention of participants in a meeting, by analyzing their head pose.
  • object recognition is crucial in automatic scene analysis. In our project, we develop a general theory for object recognition exploiting multiple views (multiple cameras). We also develop object recognition as a pre-processing step for robust speech recognition, where noisy objects (cars, etc) can be detected and identified, and have their noise modeled to limit their perturbation on an automatic speech recognition system.
  • Finally, handwritten text recognition is an important piece of work since meetings often involve written texts (e.g. on a whiteboard) that has to be automatically recognized to be further included in an automatic or interactive meeting processing system.

As a provider of advanced unimodal methods, this Individual Project has important links with the other IPs of IM2, and most specifically with IM2.AP (Audio Processing), IM2.MPR (Multimodal Processing and Recognition) and IM2.DMA (Database management and meeting analysis).

The partners of this IP are the EPFL (Signal Processing Laboratories, Prof. J.-Ph. Thiran, IP head, and Prof. P. Frossard), IDIAP (Dr S. Marcel and Dr J.-M. Odobez), ETHZ (Computer Vision Lab, Prof. L. Van Gool), the University of Bern (Prof. H. Bunke), and the University of Neuchâtel (Institute of Microtechnics, Prof. H. Hügli).

 
Keywords: scene analysis, image processing, image analysis, video analysis, face detection, visual attention, object recognition, computer vision, handwriting recognition.


Résumé en français

Ce projet individuel (Individual Project, ou IP) traite de l’une des principales modalités impliquées dans les interactions hommes-machines et entre être humains, la modalité visuelle, Nous y développons des méthodes de traitement d’images qui  permettent d’analyser automatiquement le contenu d’images ou de séquences vidéo. En particulier, nous étudions les domaines suivants, qui sont les plus appropriés dans le contexte d’IM2, pour l’analyse automatique des interactions hommes-machines et entre êtres humains :

  • la détection et la reconnaissance des visages : les visages sont clairement l’une des plus importants parties d’une image lorsqu’il s’agit d’en analyser le contenu dans le cadre d’une interaction entre un individu et d’autres entités, humains ou ordinateurs. La détection de visages est donc une composante de base de bon nombre de systèmes d’analyse d’images automatiques. La reconnaissance de visages en est une extension possible, qui permet la reconnaissance automatique d’un intervenant, par exemple dans une réunion, ou l’authentification d’un client devant un système automatique.
  • Analyse de l’attention visuelle et du focus d’attention : dans le contexte de l’analyse automatique des interaction entre humains, par exemple durant des réunions, la détection du focus d’attention (qui regarde où) est un élément essentiel. Nous développons des méthodes pour la détection automatique de l’attention visuelle, c’est-à-dire des endroits qui attireront probablement le regard. De plus, nous développons des méthodes pour estimer, sur la base de l’analyse de l’orientation des visages, les points de focus d’attention.
  • La reconnaissance d’objets est cruciale en analyse automatique de scène. Dans notre projet, nous développons une méthode générale de reconnaissance d’objets à partir de caméras multiples. Nous travaillons aussi sur la reconnaissance des objets comme prétraitement à la reconnaissance automatique de la parole : la détection et la reconnaissance d’objets bruyants (par ex. une voiture) permet d’en modéliser le bruit et de limiter ainsi la dégradation des performances d’un système de reconnaissance automatique de la parole dans un environnement bruité.
  • Enfin, la reconnaissance automatique de l’écriture manuscrite est une partie important de notre travail. En effet, lors de réunions, il est fréquent que des textes manuscrits soient produits (sur un tableau par exemple). Leur reconnaissance automatique permet d’inclure ces informations dans un système global automatique ou interactif d’analyse de réunions.

En tant que fournisseur de méthodes monomodales avancées, cet IP entretient des liens importants avec d’autres IP d’IM2, en particulier avec IM2.AP (Audio Processing), IM2.MPR (Multimodal Processing and Recognition) et IM2.DMA (Database management and meeting analysis).

Les partenaires en sont l’EPFL (Laboratoires de Traitement des Signaux, Prof. J.-Ph. Thiran, coordinateur de l’IP, Prof. P. Frossard), l’IDIAP (Dr S. Marcel et Dr J.-M. Odobez), l’ETHZ (Laboratoire de Vision par Ordinateur, Prof. Luc Van Gool), l’Université de Bern (Prof. H. Bunke) et l’Université de Neuchâtel (Institut de Microtechnique, Prof. H. Hügli.


Last modified 2008-05-19 08:54
 

Powered by Plone