English summary
This
Individual Project (IP) deals with one of the basic and most important modality
in human-computer and human-to-human interactions, i.e. the visual modality. We
develop image processing methods to analysis the content of images and video
sequences. In particular, the following research topics are investigated, that
are most relevant in the context of IM2, for the automated analysis of
human-machine and human-human interactions:
- face detection and recognition: faces
are one of the most important parts of an image showing a human in his/her
interaction with other humans or with computers. Detecting faces is thus a
primary component in many automatic image analysis systems. Moreover, face
recognition is one possible subsequent step, that allows the automatic
recognition of a participant, for instance in a meeting, or the authentication
of a client in front of an automatic system.
- visual focus of attention detection
and analysis: in the context of the automatic analysis of human-to-human
interaction, for instance during meetings, detecting the focus of attention of
the participants is a key elements. We develop methods for automatic definition
of visual points of attention, that are likely to attract the attention of
participants, and we also develop methods to estimate the visual focus of
attention of participants in a meeting, by analyzing their head pose.
- object recognition is crucial in
automatic scene analysis. In our project, we develop a general theory for
object recognition exploiting multiple views (multiple cameras). We also
develop object recognition as a pre-processing step for robust speech
recognition, where noisy objects (cars, etc) can be detected and identified,
and have their noise modeled to limit their perturbation on an automatic speech
recognition system.
- Finally, handwritten text recognition
is an important piece of work since meetings often involve written texts (e.g.
on a whiteboard) that has to be automatically recognized to be further included
in an automatic or interactive meeting processing system.
As a
provider of advanced unimodal methods, this Individual Project has important
links with the other IPs of IM2, and most specifically with IM2.AP (Audio
Processing), IM2.MPR (Multimodal Processing and Recognition) and IM2.DMA
(Database management and meeting analysis).
The
partners of this IP are the EPFL (Signal Processing Laboratories, Prof. J.-Ph.
Thiran, IP head, and Prof. P. Frossard), IDIAP (Dr S. Marcel and Dr J.-M.
Odobez), ETHZ (Computer Vision Lab, Prof. L. Van Gool), the University of Bern (Prof. H. Bunke), and the University of Neuchâtel (Institute of Microtechnics, Prof. H. Hügli).
Keywords:
scene analysis, image processing, image analysis, video analysis, face
detection, visual attention, object recognition, computer vision, handwriting
recognition.
Résumé en français
Ce projet individuel (Individual Project, ou IP) traite de
l’une des principales modalités impliquées dans les interactions
hommes-machines et entre être humains, la modalité visuelle, Nous y développons
des méthodes de traitement d’images qui
permettent d’analyser automatiquement le contenu d’images ou de
séquences vidéo. En particulier, nous étudions les domaines suivants, qui sont
les plus appropriés dans le contexte d’IM2, pour l’analyse automatique des
interactions hommes-machines et entre êtres humains :
- la détection
et la reconnaissance des visages : les visages sont clairement l’une des plus
importants parties d’une image lorsqu’il s’agit d’en analyser le contenu dans
le cadre d’une interaction entre un individu et d’autres entités, humains ou
ordinateurs. La détection de visages est donc une composante de base de bon
nombre de systèmes d’analyse d’images automatiques. La reconnaissance de
visages en est une extension possible, qui permet la reconnaissance automatique
d’un intervenant, par exemple dans une réunion, ou l’authentification d’un
client devant un système automatique.
- Analyse de
l’attention visuelle et du focus d’attention : dans le contexte de l’analyse
automatique des interaction entre humains, par exemple durant des réunions, la
détection du focus d’attention (qui regarde où) est un élément essentiel. Nous
développons des méthodes pour la détection automatique de l’attention visuelle,
c’est-à-dire des endroits qui attireront probablement le regard. De plus, nous
développons des méthodes pour estimer, sur la base de l’analyse de
l’orientation des visages, les points de focus d’attention.
- La
reconnaissance d’objets est cruciale en analyse automatique de scène. Dans
notre projet, nous développons une méthode générale de reconnaissance d’objets
à partir de caméras multiples. Nous travaillons aussi sur la reconnaissance des
objets comme prétraitement à la reconnaissance automatique de la parole : la
détection et la reconnaissance d’objets bruyants (par ex. une voiture) permet
d’en modéliser le bruit et de limiter ainsi la dégradation des performances
d’un système de reconnaissance automatique de la parole dans un environnement
bruité.
- Enfin, la
reconnaissance automatique de l’écriture manuscrite est une partie important de
notre travail. En effet, lors de réunions, il est fréquent que des textes
manuscrits soient produits (sur un tableau par exemple). Leur reconnaissance
automatique permet d’inclure ces informations dans un système global
automatique ou interactif d’analyse de réunions.
En tant que fournisseur de méthodes monomodales avancées,
cet IP entretient des liens importants avec d’autres IP d’IM2, en particulier
avec IM2.AP (Audio Processing), IM2.MPR (Multimodal Processing and Recognition)
et IM2.DMA (Database management and meeting analysis).
Les partenaires en sont l’EPFL (Laboratoires de Traitement
des Signaux, Prof. J.-Ph. Thiran, coordinateur de l’IP, Prof. P. Frossard),
l’IDIAP (Dr S. Marcel et Dr J.-M. Odobez), l’ETHZ (Laboratoire de Vision par
Ordinateur, Prof. Luc Van Gool), l’Université de Bern (Prof. H. Bunke) et
l’Université de Neuchâtel (Institut de Microtechnique, Prof. H. Hügli.
|