Hauptseminar Mensch-Maschine-Kommunikation

Dozenten: Prof. Dr.-Ing. Gerhard Rigoll
Prof. Dr.-Ing. Hugo Fastl

Assistent:

Maximilian Rettinger, M.Sc.

 

Inhalt

Im Rahmen des Hauptseminars Mensch-Maschine-Kommunikation sollen die Studierenden am Beispiel eines fachspezifischen Themas lernen, Sachthemen anhand existierender Literatur zu erarbeiten und im Rahmen eines Vortrages mit anschließender Diskussion zu präsentieren.

Das Hauptseminar besteht daher aus drei Aufgabenteilen:

  • Vorbereitung: Literaturrecherche und selbstständiges Bearbeiten des Themas
  • Vortrag: 20 Minuten Redezeit mit anschließender Diskussion (ca. 10 Minuten)
  • Ausarbeitung: Eine Zusammenfassung (ca. ein bis zwei Seiten Text) und eine kommentierte Foliensammlung

Themenvorschläge WS 19/20

Deep Metric Learning for Unsupervised Person Re-Identification

Methods of person re-identification across multiple camera views usually rely on large quantities of labeled data from all cameras during training. Although in surveillance scenarios there is enough video material to evaluate, this material is usually not labeled. The effort to meaningfully label this data is very large and usually not feasible in practice. In this work we want to investigate unsupervised methods for cross view metric learning. In metric learning for person re-identification, a (pseudo)-distance is learned so that extracted features from different views of the same person are close within that distance. Yu et al. [1] proposed an unsupervised learning algorithm based on asymmetric distance learning. The aim of this seminar project is to understand and present the approach presented in [1]. It is also possible to discuss the deep learning based extension in [2]. 

In doing so you should explain the theoretical basics and the possible applications in practice. For a successful presentation of this topic, previous knowledge of (numerical) linear algebra, optimization and machine learning is an advantage. 

 

Ref.:

[1] Yu, Hong-Xing, Ancong Wu, and Wei-Shi Zheng. "Cross-view asymmetric metric learning for unsupervised person re-identification." Proceedings of the IEEE International Conference on Computer Vision. 2017. (Paper: http://openaccess.thecvf.com/content_ICCV_2017/papers/Yu_Cross-View_Asymmetric_Metric_ICCV_2017_paper.pdf, Code: https://github.com/KovenYu/CAMEL)

[2] Yu, Hong-Xing, Ancong Wu, and Wei-Shi Zheng. "Unsupervised person re-identification by deep asymmetric metric embedding." IEEE transactions on pattern analysis and machine intelligence (2018). (Paper: https://arxiv.org/pdf/1901.10177.pdf, Code: https://github.com/KovenYu/DECAMEL)

 

Betreuer:
Fabian Herzog

Cross-View Gait Recognition by Patch Alignment

Gait recognition for person re-identification in multiple camera tracking seems to be a promising method due to the uniqueness of the gait. However, there is great difficulty in meaningfully matching the gait of the same person taken from different camera perspectives. In this seminar project, the Coupled Patch Alignment algorithm from [1] should be presented. This algorithm projects the data from different cameras into a common space, in which the intra-class cross-view nearest neighbors lie together. The theoretical basics and the connection to Canonical Correlation Analysis are to be established.

Finally, it should be assessed how well this approach is suitable in practice.  For a successful presentation of this topic, previous knowledge of (numerical) linear algebra, optimization and machine learning is an advantage.

 

Ref.:
[1] Ben, Xianye, et al. "Coupled patch alignment for matching cross-view gaits." IEEE Transactions on Image Processing28.6 (2019): 3142-3157

 

Betreuer:
Fabian Herzog

Unsupervised Person Re-identification by Deep Learning Tracklet Association

Die meisten der existierenden Ansätze zur re-identification (re-id) verwenden manuell annotierte Kameradaten, um ein Modell supervised zu trainieren. Da es aktuell keinen ausreichend großen Datensatz gibt, macht dies einen praktischen Einsatz von re-id schwierig. In diesem Arbeiten [1, 2] wird ein Ansatz zum unsupervised re-id deep learning vorgestellt. Dieser ist in der Lage, die re-id Daten inkrementell zu finden und zu nutzen, um automatische Personen Tracklet-Daten zu generieren.

 

Ref.:

[1] Li, Minxian, Xiatian Zhu, and Shaogang Gong. "Unsupervised Tracklet Person Re-Identification." IEEE transactions on pattern analysis and machine intelligence (2019). https://arxiv.org/pdf/1903.00535.pdf

[2] Li, Minxian, Xiatian Zhu, and Shaogang Gong. "Unsupervised person re-identification by deep learning tracklet association." Proceedings of the European Conference on Computer Vision (ECCV). 2018.

 

Betreuer:
Torben Teepe

Improving Attention Based Sequence-to-Sequence Models for End-to-End English Conversational Speech Recognition

Spracherkennung gehört auch heute noch zu den anspruchsvollsten Herausforderungen im Bereich Machine Learning. Hierbei müssen lange Sequenzen von Merkmalsvektoren in kürzere diskrete Symbole wie z.B. Wörter oder Phoneme transformiert werden [1]. Der Abgleich zwischen Eingangs- und Ausgangssequenz erfolgt über einen Attention-Mechanismus. In [2] wird ein neuer Ansatz vorgestellt, der zum einen andere Merkmale ins Netzwerk gibt und zum anderen das eigentliche Training mit sequential Minimum Bayes Risk (sMBR) erweitert.

Im Hauptseminar soll der Ansatz von [2] vorgestellt werden und die Ergebnisse qualitativ sowie quantitativ beurteilen werden. Gute mathematische Vorkenntnisse sind hilfreich, aber nicht notwendig.

 

Ref.:
[1] CHOROWSKI, Jan, et al. End-to-end continuous speech recognition using attention-based recurrent nn: First results. arXiv preprint arXiv:1412.1602, 2014.
[2] WENG, Chao, et al. Improving Attention Based Sequence-to-Sequence Models for End-to-End English Conversational Speech Recognition. In: Interspeech. 2018. S. 761-765

 

Betreuer:
Tobias Watzel

A comparison of techniques for language model integration in encoder-decoder speech recognition

Spracherkennung gehört auch heute noch zu den anspruchsvollsten Herausforderungen im Bereich Machine Learning. Hierbei müssen lange Sequenzen von Merkmalsvektoren in kürzere diskrete Symbole wie z.B. Wörter oder Phoneme transformiert werden [1]. Der Abgleich zwischen Eingangs- und Ausgangssequenz erfolgt über einen Attention-Mechanismus. Häufig werden solche neuronalen Netzwerke mit externen Language Models verbunden, um eine Verbesserung zu erzielen. Dabei ist es entscheidend, wie das externe Language Model in die bestehende Architektur integriert wird. In [2] werden verschiedene Möglichkeiten der Integration getestet und evaluiert.

Im Hauptseminar sollen die verschiedenen Ansätze von [2] vorgestellt werden und die Ergebnisse qualitativ sowie quantitativ beurteilen werden. Gute mathematische Vorkenntnisse sind hilfreich, aber nicht notwendig.

 

Ref.:

[1] CHOROWSKI, Jan, et al. End-to-end continuous speech recognition using attention-based recurrent nn: First results. arXiv preprint arXiv:1412.1602, 2014.
[2] TOSHNIWAL, Shubham, et al. A comparison of techniques for language model integration in encoder-decoder speech recognition. In: 2018 IEEE Spoken Language Technology Workshop (SLT). IEEE, 2018. S. 369-375.

 

Betreuer:
Tobias Watzel

Behavioural Biometrics in VR

Menschen können anhand verschiedener biometrischer Merkmale wie zum Beispiel ihrer Unterschrift oder der Art zu gehen identifiziert werden. In dieser Publikation [1] werden Körperbewegungen als Verhaltensbiometrie für die virtuelle Realität untersucht. Darüber hinaus wird in einer umfassenden Analyse vorgestellt, inwiefern die Bewegungen mit ihren Beziehungen nützlich sind, um mithilfe bestimmter Klassifizierungsmethoden Benutzer zu identifizieren.

Das Ziel dieser Arbeit ist es, diese Veröffentlichung vorzustellen und neue Forschungsansätze zu generieren. Dabei soll vor allem auf die Umsetzung, Problematik und Ergebnisse eingegangen werden.

 

Ref.:

[1] Ken Pfeuffer, Matthias J. Geiger, Sarah Prange, Lukas Mecke, Daniel Buschek, and Florian Alt. 2019. Behavioural Biometrics in VR: Identifying People from Body Motion and Relations in Virtual Reality. In Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems (CHI '19). ACM, New York, NY, USA, Paper 110, 12 pages. DOI: https://doi.org/10.1145/3290605.3300340

 

Betreuer:
Maximilian Rettinger

Was ist das Information Bottleneck?

Tiefe neurale Netze sind eine Black Box, viele Weiterentwicklungen wurden oft durch Versuch-und-Irrtum erreicht. Das "Information Bottleneck"  liefert nun durch eine informationstheoretische Betrachtungsweise eine Methode, neurale Netze zu verstehen und zu verbessern. Diese Theorie konnte im Variational Autoencoder [1] von Google mit verbesserten Ergebnissen angewandt werden. Eine weitere Publikation [2] zeigte jedoch Schwächen dieses Autoencoders auf.

Ziel des Themas ist es, den theoretischen Hintergrund (Information Bottleneck) und angewandte Techniken (Reparametrization Trick) zu erläutern, sowie dessen Schwächen und Stärken anhand von Ergebnissen in [2] zu diskutieren.

 

Ref.:

[1] VAE: arxiv.org/pdf/1612.00410.pdf
[2] Learning Representations: arxiv.org/abs/1802.09766
 

Betreuer:
Ludwig Kürzinger

Dynamic Convolutions

Tiefe neurale Netze zur Transformation von Sequenzen in andere Sequenzen haben in den letzten Jahren große Fortschritte gemacht. Diese werden im Bereich Spracherkennung, Textgenerierung, sowie automatischen Übersetzern angewandt. Weiterentwicklungen gibt es vor allem im Bereich der Attention-basierten Netzen, zum Beispiel die von Google veröffentlichte self-Attention [1]. Facebook stellte 2019 eine verbesserte Variante dieses Netzes vor, die mithilfe von dynamischen Faltungen [2] vergleichbare Ergebnisse liefern kann, bei vergleichsweise geringerem Rechenaufwand.

Ziel des Themas ist es, dynamische Faltungen anhand mathematischer Notation und Netzstruktur vorzustellen und diese mit auf self-attention basierten Netzen zu vergleichen.

 

Ref.:

[1] Attention is all you need: arxiv.org/abs/1706.03762
[2] Pay Less Attention: arxiv.org/abs/1901.10430
 

Betreuer:
Ludwig Kürzinger

Self-Attention-basierte Spracherkennung

Ende-zu-Ende-Sequenz-zu-Sequenz-Modelle für die Spracherkennung ein erhebliches Interesse an der Forschungsgemeinschaft erregt. Die Architektur dieser neuralen Netze ist meist zweigeteilt in einen Encoder und einen Decoder. In bisherigen Architekturen wurde in dem Encoder überwiegende LSTM-Netze verwendet. Mithilfe von neuartigen, generischen Transformer-Blöcken und der darin verwendeten Self-Attention [1,2] scheint es jedoch möglich, deren bisherige Leistung noch zu verbessern, wie in "Very Deep Self-Attention Networks for End-to-End Speech Recognition" [3] gezeigt.

Ziel dieses Hauptseminar-Themas ist es, die Besonderheiten der neuen Methode herauszustellen und zu zeigen, wie Self-Attention Netze für Spracherkennung angewandt werden.

 

Ref.:
[1] Attention is all you need: arxiv.org/abs/1706.03762
[2] Transformers from Scratch (Mit Erklärung über Self-Attention) www.peterbloem.nl/blog/transformers
[3] https://arxiv.org/pdf/1904.13377.pdf

 

Betreuer:
Ludwig Kürzinger

Enhanced Deep Residual Networks for Single Image Super-Resolution

Super Resolution – Die Rekonstruierung eines hochaufgelösten Bildes aus einem niedrig aufgelösten Bild [1]. Hierbei erzielen die tiefen neuronalen Netze, welche am Ende ein Differenzbild auf das Eingangsbild addieren State-of-the-Art Performanz. Die Autoren des Papers versuchen zum einen die unnötigen Module innerhalb solcher tiefen Netze zu entfernen, zum anderen das Netz sinnvoll zu erweitern und dadurch die Performanz zu steigern. Außerdem wird ein tiefes neuronales Netz vorgestellt, welches unterschiedliche Auflösungen verarbeiten kann, ein bisher noch nicht vollständig gelöstes Problem im Bereich der Super-Resolution.

 

Ref.:
[1] Bee Lim, Sanghyun Son, Heewon Kim, Seungjun Nah, Kyoung Mu Lee, https://arxiv.org/pdf/1707.02921.pdf

 

Betreuer:
Martin Knoche

MOTS: Multi-Object Tracking and Segmentation

Deep learning techniques now demonstrate impressive performance in object detection as well as image and instance segmentation. In this paper, the authors extend the well-known multi-object tracking task to instance segmentation tracking, called “Multi-Object Tracking and Segmentation (MOTS)” task [1]. While there are many methods for bounding box tracking in the literature, MOTS requires combining temporal and mask cues for success. In this work, Track R-CNN is proposed as a baseline method which addresses all aspects of the MOTS task. Track R-CNN extends Mask R-CNN [2] with 3D convolutions to incorporate temporal information by an association head which is used to link object identities over time.

 

Ref.:

[1] Paul Voigtlaender, et al. "MOTS: Multi-Object Tracking and Segmentation." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

[2] He, Kaiming, et al. "Mask R-CNN." Proceedings of the IEEE international conference on computer vision. 2017.

 

Betreuerin:
Maryam Babaee

Gait Recognition via Disentangled Representation Learning

Gait, the walking pattern of individuals, is one of the most important biometrics modalities. Most of the existing gait recognition methods take silhouettes or articulated body models as the gait features. These methods suffer from degraded recognition performance when handling confounding variables, such as clothing, carrying objects and view angle. To remedy this issue, a novel Auto-Encoder framework is proposed to explicitly disentangle pose and appearance features from RGB imagery and the LSTM-based integration of pose features over time produces the gait feature. With extensive experiments on various datasets including FVG (frontal view gait) dataset, this method demonstrates superior performance to the state of the arts and shows the ability of feature disentanglement qualitatively.

 

Ref.:

[1] Zhang, Ziyuan, et al. "Gait Recognition via Disentangled Representation Learning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

 

Betreuerin:
Maryam Babaee

Dynamic Feature Learning for Partial Face Recognition

In the field of face recognition, a face is fed into a convolutional neural network in order to obtain a high-dimensional feature vector embedding discriminative identity features. By using metrics (e.g. Euclidean distance) a similarity score between two feature vectors can be computed, which allows a prediction whether two faces belong to the same identity.

While face recognition for frontal faces is already very reliable, occlusion still remains a challenging task. Conventional face recognition architectures rely on fixed image sizes. However, as occluded parts of the face are cut off the resulting input image has arbitrary size. This not only has implications on the architecture but also on the loss function.

Goal of this work is to present the authors’ approach emphasizing on how they achieve to compare faces with arbitrary image sizes. This topic is also available in German.

 

Ref.:

Lingxiao He, Haiqing Li, Qi Zhang, and Zhenan Sun: “Dynamic Feature Learning for Partial Face Recognition” in The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.

 

Betreuer:
Stefan Hörmann

Stochastic Adaptive Neural Architecture Search for Keyword Spotting

The problem of keyword spotting in a real-time audio stream is mainly solved by applying a neural network over successive sliding windows. Due to the difficulty of the task, baseline models are usually large, resulting in a high computational cost and energy consumption level. In ICASSP 2019, a new method called SANAS (Stochastic

Adaptive Neural Architecture Search) was proposed. It is able to adapt the architecture of the neural network on-the-fly at inference time such that small architectures will be used when the stream is easy to process and bigger networks will be used when the task becomes more difficult.

How can this adaptive model be learned and optimized? And to which extent does it outperform classical approaches where the network architecture is static?

 

Ref.:
Tom Véniat et al., Stochastic Adaptive Neural Architecture Search for Keyword Spotting, 2019.

 

Betreuerin:
Lujun Li

Learning Transferable Architectures for Scalable Image Recognition

Developing neural network for some tasks, e.g. image classification models, often requires significant architecture engineering. Google proposed a method to learn the model architectures directly on the dataset of interest. As this approach is expensive when the dataset is large, they propose to search for an architectural building block on a small dataset and then transfer the block to a larger dataset.

The key contribution of this work is the design of a new search space (which they call the “NASNet search space”) which enables transferability [1]. And they also introduce a new regularization technique called ScheduledDropPath that signif-icantly improves generalization in the NASNet models. Therefore, the first goal for students is to explain how they work. Secondly, a comparison on accuracy rate and computational cost is also required.

 

Ref.:
[1] Barret Zoph et al., Learning Transferable Architectures for Scalable Image Recognition, 2017.

 

Betreuerin:
Lujun Li

Anmeldung

Die Anmeldung zum Hauptseminar WS 19/20 läuft vom 15.09.2019 bis zum 13.10.2019 über TUMOnline. Das Hauptseminar ist auf neun Teilnehmer beschränkt. Falls sich mehr Personen anmelden kommen sie zunächst auf die Warteliste.

Anmeldeschluss ist am 13.10.2019. Am 14.10.2019 werden die Teilnehmer sowie die möglichen Nachrücker von uns informiert. Die Themenvergabe findet am 15.10.2019 um 15:00 Uhr in N0116 statt und ist Pflichttermin.

 Alle Personen, die eine E-Mail von uns erhalten, werden gebeten, zur Vorbesprechung und Themenvergabe am Dienstag, den 15. Oktober 2019, um 15.00 Uhr in den Seminarraum N0116 zu kommen. Falls Personen mit einem Fixplatz nicht erscheinen oder sich abmelden rücken Personen aus der Warteliste nach. Gewöhnlich erscheinen einige Kandidaten nicht, daher empfehlen wir dringend auch den Nachrückern zur Vorbesprechung und Themenvergabe zu erscheinen!

Ort und Zeit

Das Hauptseminar besteht aus einem Themenvergabetermin, einem Demovortrag und drei studentischen Vortragsterminen.

Alle Termine finden während des Semesters, dienstags 15:00 - 16:45 Uhr am Lehrstuhl für Mensch-Maschine-Kommunikation, Raum N0116 (Lehrstuhlbibliothek) statt.
Zu den Terminen besteht Anwesenheitspflicht!

  • Themenvergabe: Dienstag, 15.10.2019, 15.00 Uhr
     Am Themenvergabetermin können sich die Teilnehmer des Hauptseminars und eventuelle Nachrücker in der Reihenfolge der Teilnehmerliste eines der Themen von der Themenliste zur Bearbeitung aussuchen. Eine Anwesenheit ist daher unbedingt erforderlich. Bei Nichtanwesenheit wird der Student aus der Teilnehmerliste gestrichen und ein Nachrücker nimmt seinen Platz ein.
  • Einführungsveranstaltung: Dienstag, 22.10.2019, 15.00 - 16.30 Uhr
  • Vortragstermin I:   Dienstag, 19.11.2019, 14.00 - 15.30 Uhr, Raum N0116
  • Vortragstermin II:  Dienstag, 26.11.2019, 14.00 - 15.30 Uhr, Raum N0116
  • Vortragstermin III: Dienstag, 03.12.2019, 14.00 - 15.30 Uhr, Raum N0116

Der Vortrag und die schriftliche Ausarbeitung

Der Vortrag hat eine Länge von 20 Minuten mit einer anschließenden Diskussion (ca. zehn Minuten). Auf das Einhalten der Vortragszeit ist zu achten! Im Rahmen des Vortrags soll für ein fachkundiges Publikum das bearbeitete Thema erklärt werden.

 Eine Einführung in das wissenschaftliche Vortragen, bzw. das wissenschaftliche Präsentieren im Allgemeinen und das Vortragen im Hauptseminar im Besonderen findet sich im Umdruck zu: Marc Al-Hames, Ein Vortrag über das wissenschaftliche Vortragen

 Einige allgemeine Hinweise zu Vorträgen finden sich z.B.:

Die Ausarbeitung besteht aus einer kommentierten Foliensammlung (z. B. in Powerpoint: Ansicht / Notizenseite) und einer Zusammenfassung von etwa ein bis zwei Seiten als formatierter Fließtext. Sie ist bis spätestens eine Woche nach dem letzten Vortrag in elektronischer Form (Quelldateien und PDF) beim jeweiligen Betreuer abzugeben.

 Es werden unter anderem die folgenden Punkte bewertet:

  • Bearbeitung des Themas: Verständnis und Überblick, Selbständigkeit, Literaturrecherche, Ergebnisse.
  • Qualität des Vortrags: Gliederung, Präzision und Verständlichkeit des Inhalts (akustisch und semantisch), Vortragsstil, Foliengestaltung, Einhaltung der vorgegebenen Redezeit (ca. +/- 1 min), Diskussion.
  • Qualität der Ausarbeitung: Inhalt (Verständlichkeit, Nachvollziehbarkeit), Erscheinungsbild (Formatierung, Rechtschreibung), Quellenangaben.

Kontakt

hauptseminar@mmk.ei.tum.de