Board

Lab board

[랩 세미나] 여름방학 세미나 진행 상황

페이지 정보

profile_image

작성자 최고관리자

댓글 0건 조회 1,323회 작성일 2021-08-11 00:17

본문

[ 조상재 ]


- "Generalized BOC modulations for GNSS"


본 논문에서는 다른 GNSS 신호에 대한 간섭의 영향과 가우시안 노이즈 및 다중 경로 에러를 효과적으로 줄일 수 있는 Generalized Binary Offset Carrier(GBOC) 방식을 제시했다. GBOC신호 생성 함수의 매개변수를 적절하게 설정하면 매우 첨예한 첫번째 피크와 매우 작은 주변 피크 레벨을 갖는 ACF output을 출력하게 되어  GNSS 수신기의 측위 성능을 높이는 것을 확인했다. 위와 같은 다수의 장점으로 인해 제안된 GBOC 변조 방식은 미래 GNSS 신호기법의 한 후보로 제시될 수 있다.


Reference: Characterization and performance analysis of generalized BOC modulations for GNSS, Navigation, 2019, Fernando D. Nunes et al.


- "Next-Generation GNSS Signal Design"


In this chapter, it will explain a variety of typical spreading modulation techniques. Some have already been used in existing systems, and have received widespread attention in recent years, while others are less well-known. However, considering that in the next-generation GNSS implementations, new requirements and new constraints will constantly emerge and new modulation methods will be needed, this chapter is not meant to be regarded as a review of the development of navigation signal modulation technology, or an interpretation of the signal formats being used by several major satellite navigation systems. Instead, we regard the spreading modulations used in satellite navigation signals as general techniques and focus our discussion on the principles of these modulation techniques and the design ideas behind their generation processes. - BPSK, BOC, BCS, TMBOC, QMBOC, AltBOC, MSK Modulation


Reference: Spreading Modulation Techniques in Satellite Navigation Chap4


[ Aswin Nahrendra ]


- "MBPO(Model-based Policy Optimization) & Meta-world"


MBPO - Due to the bias of model-generated data, designing effective model-based reinforcement learning is difficult. This paper proposed formulating and analyzing a model-based reinforcement learning algorithm with a guarantee of monotonic improvement at each step. This method cannot deal with unexpected situations or environment changes and it is merely just an improved version of the existing off-policy reinforcement learning. However, this method is meaningful that is sample-efficient. 


Meta-reinforcement learning algorithms have advantages in enabling agents to learn new skills much more quickly, using prior experience to learn how to learn. Meta-world is an open-source simulated benchmark for meta RL and multi-task RL consisting of 50 distinct tasks.


Reference: When to Trust Your Model: Model-Based Policy Optimization, NeurIPS, 2019, Michael Janner et al. / Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning, CoRL, 2019, Tianhe Yu et al.


- "MAML(Model-Agnostic Meta-Learning) & GrBAL(Gradient Based Adaptative Learner)"

The goal of meta-learning is to train a model on varying tasks, so it can solve new tasks using only a small number of training samples. MAML uses a small amount of training data from a new task and then produce good generalization performance. However, this method only works for tasks with narrow distribution and requires large meta-training data.

Similary, GrBAL is a meta-learning based method that makes agent adapt to new tasks rapidly only with few data points. Instead of meta-training the policy, this method meta-train a dynamics model of the world using supervised learning, which works better than meta-training a policy directly. This method still using model-predictive control(MPC), not policy, but is is observed that GrBAL is works well because it is using an adapted dynamics model


Reference: Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks, ICML, 2017, Chelsea Finn / Adaptive Gradient-Based Meta-Learning Methods, NeurIPS, 2019, Mikhail Khodak


- "PEARL(Probabilistic Embeddings for Actor-Critic Reinforcement Learning)"


Meta RL could be particularly challenging because the agent has to not only adapt to the new incoming data but also find an efficient way to explore the new environment. Also, current meta-RL algorithms rely heavily on on-policy experience, which limits sample efficiency. However, PEARL is the method that can be used for off-policy RL by learning a probabilistic latent context. This method can adapt quickly to unseen tasks and can be applied on off-policy RL algorithms


Reference: Probabilistic Embeddings for Actor-Critic Reinforcement Learning, ICML, 2019, Kate Rakelly et al.


- "MIER(Model Identification and Experience Relabeling)"

Adaptation to unseen environments has been an interesting research focus in the reinforcement learning research. Conventional RL algorithms are only training a policy for a specific task and unable to adapt to new tasks. In this paper, a model identification scheme is proposed to leverage the ability of model-based RL to adapt to new task by quickly adapting the model network that is conditioned by a task context variable. Another scheme that is proposed here is the experience relabeling that is used to utilize previous experiences from the meta-training replay buffer to retrain the model for new task. 

Therefore, data efficiency is leveraged because only few real-world interaction is required to retrain the model. 


Reference: Meta-Reinforcement Learning Robust to Distributional Shift via Model Identification and Experience Relabeling, arXiv, 2020, Russell Mendonca et al.


- "FAMLE(Fast Adaptation through Meta-Learning Embeddings)"


In robotics application, the robot's uncertainty often occurs due to sensor errors or physical malfunction. In this paper, a Fast Adaptation with Meta-Learning Embeddings (FAMLE) scheme is introduced to deal with this problem. The idea is mainly based on MAML with model-based reinforcement learning, but, instead of only meta-learn the model, FAMLE also meta-learn a situation embeddings that acts as a task ID and used to condition the model. This situation embeddings iwill be adapted in the testing time for unseen situations, and therefore, significantly increses the adaptation process compared to MAML.


Reference: Fast Online Adaptation in Robotics through Meta-Learning Embeddings of Simulated Priors, arXiv, 2020, Rituraj Kaushik et al.


- BADGR: An Autonomous Self-Supervised Learning-Based Navigation System


Mobile robot navigation is usually regarded only as a geometric problem. Utilizing visual sensors such as LiDAR and camera and also inertial sensors such as IMU to avoid obstacles. However, in practice, there are some kind of obstacles that is actually not a blocking obstacle, e.g., tall grasses. This paper introduced a self-supervised learning framework to enable a mobile robot to navigate through urban and off-road environment by using only a single monocular camera. The images from monocular camera are self-labeled using information from LiDAR and IMU sensors and used to train a model network. This model network is used to  predict future events from the given camera image and actions. Therefore, giving good information about the future situations the mobile robot could face (collision, bumpy roads, etc.). With tens of hours of training data, BADGR can also generalize well to navigate through unseen environments.


Reference: Badgr: An autonomous self-supervised learning-based navigation system, arXiv, 2020, Kahn et al.


[ 정승환 ]


- "End-To-End Driving" 

최근 자율주행 자동차의 학습 및 운용 방식에는 크게 두가지 접근법이 있다. 하나는 자율주행에 필요로 하는 기능들을 사람이 정의한 Perception, Localization, Planning, Control Module로 구성된 Modular Approach이며 또 하나는, 센서 데이터를 사용자의 목적에 맞게 Module화를 진행하는 것 없이 바로 인공지능의 입력 값으로 사용하는 End-to-End 방식의 단일 학습 방법이다.

흔히 사용하되는 Modular Approach은 사람이 정의한 시나리오대로 작동하므로 각 모듈간의 상호의 존성 파악이 쉽고 예측가능한 범위내에서 작동한다. 또한, 사고발생시 신뢰성 높은 사고 경위를 파악할 수 있는 장점이 있다. 하지만, 각 Module 간의 상호 의존성을 파악하는 것은 상당히 복잡하며, 정의 하였다 하더라도 Module의 구성이 최적화 되지 않아 았을 수 있다. Computation Cost 측면에서도 각 모듈별로 시스템을 구성해야함으로 비싼 Computation Cost를 가지게 된다. End-To-End 방식은 여러분야에서 성공적으로 적용 되고 있다. 특히, Atari, Starcraft, Chess and Go에서는 이미 사람을 뛰어넘는 퍼포먼스를 보여주고 있다. End-To-End Driving Approach 또한 데이터를 충분히 모을 수 있다는 가정하에  사람이 정의한 Modular 방식을 뛰어넘는 성능을 보여줄 것이라 예상되고있다.


 이번 세미나에서는 Deep Neural Network를 통한 End-To-End Driving에대한 발전 과정에대한 소개를 시작으로 End-To-End Driving System Design, 해결해야할 문제점들에대해 다루고 강화학습의 적용방안에 대해 소개해보고자 한다.

Reference:1. Pomerleau, Dean A. "ALVINN: An Autonomous Land Vehicle in a Neural Network. 1989." URL http://repository. cmu. edu/compsci (2019).2. Ross, St?phane, Geoffrey Gordon, and Drew Bagnell. "A reduction of imitation learning and structured prediction to no-regret online learning." Proceedings of the fourteenth international conference on artificial intelligence and statistics. 2011.

3. Muller, Urs, et al. "Off-road obstacle avoidance through end-to-end learning." Advances in neural information processing systems. 2006.4. Bojarski, Mariusz, et al. "End to end learning for self-driving cars." arXiv preprint arXiv:1604.07316 (2016).5. Cheung, Ernest, et al. "STD-PD: generating synthetic training data for pedestrian detection in unannotated videos." arXiv preprint arXiv:1707.09100 (2017).

6. Codevilla, Felipe, et al. "End-to-end driving via conditional imitation learning." 2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018.7. Hecker, Simon, Dengxin Dai, and Luc Van Gool. "End-to-end learning of driving models with surround-view cameras and route planners." Proceedings of the european conference on computer vision (eccv). 2018.8. Sobh, Ibrahim, et al. "End-to-end multi-modal sensors fusion system for urban automated driving." (2018).9. Bewley, Alex, et al. "Learning to drive from simulation without real world labels." 2019 International Conference on Robotics and Automation (ICRA). IEEE, 2019.

10. Zeng, Wenyuan, et al. "End-to-end interpretable neural motion planner." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.11. Chen, Jianyu, Shengbo Eben Li, and Masayoshi Tomizuka. "Interpretable end-to-end urban autonomous driving with latent deep reinforcement learning." arXiv preprint arXiv:2001.08726 (2020).


- "Representation Learning" 

최근 Supervised Learning기반의 Deep Learning 기술들은 방대한 양의 Data를 기반으로 다양 한 Domain에서 우수한 퍼포먼스를 보여주고 있다. 이 방대한 데이터를 사용하기 위해서는 각 Sample 마다 Labeling을 진행해 주어야 해 많은 시간과 비용이 요구되어지고 있다. 실제로 학계에서 주로 사용되는 IMAGENET DATASET의 경우에도 약 120 만장으로 구성되어 있고 사람이 직접 Labeling을 진행하였다. 하지만, 현실에서는 Label이 되지 않은 데이터들이 더 많이 존재하기 때문에 이번 세미나 에서는 Label을 통해 학습하는 Supervised Learning의 방식이 아닌 데이터 간의 Representation을 자가 학습할 수 있는 Self Supervised Learning에 대한 방법론 및 대표적인 논논문들을 살펴보고자 한다.

 

- Self-Supervised Learning : Self-supervised Learning은 입력 값 만을 사용하여 Deep Neural Network가 Pretext Task를 수행하면서 Image의 Visual Features을 잘 추출 할 수 있도록 학습하는 방법론을 얘기한다.

Reference:1. Dosovitskiy, Alexey, et al. "Discriminative unsupervised feature learning with exemplar convolutional neural networks." IEEE transactions on pattern analysis and machine intelligence 38.9 (2015): 1734-1747.2. Doersch, Carl, Abhinav Gupta, and Alexei A. Efros. "Unsupervised visual representation learning by context prediction." Proceedings of the IEEE international conference on computer vision. 2015.3. Noroozi, Mehdi, and Paolo Favaro. "Unsupervised learning of visual representations by solving jigsaw puzzles." European Conference on Computer Vision. Springer, Cham, 2016.4. Gidaris, Spyros, Praveer Singh, and Nikos Komodakis. "Unsupervised representation learning by predicting image rotations." arXiv preprint arXiv:1803.07728 (2018).5. Chen, Ting, et al. "A simple framework for contrastive learning of visual representations." arXiv preprint arXiv:2002.05709 (2020).6. Grill, Jean-Bastien, et al. "Bootstrap your own latent: A new approach to self-supervised learning." arXiv preprint arXiv:2006.07733 (2020).


- "VAE(Variational Autoencoder) & beta-VAE" 현재 대부분의 인공지능에서 사용되는 데이터는 이미지의 Pixel Size처럼 High Dimension으로 표현되고있다. 이를 통해 Machine Learning 문제를 풀면 학습 또한 느릴 뿐만 아니라 좋은 성능을 가지지 못할 것이다. 하지만, High Dimension 데이터를 Low Dimension으로 표현하는 manifold가 존재하고 이 Low Dimension의 앞축된 데이터가 충분히 원본 데이터를 잘 표현할 수 있다면, 우리는 더 많은 문제들을 쉽게접근하고 해결할 수 있을것이다. (Manifold Hypothesis).

 이번 세미나에서는 앞서 언급한 Manifold Hypothesis를 기반으로 복잡한 입력 값을 다루기 쉬운 저차원 공간으로 낮추기 위하여 "사후확률 p(zx)을 다루기 쉬운 확률 분포인 q(z)로 근사하는 Variational AutoEncoder 기법"을 수학적으로 증명하고 분석해보면서 강화학습 알고리즘 설계 방향에 대해 설명하고, Variational AutoEncoder을 통하여 강화학습에서의 Agent가 어떻게 하면 Optimal Behavior를 학습할 수 있는지를 다뤄보고자 한다.

Reference:1. Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes." arXiv preprint arXiv:1312.6114 (2013).2. Higgins, Irina, et al. "beta-vae: Learning basic visual concepts with a constrained variational framework." (2016).3. Haarnoja, Tuomas, et al. "Reinforcement learning with deep energy-based policies." arXiv preprint arXiv:1702.08165 (2017).4. Chen, Ricky TQ, et al. "Isolating sources of disentanglement in variational autoencoders." Advances in Neural Information Processing Systems. 2018.5. CS 2285 : Deep Reinforcement Learning in Berkeley


- "Offline Reinforcement Learning" 최근 Supervised Learning기반의 Deep Learning 기술들은 방대한 양의 Data를 기반으로 다양 한 Domain에서 우수한 퍼포먼스를 보여주고 있다. 최신 인공지능 기술들은 방대한 양의 저장된 데이터를 통한 Offline Learning 기반 학습방식으로 의료, 자율주행, 로봇 등 다양한 Domain에서 우수한 Performance를 보여주고 있다. 전통적인 강화학습 기술들은 환경과 매 순간마다 Interaction을 진행하여 얻은 경험들을 통하여 학습하는 Online Learning 기반으로 발전해왔고 사람의 퍼포먼스를 뛰어넘는 결과들을 보여주고있다. 하지만, 이러한 Online Learning 방식의 강화학습은 때로는 실제 환경에서 학습시키기에는 상당한 시간비용이 들게되고 한번 실험하는데 위험이 커 여러번 진행하기 힘든경우에는 한계점을보이고 있다.

 이번 세미나에서는 전통적인 강화학습방식이 왜 저장된 데이터를 사용하는 Offline Learning으로 학습이 힘든지, 그중에서도 Data distribution 측면으로 발표를 진행하고, 이를 극복하기 위한 방법인 Importance sampling, Policy constraint, conservative q-learning 기법을 소개한다.

Reference : Conservative Q-Learning for Offline Reinforcement Learning. arXiv preprint arXiv:2006.04779, 2020, Kumar, Aviral, et al.Offline reinforcement learning: Tutorial, review, and perspectives on open problems. arXiv preprint arXiv:2005.01643, 2020 ,Levine, Sergey, et al.


[ 백동희 ]


- "Sensor Fusion Overview of Camera, LiDAR and RADAR in Autonomous Vehicle"


자율주행 자동차의 인지 기능(객체 인식, 분류 및 객체까지의 거리 감지)에 있어서 핵심적인 기능을 하는 3가지 센서: 카메라, 라이다, 레이더가 있다. 카메라와 라이다의 경우, 높은 해상도를 이용하여 객체 및 객체까지의 거리를 인식하는 네트워크가 꾸준히 발전해오고 있다(EfficientDet, PointNet 등). 자율주행 자동차에 있어서 인지 기능은 안전과 직결되므로 어떤 상황에서든 강건하고 정확하게 동작하는 것을 필요로 한다. 하지만 카메라나 라이다를 단독으로 사용하는 경우, 비가 오거나 눈이 오는 궂은 날씨 환경에서는 객체 인식 네트워크의 성능이 큰 폭으로 떨어진다. 반대로 레이더는 우천 및 야간 환경에 대해서 강건하게 동작하지만 낮은 해상도를 가지고 있다. 따라서 최근에는 강건한 객체 인식을 위하여 카메라, 라이다 및 레이더의 센서 융합을 통해서 네트워크를 설계하는 연구가 빠르게 진행되고 있다. 이번 세미나를 통해, 최근 자율주행 자동차에서 센서 융합 네트워크를 설계 방식 및 효과를 소개하고, 발전 방향을 살펴보고자 한다.


Reference: Multi-sensor Fusion in Automated Driving: A Survey, IEEE Access, 2019, Zhangjing Wang et al.

댓글목록

등록된 댓글이 없습니다.