멀티기반 신호등 제어방법
홈페이지홈페이지 > 블로그 > 멀티기반 신호등 제어방법

멀티기반 신호등 제어방법

Jun 05, 2023

Scientific Reports 13권, 기사 번호: 9396(2023) 이 기사 인용

측정항목 세부정보

ITLC(지능형 신호등 제어) 알고리즘은 교통 혼잡을 완화하는 데 매우 효율적입니다. 최근에는 분산형 다중 에이전트 신호등 제어 알고리즘이 많이 제안되고 있다. 이들 연구는 주로 강화학습 방법과 조정 방법을 개선하는 데 중점을 두고 있다. 하지만 모든 상담원이 서로 조율하면서 소통해야 하기 때문에 소통 내용도 개선되어야 한다. 의사소통의 효율성을 보장하기 위해서는 두 가지 측면을 고려해야 한다. 첫째, 교통상황을 기술하는 방법을 설계해야 한다. 이 방법을 이용하면 교통상황을 간단하고 명확하게 기술할 수 있다. 둘째, 동기화를 고려해야 합니다. 교차로마다 주기 길이가 다르고 각 교통 신호 주기가 끝날 때 메시지 전송 이벤트가 발생하므로 모든 에이전트는 서로 다른 시간에 다른 에이전트의 메시지를 받게 됩니다. 따라서 상담원이 어떤 메시지가 최신 메시지이고 가장 가치 있는 메시지인지 결정하기가 어렵습니다. 통신 내용 외에도 교통 신호 타이밍에 사용되는 강화 학습 알고리즘도 개선되어야 합니다. 전통적인 강화학습 기반 ITLC 알고리즘에서는 보상 가치를 계산할 때 혼잡한 차량의 대기열 길이나 해당 차량의 대기 시간을 고려합니다. 그러나 둘 다 매우 중요합니다. 그래서 새로운 보상 계산 방법이 필요합니다. 이러한 모든 문제를 해결하기 위해 본 논문에서는 새로운 ITLC 알고리즘을 제안한다. 통신 효율성을 높이기 위해 이 알고리즘은 새로운 메시지 전송 및 처리 방법을 채택합니다. 또한, 보다 합리적인 방법으로 교통혼잡을 측정하기 위해 새로운 보상산정 방식을 제안하여 사용한다. 이 방법은 대기 시간과 대기열 길이를 모두 고려합니다.

ITLC(지능형 신호등 제어)는 교통 혼잡을 완화하는 좋은 방법입니다. ITLC 알고리즘은 교차로의 교통 상황을 감지하고 신호등의 주기 길이를 자동으로 조정해야 합니다. 강화학습 알고리즘1은 자동제어2,3에서 매우 잘 작동하기 때문에 최근에는 ITLC 기반의 강화학습 알고리즘이 많이 제안되고 있다. 이러한 알고리즘은 표 형식 방법4,5,6 및 근사 방법7,8,9을 포함하여 두 가지 범주로 분류될 수 있습니다. 근사 방법에서는 모든 상태-행동 쌍의 Q-값이 특정 모델에 의해 계산되어야 합니다. 상태가 주어지면 작업이 가장 높은 Q 값을 얻으면 에이전트에 의해 선택되어 외부 환경에서 수행됩니다. 일반적으로 신호등 제어기는 에이전트로 간주됩니다. 그들은 외부 환경으로부터 상태를 수집하고, 보상 가치를 계산하고, 행동을 선택하는 일을 담당합니다. 요즘에는 Q-값 계산 작업을 수행하기 위해 피드포워드 신경망 기반 모델7, 선형 모델10, 확률 모델11, 컨볼루션 신경망 기반 모델8, RAIM 모델12, 그래프 컨벌루션 네트워크 기반 모델9, FRAP 모델13,14, MetaLight 모델15 등. 딥러닝 모델16을 사용하여 Q-값을 계산하는 강화학습 알고리즘을 심층강화학습 알고리즘이라고 합니다. 심층 강화 학습 알고리즘은 성능이 매우 뛰어나 네트워크 비정상 트래픽 탐지17,18, 통신 및 네트워킹19 등을 포함한 많은 분야에 적용됩니다.

이상의 설명을 토대로 교통 신호 제어 알고리즘은 단일 에이전트 기반 알고리즘20,21과 다중 에이전트 기반 알고리즘22,23,24의 두 가지 유형으로 분류할 수 있다. 다중 에이전트 기반 알고리즘에서는 교통망의 모든 신호등 컨트롤러가 교통 혼잡에 대처하기 위해 협력해야 합니다. 다중 에이전트 기반 알고리즘은 중앙 집중식 알고리즘25,26,27과 분산 알고리즘28,29,30을 포함하여 두 가지 유형으로 분류될 수도 있습니다. 중앙 집중식 알고리즘에서는 실행기를 활용하여 모든 에이전트의 공동 작업을 학습합니다. 모든 에이전트는 중앙 실행자에 의해 제어되므로 중앙 집중식 알고리즘의 확장성은 기대만큼 좋지 않습니다. 분산형 알고리즘은 이 문제를 해결하는 최선의 선택입니다. 분산형 알고리즘에서는 모든 교통 신호 컨트롤러가 독립적인 에이전트로 처리되며 자체적으로 동작을 선택합니다. 요즘에는 여러 가지 분산 알고리즘이 제안됩니다. CGB-MATSC 알고리즘28은 클러스터 기반의 교통신호 제어 알고리즘이다. 이 알고리즘에서는 모든 에이전트가 서로 다른 클러스터로 클러스터링되고 각 클러스터는 실행기에 의해 제어됩니다. NAQL 알고리즘29은 모델을 최적화하기 위해 퍼지 논리를 사용하는 분산형 알고리즘입니다. MA2C 알고리즘30은 배우 평론 방식을 기반으로 한 다중 에이전트 기반의 교통 신호 제어 알고리즘입니다. Co-DQL 알고리즘31은 이중 Q-학습 방법을 기반으로 제안되었습니다. 이 알고리즘에는 이중 추정기가 사용됩니다. MPLight 알고리즘32은 수천 개의 신호등을 제어하기 위해 제안되었습니다. 강화학습 알고리즘과 교통이론을 기반으로 합니다. EMVLight 알고리즘33은 동적 라우팅과 신호등 제어를 동시에 수행할 수 있습니다. MARDDPG 알고리즘34은 심층 결정론적 정책 기울기 알고리즘을 기반으로 제안되었습니다. ATSC 알고리즘35은 네트워크 수준의 분산 적응형 신호 제어 알고리즘이며 이 알고리즘에는 심층 강화 학습이 사용됩니다. 위의 설명에서 이러한 모든 알고리즘은 주로 모델 효과와 조정 방법을 개선하는 데 중점을 두고 있음을 알 수 있습니다. 그러나 통신 세부 사항은 간과됩니다. 에이전트가 서로 조율을 하려고 하면 그들 사이에서 의사소통이 이루어지므로, 조율의 효율성을 보장할 수 있는 의사소통 방법이 제시되어야 한다. 첫째, 효과적인 교통상황 기술방법이 필요하다. 이 방법을 이용하면 교차로의 교통상황을 메시지로 간단하고 명확하게 표현할 수 있다. 이 메시지는 다른 상담원에게 전송됩니다. 둘째, 분산 알고리즘의 동기화가 더욱 개선되어야 합니다. 모든 신호등 컨트롤러는 각 주기가 끝날 때 다른 신호등 컨트롤러에게 메시지를 보내야 합니다. 그러나 신호등마다 주기 길이가 다르기 때문에 에이전트가 어떤 메시지가 최신 메시지이고 가장 가치 있는 메시지인지 판단하기가 쉽지 않습니다. 이러한 문제를 해결하기 위해 새로운 메시지 전송 및 처리 방법이 제안된다. 이 방법을 사용하면 교통 상황을 메시지로 간단하고 명확하게 설명할 수 있습니다. 동시에 제안된 방법은 데이터 구조를 사용하여 추가 처리를 위해 가장 가치 있는 최신 메시지를 기록합니다. 통신 내용 외에도 신호등 제어에 사용되는 강화학습 알고리즘도 개선되어야 한다. 기존 알고리즘에서는 보상 가치를 계산할 때 대기열 길이나 혼잡한 차량의 대기 시간을 고려합니다. 그러나 이 두 가지 요소는 모두 교통 혼잡을 판단하는 데 중요합니다. 따라서 본 논문에서는 이 두 가지 요소를 고려한 새로운 보상가치 계산 방법을 제안한다. 이에 본 논문의 기여는 다음과 같다.