디지털 라이프 電子的生活 My Digital Life/잡다한 기술 관련 것들

InfiniBand의 RDMA 트래픽 모니터링하기

미친도사 2022. 6. 30. 17:29

InfiniBand(이하 IB)로 네트워크를 구성하는 경우, 대부분 TCP나 UDP가 아닌 RDMA로 트래픽이 일어난다.

이런 경우, 일반적인 네트워크 모니터링 툴에서 트래픽이 보이지 않는다.

쉽게 시스템 자원의 상태를 모니터링 할 수 있는 nmon. 여기서는 RDMA 트래픽은 안 보인다.

심지어 IB 전용 포트 모니터링 툴인 perfquery(QUERY INFINIBAND PORT COUNTERS ON A SINGLE PORT)에서도 이 RDMA 트래픽은 보이지 않는다.

pervquery

이것 때문에 Lustre filesystem(이하 러스터)를 IB 기반으로 구성해서 OpenHPC와 연동해 놓고도 트래픽이 정상인지 확인할 길이 없었다. 이에 지인에게 문의하여 답을 찾았다. 의외로 이 부분에 대해 검색이 잘 안 된다.

EPEL 패키지 중에 collectl 이란 명령어가 IB 모니터링을 지원하는 툴이다. 설치 방법은 EPEL repository를 활성화한 상태에서 yum install collectl 을 수행하면 된다. 설치 후에 트래픽이 일어나는 위치를 보고 싶은 시스템에서 collectl -sx를 실행하면 끝~

collectl -sx 실행 화면

이 툴에 대한 공식 페이지는 아래와 같다.

http://collectl.sourceforge.net/Infiniband.html

 

collectl - Infiniband

Infiniband Monitoring Collectl V3.7.3 now supports monitoring infiniband by looking at 64 bit counters, when the HCA supports them and virtually all of them do. This means several things: collectl no longer has to read/clear the counters to read them and s

collectl.sourceforge.net

 

반응형