CPU 병렬풀이 간혹 시작하지 않아요.

'Processes' 프로파일을 사용하여 병렬 풀(parpool)을 시작하는 중...
크래시 덤프 파일이 들어 있기 때문에 ID가 1인 작업이 보존됩니다.
'delete(myCluster.Jobs)'를 호출하여, 프로파일 Processes(으)로 생성된 모든 작업을 제거할 수 있습니다. 'myCluster'를 생성하려면 'myCluster = parcluster('Processes')'을(를) 사용하십시오.
'Processes' 프로파일을 사용하는 병렬 풀이 종료 중입니다.
다음 사용 중 오류가 발생함: parpool (133번 라인)
다음 오류로 인해 병렬 풀을 시작하지 못했습니다. 자세한 내용을 보려면 클러스터 프로파일 관리자에서 프로파일
'Processes'의 유효성을 검사하십시오.
오류 발생: Real_OMF_NDL_for_loop_Di_final_TEST_begin_NMF_Dvis3robust (11번 라인)
parpool(8);
원인:
다음 사용 중 오류가 발생함: parallel.internal.pool.AbstractInteractiveClient>iThrowWithCause (256번
라인)
대화형 방식 세션을 초기화하지 못했습니다.
다음 사용 중 오류가 발생함: parallel.internal.pool.JobStateChecker>iThrowIfBadParallelJobStatus
(93번 라인)
The parallel pool job failed with no message.
경고: 현재 병렬 풀에서 코드를 실행하는 중 1개의 워커가 예기치 않게 종료되었습니다. spmd 블록이 실행되지 않은 경우
MATLAB이 풀의 나머지 워커에서 다시 코드 실행을 시도할 수 있습니다. 워커가 예기치 않게 종료된 원인을 알아보려면 크래시
덤프 파일을 보십시오.
>> myCluster = parcluster('Processes')
myCluster =
Local Cluster
속성:
Profile: Processes
Modified: false
Host: desktop-ld4ftts
NumWorkers: 8
NumThreads: 1
JobStorageLocation: C:\Users\user\AppData\Roaming\MathWorks\MATLAB\local_cluster_jobs\R2024a
RequiresOnlineLicensing: false
PreferredPoolNumWorkers: Inf
연결된 작업:
Number Pending: 0
Number Queued: 0
Number Running: 1
Number Finished: 0
>> delete(myCluster.Jobs)

4 Comments

Angelo Yeo
Angelo Yeo on 17 Oct 2024
안녕하세요. 올려주신 에러 메시지는 상당히 일반적인 에러메시지이며 이것만으로는 문제의 원인을 파악할 수 없습니다. 에러메시지에 언급되어 있는 것 처럼 클러스터 프로파일 매니저에서 "Validate" 프로세스를 진행하시고 에러가 발생한다면 전체 에러 메시지를 공유해주시겠습니까?
이 과정에서 에러가 발생한다면 코드의 문제 보다는 클러스터 환경의 문제로 볼 수 있겠습니다.
동수
동수 on 17 Oct 2024
Edited: 동수 on 17 Oct 2024
이 문제는 Windows 매월 하는 업그레이드하고, matlab 2024b로 업그레이드하고, Users/user의 Appdata local cluster jobs를 지우고, 다시 구동하여 우선 사라졌어요.
대신 간혹 나오는 다음 에러가 발생하였어요. 같은 코드로 구동하는 4대 PC에 같은 증례를 걸었는데, 그 중 하나에서 Iteration 99/100...
Iteration 100/100...
OMP complete.
Dictionary for 125525 updated for 280 time bins.
Processing time bin 2/280...
Dictionary for 125525 updated for 280 time bins.
Processing time bin 3/280...
다음 사용 중 오류가 발생함: Real_OMF_NDL_for_loop_Di_final_TEST_begin_NMF_Dvis3robust>compute_sparse_codes (221번 라인)
커널을 시작하는 중 예기치 않은 오류가 발생했습니다. CUDA 오류는 다음과 같습니다.
unknown error
오류 발생: Real_OMF_NDL_for_loop_Di_final_TEST_begin_NMF_Dvis3robust (62번 라인)
H{t} = compute_sparse_codes(X_t, D{t-1}, K, alpha, beta, epsilon, lambda);
이와 같은 오류가 발생하였어요.
IdleTimeout에 도달했습니다.
'Processes' 프로파일을 사용하는 병렬 풀이 종료 중입니다
------
이 오류도 간혹 발견되는 구동 오류입니다. 2024a 입니다.
validate해 보았어요. 통과하였어요. 유효성 검사 리포트
프로파일: Processes
스케줄러 유형: Local
단계: 클러스터 연결 테스트(parcluster)
상태: 통과
시작 시간: Fri Oct 18 08:12:34 KST 2024
완료 시간: Fri Oct 18 08:12:34 KST 2024
실행 소요 시간: 0분 0초
설명:
세부 정보:
오류 리포트:
명령줄 출력값:
디버그 로그:
단계: 작업 테스트(createJob)
상태: 통과
시작 시간: Fri Oct 18 08:12:34 KST 2024
완료 시간: Fri Oct 18 08:12:42 KST 2024
실행 소요 시간: 0분 7초
설명:
세부 정보:
오류 리포트:
명령줄 출력값:
디버그 로그:
단계: SPMD 작업 테스트(createCommunicatingJob)
상태: 통과
시작 시간: Fri Oct 18 08:12:45 KST 2024
완료 시간: Fri Oct 18 08:13:01 KST 2024
실행 소요 시간: 0분 16초
설명: 작업이 8개의 워커를 사용하여 실행되었습니다.
세부 정보:
오류 리포트:
명령줄 출력값:
디버그 로그:
단계: 풀 작업 테스트(createCommunicatingJob)
상태: 통과
시작 시간: Fri Oct 18 08:13:04 KST 2024
완료 시간: Fri Oct 18 08:13:20 KST 2024
실행 소요 시간: 0분 16초
설명: 작업이 8개의 워커를 사용하여 실행되었습니다.
세부 정보:
오류 리포트:
명령줄 출력값:
디버그 로그:
단계: 병렬 풀 테스트(parpool)
상태: 통과
시작 시간: Fri Oct 18 08:13:23 KST 2024
완료 시간: Fri Oct 18 08:13:47 KST 2024
실행 소요 시간: 0분 24초
설명: 병렬 풀이 8개의 워커를 사용하여 실행되었습니다.
세부 정보:
오류 리포트:
명령줄 출력값: 8개의 워커가 있는 병렬 풀에 연결됨
'Processes' 프로파일을 사용하는 병렬 풀이 종료 중입니다.
디버그 로그:
대신 이런 팝업이 떴습니다.
Angelo Yeo
Angelo Yeo on 18 Oct 2024
답변 감사합니다. 팝업의 네트워크 허가는 허용을 부탁드리구요.
현재 사용하고 계시는 시스템을 정확하게 이해하는게 우선 중요할 것 같습니다. 그리고 해당 이슈를 제가 재현해볼 수 있도록 도와주시면 좋을 것 같습니다. 이메일로 연락드려도 될까요?
동수
동수 on 22 Oct 2024
네 이메일 부탁드립니다.
이어서 5개의 장비(PC4, 서버1)에서 다시 run하였을 때 진행한 경우가 있었으며,
해당 장비에서 다른 증례를 run 하였을 때, 구동 완료된 경우도 있었으나, 어떤 증례에서는
다음과 같은 에러가 되풀이 됩니다. 즉
sublist =
다음 필드를 포함한 struct:
name: 'NYU_51069'
folder: 'C:\Users\PC\Desktop\OMF_NDL5937_child\forMatlabInput'
date: '20-10-2024 09:33:29'
bytes: 0
isdir: 1
datenum: 7.3955e+05
'Processes' 프로파일을 사용하여 병렬 풀(parpool)을 시작하는 중...
8개의 워커가 있는 병렬 풀에 연결됨
다음 사용 중 오류가 발생함: gpuDevice (26번 라인)
CUDA 실행 중에 예기치 않은 오류가 발생했습니다. CUDA 오류는 다음과 같습니다.
CUDA-capable device(s) is/are busy or unavailable
오류 발생: Real_OMF_NDL_for_loop_Di_final_TEST_begin_NMF_Dvis3robust (32번 라인)
gpuDevice(1); % GPU 초기화
^^^^^^^^^^^^
>> Real_OMF_NDL_for_loop_Di_final_TEST_begin_NMF_Dvis3robust
pathinput =
'C:\Users\PC\Desktop\OMF_NDL5937_child\forMatlabInput\'
pathoutput =
'C:\Users\PC\Desktop\OMF_NDL5937_child\'
sublist =
다음 필드를 포함한 struct:
name: 'NYU_51069'
folder: 'C:\Users\PC\Desktop\OMF_NDL5937_child\forMatlabInput'
date: '20-10-2024 09:33:29'
bytes: 0
isdir: 1
datenum: 7.3955e+05
'Processes' 프로파일을 사용하여 병렬 풀(parpool)을 시작하는 중...
8개의 워커가 있는 병렬 풀에 연결됨
다음 사용 중 오류가 발생함: gpuDevice (26번 라인)
CUDA 실행 중에 예기치 않은 오류가 발생했습니다. CUDA 오류는 다음과 같습니다.
CUDA-capable device(s) is/are busy or unavailable
오류 발생: Real_OMF_NDL_for_loop_Di_final_TEST_begin_NMF_Dvis3robust (32번 라인)
gpuDevice(1); % GPU 초기화
^^^^^^^^^^^^
>>
parallel computing tool의 유효성 검사는 통과하였어요.
2022년 10월 22일

Sign in to comment.

Answers (1)

Swastik Sarkar
Swastik Sarkar on 12 Nov 2024
Moved: Angelo Yeo on 25 Nov 2024

0 votes

I noticed that the following error has been encountered:
"CUDA-capable device(s) is/are busy or unavailable."
To address this, consider making the Display GPU invisible. This can be done with the following command:
setenv('CUDA_VISIBLE_DEVICES','0')
This might help resolve the issue.

Categories

Products

Release

R2024a

Asked:

on 17 Oct 2024

Moved:

on 25 Nov 2024

Community Treasure Hunt

Find the treasures in MATLAB Central and discover how the community can help you!

Start Hunting!