Warz's Studying

온라인 플레이그라운드

개발 환경

CodePen, CodeSandbox, Stackblitz 등

React - StackBlitz

stackblitz.com

사실 비주얼 스튜디오 코드 설치할거면 의미는 없는 것 같음.

앱 만들기 추천 툴체인

툴체인: React 개발을 위해 필요한 환경을 기본적으로 제공

Create React App 클릭

앱 사용 방법: create-react-app.dev

사용하려면 터미널에서 명령어 입력 필요함

npx 실행을 위해 node.js 설치 필요함

Visual Code Studio 설치 필요함

프로젝트 폴더 등록하기

폴더 열기 클릭해서 바탕화면에 추가

React 이름은 오동작 가능성 있음. 다른 이름 추천 ex. react-app

새 터미널 클릭해서 명령어로 제어

npx create-react-app . 입력

. 은 현재 디렉토리를 의미

npm~ 들은 사용 가능한 명령어들 정의

npm start 입력 시 리액트 개발 가능 환경 세팅

만약 3000 포트 관련 문구가 뜨면 Y 누르기

'면접(경력관리&협업) > React' 카테고리의 다른 글

Error & Exception (0)	2024.01.03
리액트 컴포넌트 (0)	2022.11.06

일반화
• 기능 근사를 사용하여 정말 큰 영역에서 의사 결정을 내리도록 확장

심층 강화 학습
• 심층 신경망을 사용하여 표현
 가치, Q 함수
 정책
 모델
• SGD(stochastic gradient descent)로 손실 함수 최적화

심층 Q-네트워크(DQN)
• 가중치 w를 갖는 Q-네트워크에 의한 상태-동작 값 함수 표현

DQN(Deep Q-Networks)에서 재생 경험
• DQN은 경험 재생 및 고정 Q 타겟을 사용합니다.
• 탐욕스러운 정책에 따라 조치를 취하십시오.
• 리플레이 메모리 D에 트랜지션 저장(st,at,rt+1,st+1)
• D에서 전환(s,a,r,s')의 무작위 미니 배치 샘플
• Q-학습 목표 w.r.t를 계산합니다. 오래된 고정 매개변수 w−
• Q-network와 Q-learning 타겟 간의 MSE 최적화
• 확률적 경사하강법 변형 사용

아타리의 DQN
• 픽셀 s에서 값 Q(s,a)에 대한 종단 간 학습
• 입력 상태 s는 마지막 4개 프레임의 원시 픽셀 스택입니다.
• 출력은 18개의 조이스틱/버튼 위치에 대해 Q(s,a)입니다.
• 보상은 해당 단계의 점수 변화입니다.
• 모든 게임에서 수정된 네트워크 아키텍처 및 하이퍼파라미터

DQN을 사용하여 Atari 게임하기
• 게임 화면 전처리
 원시 게임 화면 이미지를 직접 공급하는 것은 비효율적입니다.
 이를 방지하기 위해 게임 화면을 전처리한 후 DQN에 전처리된 게임 화면을 피드합니다.
 이제 게임 상태(게임 화면의 이미지)를 다음과 같이 취하는 preprocess_state라는 함수를 정의합시다.
입력하고 전처리된 게임 상태(게임 화면 이미지)를 반환합니다.

DQN을 사용하여 아타리 게임하기
• DQN 구축
 우리는 아타리 게임을 하기 위해 합성곱 신경망을 DQN으로 사용한다는 것을 배웠습니다.
게임 화면의 이미지를 입력으로 입력하고 Q 값을 반환합니다.
 3개의 컨볼루션 레이어로 DQN을 정의합니다.

DQN을 사용하여 아타리 게임하기
• 네트워크 교육
 에피소드 수 설정:
 시간 단계 수 정의:
 배치 크기 정의:
 우리가 고려하고 싶은 과거 게임 화면의 수를 설정합니다:
 DQN 클래스 인스턴스화:

더블 DQN
• 이 아이디어를 DQN으로 확장
• 현재 Q-network w는 동작을 선택하는 데 사용됩니다.
• 이전 Q-네트워크 w−는 작업을 평가하는 데 사용됩니다.

듀얼 DQN
• 직관: 가치를 정확하게 표현하는 데 필요한 기능은 특정 값을 지정하는 데 필요한 기능과 다를 수 있습니다.
행동의 차이
• 예시
 게임 점수는 V(s)를 정확하게 예측하는 데 도움이 될 수 있습니다.
 그러나 반드시 상대 행동 값을 나타내는 것은 아님 Q(s,a1) 대 Q(s,a2)
• 장점 함수(Baird 1993)

Atari의 DQN을 위한 실용적인 팁
• DQN은 일부 Atari 작업에서 다른 작업보다 더 안정적입니다. Pong은 신뢰할 수 있는 작업입니다. 달성하지 못하면
좋은 점수, 뭔가 잘못되었습니다
• 큰 재생 버퍼는 DQN의 견고성을 향상시키며 메모리 효율성이 핵심입니다.
 uint8 이미지 사용, 데이터 복제 금지
• 인내심을 가지십시오. DQN은 천천히 수렴됩니다. ATARI의 경우 10-40M 프레임을 기다려야 하는 경우가 많습니다.
(GPU에서 몇 시간에서 하루 교육) 무작위 정책보다 훨씬 더 나은 결과를 볼 수 있습니다.

'인공지능(ML)' 카테고리의 다른 글

혼동 행렬의 개념 (0)	2023.09.16
머신러닝 모델 평가하기 (0)	2023.09.16
머신러닝의 유형 (1)	2023.09.16
머신러닝이란? (0)	2023.09.16
가치함수 근사 (0)	2022.11.06

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Warz's Studying

전체 글

모바일 프로그래밍 팀플계획

개발 환경 세팅

'면접(경력관리&협업) > React' 카테고리의 다른 글

Deep Q-Network

'인공지능(ML)' 카테고리의 다른 글

+ Recent posts

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역