텐서?란 무엇인가
tensor example in NLP
sentence
hi John
hi James
hi Brian
단어 단위로 자른다
unique word | index |
hi | 0 |
John | 1 |
James | 2 |
Brian | 3 |
자연어 처리에서는 원핫인코딩을 기본적으로 사용하니까 아래와 같이
각 단어를 벡터화 시키자
unique word | index | one hot encoding vector |
hi | 0 | [1,0,0,0] |
john | 1 | [0,1,0,0] |
james | 2 | [0,0,1,0] |
Brian | 3 | [0,0,0,1] |
이렇게 워드들을 벡터로 표현할 수 있으니까
문장도 당연히 벡터로 표현할 수 있음
sentence | vector representation |
hi John | [[1,0,0,0], [0,1,0,0]] |
hi James | [[1,0,0,0], [0,0,1,0]] |
hi Brian | [[1,0,0,0], [0,0,0,1]] |
이렇게 벡터로 표현된 문장들이 input으로 딥러닝모델에 들어가게 됨
하지만 딥러닝 모델엔 각 문장 하나씩 넣는 것 보다 미니배치로 넣어주지
미니배치 =?
->한 문장만 넣는게 아니라 뭉치로 넣는것
결과적으로 아래와 같이 넣어주게 된다.
[[[1,0,0,0], [0,1,0,0]],[[1,0,0,0], [0,0,1,0]],[[1,0,0,0], [0,0,0,1]]]
즉 이 문장은 (3,2,4)의 shape을 갖고 있고
3개의 뭉치를 갖고 있으니까 3d tensor!
(3,2,4)
3: sample dimension -> 몇개의 샘플을 갖고있느냐
2: max length of sentence -> 그 문장의 단어의 개수가 몇개냐
4: word vector dimension -> 그 워드들이 몇 개의 숫자로 표현이 되느냐
그럼 image processing에서의 tensor을 보자
1) 그레이 스케일 이미지
SHAPE AND TENSOR? :_____
THE ANSWER IS
this sample has (3,5,5) shape, and
also it is 3d tensor
(3,5,5)의 의미
3: you have 3 images
5: 5 rows
5: 5 columns
2) RGB 컬러 이미지
(3,5,5,3) and 4d tensor
last 3 means the category of color (red, green, blue)
3) RGB color video
(3,5,5,5,3)
3: you have 3 frames
5: 5 images
5: 5rows
5: 5 colomn
3: red, green, blue
'데이터분석 > Machine Learning' 카테고리의 다른 글
[Code Review] Time series Basic : Exploring traditoinal TS(작업중) (0) | 2023.11.14 |
---|---|
[ML]지도학습과 비지도학습 (2) | 2022.08.01 |
[ML]classification , regression (0) | 2022.07.29 |
댓글