https://math.mit.edu/~gs/learningfromdata/
Part I에는 , , , factorization of , 그리고 에 대해 다룬다. (1p) 다른 건 선형대수 수업에서도 봤던 내용인데 는 뭔지 잘 모르는 상태로 시작했다.
I.1 Multiplication Ax Using Columns of A
2023.12.29
내용
는 의 column들의 linear combination이다. 이게 fundamental
-
행렬 A와 벡터 x에 대해 column들의 linear combination으로 보는 것이 더 higher level이고 이는 Column Space로 이어짐. (2p)
-
에서 가 column space 안에 있을 때 solvable하다는 것, (linearly) independent 의 정의, 에서 independent column 3개가 있으면 invertible이라는 것 복습 (3p)
-
rank는 independent column의 개수를 세는 것 (4p)
-
A=CR (5p)
- 는 의 column들 중 independent한 것들만 모은 것(이므로 A와 같은 column space를 가짐).
- 그리고 은 의 column들을 어떻게 조합해야 가 나오는지에 대한 정보가 들어있는데, 이는 rref와 같음
- 은 Fundamental Theorem of Linear Algebra의 첫 번째 파트 중 dim(C(A)) = dim(C(A^T)) = r 을 증명할 수 있음. (5p)
- 에 을 곱하는 게 의 column들을 조합하는 것이듯 R에 C를 곱하는 것은 의 row들을 조합하는 것과 같음. 따라서 의 row들은 를 구성하는 것들이고 independent하기까지 하니 의 basis들임.
- 그래서 의 column이 의 basis, 의 row들이 의 basis인데 (곱하기를 하려면) 의 column 개수 = 의 row개수 이니까 FTLA가 증명된다고 하는 것이 아닐지..
- SVD는 A=CR에서 C가 orthogonal column 을, R이 orthogonal row를 가지는 경우. (5p)
Problem Set I.1
17, 18번
I.2 Matrix-Matrix Multiplication AB
2024.01.01 ~ 2024.01.02
내용
= Sum of Rank One Matrices
-
는 row vector와 column vector의 outer product 여러 개의 합으로 볼 수 있다 (9~10p)
- 이 rank one matrix 역시 의 예시가 됨 (10p)
- Matrix Multiplication을 inner product 방식으로 하든 outer product 방식으로 하든, 의 경우에 번의 곱셈을 하고, 곱셈하는 숫자들은 같은데 순서만 다름 (10p) - inner product 방식: 번의 내적을 하는데, 그 각각에는 번의 곱셈. 총 - outer product 방식: 개의 outer product가 있는데, 그 각각에는 번의 곱셈. 총
행렬 A를 CR로 분해 후 각 col*row들에 대해 아는 것은 A의 largest piece를 관찰하는 것 (11p)
- 5개의 중요한 factorization: (11p)
- S와 Q는 선형대수의 King가 Queen (11p)
- 예시: 를 유도한 후 각 가 rank one piece 라는 것을 보여줌 (11~12p) 한양대 선형대수 수업 자료에서도 나온 적 있었던 부분. 이제 이해함
* 중 의 row들은 b*으로 표기함: 로 표기하지 않는 이유는, 그러면 를 transpose했을 때처럼 를 의 column들로 오인할 수 있어서. (12p)
Problem Set I.2
2024.01.02
1,6,8번
I.3 The Four Fundamental Subspaces
2024.01.02
내용
4 Subspaces에 대한 예시 3개가 제시됨.
-
Example 2: subspace의 basis들은 perpendicular인 게 좋다는 점 제시 (14p)
-
Example 3: 행렬 예시 자체가 그래프의 incidence matrix
-
element가 -1이면 그 노드가 start node, 1이면 그 노드가 end node라는 뜻
-
는 사이즈이며 m개의 edge와 n개의 node를 나타냄
-
아래의 column space와 left null space구할 땐 으로 만드는 에 대해 논하는데 (17p)
dependent rows→ 에 를 곱한 결과는 그래프로 보면 loop
independent rows → 에 를 곱한 결과는 그래프로 보면 tree -
를 구할 때
-
에 를 곱한 게 그래프로 보면 loop이 되는 를 찾으면 → 을 만족 (17p)
이건 반대로 인 가 그래프에선 loop을 만든다는 순서로 풀어놓은 것이긴 함
-
-
row가 서로 dependent인지 볼 때 elimination 말고 loop, tree로 보는 게 beautiful way (17p)
-
-
, 의 Rank에 대한 증명들 (19p)
Problem Set
I.4 Elimination and A = LU
2024.01.03 3:00 AM
내용
-
선형대수의 most fundamental problem은 를 푸는 것이라고 제시 (21p)
-
이 파트의 핵심은 elimination 과정을 rank 1 matrix들의 관점에서 보는 것 (21p)
- 각 elimination은 행렬lu*를 없애는 것이고, 그 rank one matrix들의 합이 .
-
LU 전에 2x2 에 대해 를 row picture로 보는 것부터 (Figure I.4) (21p)
(column picture는 figure 생략)
-
에서 이면 column picture로 보는 게 더 편함 (22p)
-
23p 윗부분은 그냥 LU decomposition의 과정
LU decomposition의 key idea: Reduce the problem size from n to n-1 by elimination (24p)
LU decomposition 역시 n개의 rank one matrix들의 합으로 볼 수 있다! (23~24p)
- 25p 윗부분은 LU로 Ax=b 구하는 법 (c벡터 사용해서)
- → 하나의 square system이 두 개의 triangular system으로 바뀜 (25p)
- pivot은 0이 아니어야 한다! a_11=0이면 다른 row가 pivot row가 될 수 있을텐데, Good codes will choose the largest number to be the pivot, even if a_11 is not zero 라고 함
- PA=LU (26p)
Problem Set
I.5 Orthogonal Matrices and Subspaces
2024.01.03 10:00 PM
내용
* Orthogonal matrices 라 하면 square with orthonormal columns 라 하는데.. 사실상 Orthonormal matrices 라고 하는 게 맞다고 함(29p)
-
Orthogonal matrix 에 대해 (29p)
-
30p부터는 orthogonal한 vector, basis, subspace, matrix의 예시가 나옴
- orthogonal basis와 Hadamard matrix (30p)
- orthogonal subspaces의 예시는 4 fundamental subspaces (31p)
- SVD is most important theorem in data science; 단순 Gram-schmidt로 의 를 찾는 것과 달리, SVD는 와 가 의 관계로 이어질 수 있게 함 (31p)
- Left inverse, Right inverse (32p)
- Projection Matrix 에 대해 는 를 의 column space로 proejct한 것 (32p)
- 이면 는 projection matrix인데, 에 대해 는 projection matrix임
그래서 orthonormal한 column들로 이루어진 로 project할 때는 를 사용 (32p)
- 이면 는 projection matrix인데, 에 대해 는 projection matrix임
- orthogonal matrix 중에는 rotation matrix, reflection matrix도 포함 (33p)
-
Orthogonal Basis = Orthogonal Axes in
basis가 이면 의 들을 separately 구할 수 있음 -
예시로 householder reflection (34p)
어휘..
- hypotenuse
- right triangle
Problem Set
1 (그냥 풀어봄), 4
I.6 Eigenvalues and Eigenvectors
2024.01.04 11:00 AM
내용
- 인 에 개의 eigenvector가 있을 때 이다? (36p)
- Similar matrix: 은 와 eigenvalue가 같다. (증명은 38p)
- 활용: 계산이 힘들 때 를 triangular로 만들어서 편하게 eigenvalue를 구함
(optional) Geometric Multiplicity, Algebraic Multiplicity로 diagonalizable 여부 판별하기 (40p)
Problem Set
I.7 Symmetric Positive Definite Matrices
2024.01.04 12:40 PM
내용
- Symmetric Matrix의 특징: 1. real eigenvalue 2. can choose orthogonal eigenvectors. (44p)
- Positive definite: powerful property that puts them at the center of applied mathematics
꼭 symmetric일 때만 해당되는 건 아닌 듯 - positive definite이면 로 분해 가능 (90p)
positive definite인지 test하는 법 5가지:
- Eigenvalue가 >0인지 열심히 확인
- Energy-based definition: 가장 중요한 아이디어!! 이게 아래의 test들도 파생시킴
이면 positive definite이다. (46p)
증명은 . 즉 이려면 우변에서 이어야 함.
ex) 모두 positive definite이면 도 positive definite임을 energy test로 쉽게 검증 - 인데 는 independent columns (dependent면 zero energy 유도 가능) (47p)
이게 Cholesky Decomposition이고, symmetric인 S에 대해 다음 방법 등으로 구할 수 있음- 하고 나면
- 이니
- leading determinants(왼쪽 위에서부터 대각선으로 한 칸씩 확장) 모두 positive
- elimination 후 모든 pivot들이 positive k-th pivot = (48p)
-
linear algebra의 positive definite matrix는 calculus의 minimum problem과 연결 가능 (49p)
- univariate일 때 특정 지점 에서 이면 minimum이듯
- multivariate일 때는 에서 편미분값들=0, Hessian Matrix가 positive definite이면 최소. Hessian Matrix의 eigenvalue들을 비교하는 그 얘기 (49p)
- Hessian matrix의 eigenvalue들 중 양수 음수 다 있으면 saddle point 라는 건 미적2 기말고사 범위 첫 내용의 그것과 같은 듯 (50p)
- 또는 hessian이 positive definite(semidefinite)이면 함수는 convex, eigenvalue들이 특정 양수 보다 크면 strictly convex
-
Optimization and Machine Learning: 이계도함수를 다 계산하는 건 어려움을 다시 강조 (50p)
-
The Ellipse: 시작에 앞서.. 49p부터 나오던 의 energy function 에 대해
이 bowl opening upwards라는 말은 3차원에서 봤을 때를 말함 -
는 principal axis theorem이라고도 함; 벡터들을 구하면 그게 새로운 axis로 쓰일 수 있음. (Figure I.9)
Problem Set
I.8 Singular Values and Singular Vectors in the SVD
2024.01.04 3:20 PM
내용
- Reduced form of the SVD: rank 개수까지만 남긴 것 ((57p)
- The Important Fact for Data Science: SVD도 다른 분해들처럼 행렬을 rank one pieces로 나누는데, SVD는 그 piece들이 중요한 순서대로 나타남. 첫 번째 piece 가 가장 와 가까움. (58p)
- SVD 구하는 법과 proof가 있는데 읽고 넘김 (59p), 60p 예시도 생략
Q&A
-
가 symmetric positive definite이면 (61p)
-
에서 negative eigenvalue가 있다면? → 는 부호를 바꿔서 양수로, 대응하는 는 부호를 바꿔서 음수로. (61p)
-
KL transform은 stochastic form of PCA (61p)
-
Geometry of SVD: 는 orthogonal matrix니까 rotation matrix로 볼 수 있다.(62p)
순서로 rotate, stretch, rotate
-
를 하나하나 살펴보면 과 관련이 있음
- 일단 maximize하는 가 이고, 이 때 가 나옴.
- 그리고 저 다음으로 maximize하는 를 찾기 위해 조건을 걸어서 를 풀면 임. . (저 조건식 풀 때 lagrange multipler 사용)
- 이런식으로 계속 찾다보면 (=ellipsoid의 axis들을 찾는) singular vector가 계속 나오는 것 (63p)
-
Singular vectors of : , 그냥 transpose 한 것 (64p)
-
A different symmetric Matrix also produces the SVD: 로 한다는데 이건 무슨..? (64p)
-
와 는 같은 nonzero eigenvalue를 가진다: 그래서 가 같은 singular value를 가짐 증명은 책에 있고.. (64p)
-
를 통해 라 했는데, 이를 통해 Submatrix B는 Matrix A보다 singular value가 더 클 수 없다는 것을 증명 가능. 이고 (65p)
-
SVD가 역사적으로는 행렬 말고 operator에 대해 먼저 나타났다고 함 (65p) ← 형태. (=Derivative) - Derivative를 discrete하게 보면 finite differences이고 이로부터 를 구하면 Discrete Sine Transform과 Discrete Cosine Transform을 얻을 수 있는데, 이게 JPEG기술의 핵심 (66p)
-
Polar Decomposition (67p)
Problem Set
I.9 Principal Components and the Best Low Rank Matrix
2024.01.08 2:30 PM
내용
- Principal Component라 함은 의 column들인 를 말하고, PCA는 가장 큰 들과 연결된 를 사용해서 데이터 행렬에 담긴 정보를 이해하고자 함 (71p)
- 에서도 의 column들이 principal component여서 그걸 축으로 썼던 것과 같을 듯
-
일단 와 가장 가까운 rank k matrix는 라는 것에서 (모든 것은) 시작된다. (몇 가지 증명들이 있음) (71p)
-
Matrix norm 중 다음과 같은 세 가지 유명한 게 있음 (71p)
-
Spectral norm: (aka norm, 또는 induced norm. 를 즉 벡터로 만들어서 vector norm으로부터 matrix norm을 유도했으니까)
가 벡터 를 가장 길게 늘일 수 있는 정도를 찾는 것. 근데 그 값이 인 걸 SVD로 이미 알고 있음.
인데 은 어차피 unit vector이니 의 값이 어떤 벡터를 가장 길게 늘린 수치. -
Frobenius norm:
-
Nuclear norm:
-
orthogonal matrix 의 이다 (71p)
-
위 3종류의 norm에 대해
-
-
Eckart-Young에 대해 알아보자. If has rank then ..라는데 예시로 보면 (72p)
-
A = \begin{bmatrix}
4 & 0 & 0 & 0\\
0 & 3 & 0 & 0\\
0 & 0 & 2 & 0\\
0 & 0 & 0 & 1\\
\end{bmatrix}
$$ 일 때, rank 2 matrix 중 가장 A와 가까운 $$A_2 = \begin{bmatrix}
4 & 0 & 0 & 0\\
0 & 3 & 0 & 0\\
0 & 0 & 0 & 0\\
0 & 0 & 0 & 0\\
\end{bmatrix}
이다.
Eckart-Young에 의해, ‘가장 값이 큰 두 수 4와 3을 남기자’ 하는 식으로 를 선택하면 됨.
-
이 예시는 singular value가 4,3,2,1인 모든 matrix에 대해 해당되는 이야기 ( norm과 Frobenius norm은 이니까.. 라고)
-
참고로 위의 에 대해 error를 측정하면 norm으로는 2, Frobenius norm으로는
-
A = \begin{bmatrix}
4 & 0 & 0 & 0\\
0 & 3 & 0 & 0\\
0 & 0 & 2 & 0\\
0 & 0 & 0 & 1\\
\end{bmatrix}
$$ 일 때, rank 2 matrix 중 가장 A와 가까운 $$A_2 = \begin{bmatrix}
4 & 0 & 0 & 0\\
0 & 3 & 0 & 0\\
0 & 0 & 0 & 0\\
0 & 0 & 0 & 0\\
\end{bmatrix}
-
다른 rank 2 matrix 가 아닌, 어쨌든 가 best라는 얘기를 norm과 Frobenius norm에 대해 증명하는 듯 한데 건너뜀.
-
PCA: statistics, geometry, linear algebra의 측면에서 봄 (75p) centered data A에 대해, SVD 중 S의 column인 의 방향이 closest line to the centered data인 이유는?
-
**The Statistics Behind PCA** (or algebra, 76p) 1. Covariance matrix 의 원소들이 variance/covariance라는 것과 2. 그 Covariance matrix 의 eigenvectors
note: 데이터 A로부터 symmetric한 S를 구해내는 것보다 A에서 바로 SVD하는 게 더 빠르고 정확 -
The Geometry Behind PCA 이건.. 그냥 방향의 line이 data point들과의 수직거리 합이 가장 작아진다는 뜻. 증명 생략 (77p)
-
The Linear Algebra Behind PCA
-
데이터의 Total Variance를 Frobenius norm과 연결 가능. 이는 분산과 singular value를 연결하고, 이를 이용하여.. (78p)
번째 principal component 가 전체 분산 T 중 만큼을 설명(explain)한다고 해석
- Eckart-Young Theorem에 의해 k개의 singular vector를 사용하는 게 다른 어떤 k개 벡터들의 조합보다도 데이터를 가장 많이 설명해낼 수 있다는 것이 알려짐. (78p)
예를 들어 아래 그림은 k=1, m=2(# of feature)
-
-
-
effective rank: 몇 개의 singular value를 사용할지에 대한. scree plot으로 찾을 수도 있고.. (78p)
-
rank of quarter circle one-zero matrix
Problem Set
I.10 Rayleigh Quotients and Generalized Eigenvalues
2024.01.09 12:25 AM, 2024.01.09 3:10 PM
내용
- Rayleigh quotient 에 대해 의 최댓값은 일 때 . (eigenvalue 중 가장 큰 것. 반대로 eigenvalue 중 가장 작은 게 의 최솟값) 일테니 이니까. (81p)
- 근데 를 넣으면 그 지점들은 다 의 saddle points. (81p) 이건 왜 나온?
- symmetric 에 대해서 Rayleigh quotient는 A의 norm(의 제곱)과 같다. (81p) 이걸 다르게 말하면, eigenvalue problem 역시 optimization임: Maximize R(x) (81p)
Generalized eigenvalues and eigenvectors: Applications in statistics and data science lead us to the next step.
-
Generalized symmetric eigenvalue problem이란: generalized rayleigh quotient 와 같이 **symmetric matrix **이 추가될 때 가 아닌 를 다루는 것. (82p)
-
: dynamical problem(역학 문제?)에선 mass/inertia matrix, statistics에선 covariance matrix.
-
에서 로 두고 대입하면 꼴이 나오고, 이 때의 (eigenvalue 중 가장 큰 것)이기는 한데.. 근데 이러면 가 항상 symmetric이란 보장은 없음. (not really perfect, 82p)
-
이렇게 정의하면 eigenvalue들은 여전히 같은데도 가 symmetric임! (82p) 이 positive definite이면 언제나 positive definite square root도 가진다 은 symmetric이니까 로 분해하면 로 구하면 됨. - 이제 라고 두면, 가 돼서 라는 ordinary symmetric problem으로 바꿀 수 있음. 그럼 .
-
결국: 이 positive definite일 때 , which is largest eigenvalue.
-
Example 1: 단순 계산. mechanical engineering이면 가 스프링의 frequency와 관련… (83p)
-
Generalized eigenvector : symmetric이면 eigenvector끼리 orthogonal이듯, 로 확장하면 M-Orthogonal 이라는 개념이 나온다. (83p)
(M-Orthogonal) if and and
-
-
이 positive semidefinite으로 not invertible인 경우에는 이 될 수 있어서 \frac{x^TSx}{x^TMx}M^{-\frac{1}{2}}$$과 는 존재 불가.. (84p)
-
mathematical하게 보는 한 가지 방법은, , 로 두고 케이스를 나누는 것. 일 때 는 무한대거나 undetermined일 수 있는데, 데이터 샘플이 # of features보다 적을 때 발생. → 그래서 이 추가된 경우까지 커버하기 위해 아래의 GSVD라는 것이 나옴
-
Generalized SVD: (85p) column 수가 같은 두 tall thin matrices 와 에 대해 로 분해. 이 때 와 같이 가능해서, 와 모두 로 diagonalize 가능함.
-
Fisher’s Linear Discriminant Analysis (86p)
- PCA처럼 Dimensionality reduction을 위한 테크닉
- Fisher’s criterion이라고도 하는, Separation ratio라는 것이 있다. 가 population1, population2의 feature들의 mean값들을 모은 벡터일 때 즉 의 형태로 풀어낼 수 있음. 이 ratio 값을 가장 크게 하는 값인 를 찾으면 - 와 수직인 plane이 두 population을 분리하는 것이고 - 벡터 방향의 line을 사용해서 차원축소를 할 수도 있고 (맞나?)
Problem Set
I.11 Norms of Vectors and Functions and Matrices
2024.01.11 12:00 AM, 2024.01.11 3:30 PM, 2024.01.12 2:00 AM, 2024.01.13 8:16 PM, 2024.01.14 1:43 PM, 2024.01.15 3:00 PM
내용
-
vector에 대한 것이든, function에 대한 것이든, matrix에 대한 것이든.. norm은 두 성질을 공유함 (88p)
- rescaling:
- triangle inequality:
- 도 조건으로
-
가장 중요한 세 가지 norm (88p)
- L2 norm:
- L1 norm:
- max norm: ( norm이기도 함)
-
The Minimum of on the line (89p)**
- L1 norm: solution vector 이 sparse함
-
L0 norm: zero norm=그 vector의 element들 중 nonzero인 것이 몇 개인가? (89p)
-
Inner Products and Angles (90p) Cauchy-Schwarz inequality와 triangle inequality는 most important inequalities in mathematics 그리고 L2 norm이 위의 두 inequality와 관련이 있음 (둘 다 dot product와 연관이 있으므로)
-
Inner Products and S-Norms (90p) 다른 norm과 연관시킬 수 있는 다른 inner product도 있음 positive definite matrix 에 대해 를 S-norm이라 하고, 를 S-inner product라 하는 것. 그러면 이므로 . 즉 weight된 벡터들의 내적. Einstein and Lorentz? (91p)
-
Norms and Inner Products of Functions (91p)
- function 가 vector in function space이고 function간의 linear combination이 가능하다? vector를 함수처럼 쓰려는 게 핵심 아이디어
- vector의 element 개수가 무한한 infinite dimension일 때는 마지막 element들이 쭉 0이면 incomplete?
- Banach Space, Hilbert Space (91p) : Banach space, : Hilbert space
-
Smoothness of Functions (92p)
- function space 이라 하면, 은 구간 [0,1]에서 연속인 모든 함수들을 모은 것을 말함.
- function space 는 smoothness의 정도가 같은 함수들을 모음.
- 은 1~n계 도함수가 연속인 함수들을 모은 것. 은 무한 번 미분 가능한 함수들을 모은 것.
- 미적분학이나 기하학에서의 매끄러움은 정도로 매끄러우면 된다. 즉, 가 미분 가능하고 이 연속이면 된다.
- 해석학, 함수해석학에서는 매끄러운 함수란 (높은 확률로) 의 원소(인 함수)를 말한다.
- function space에서의 max norm (가 주어진 구간에서 연속일 때)
- norm: 이고 norm은 Banach Space (+ not Hilbert space)
- space 기반으로 만들면 이렇게 Hilbert space 을 만들 수 있음
-
Norms of Matrices: The Frobenius Norm (92p)
-
space of matrices는 vector space의 rule들을 다 따름. 따라서 matrix norm도 vector norm의 세 규칙을 따르고, 하나가 추가됨
그리고 - 참고로 마지막의 경우 rank-1 matrix는 로 등식이 됨 -
orthogonal matrix 에 대한 성질 복습: , (93p)
그래서
(이것 덕분에 가 유도되는 것. 심지어 ) -
trace를 이용해 Frobenius norm의 제곱은 그 행렬의 모든 원소 각각의 제곱의 합과 같음을 유도 가능
-
matrix norm은 를 에 곱했을 때 얼마나 변화했는지, 즉 largest growth factor를 구하는 것
-
이런 식으로 식을 세우면 성립한다는 점 (가 변화량 중 가장 큰 값, 즉 의 값들 중 가장 큰 것과 값은 값으로 고정된 값이고, 는 에 따라 변화하는 값이니까) 을 통해서도 증명 가능 (94p) 참고로 을 통해서 행렬의 norm 값을 유도함
-
각각을 구하는 법은:
-
이유는? l2 norm은 뭐 SVD고 (그래서 l2 norm의 값은 에 영향을 받지 않음.) l1 norm:
l infinity norm은.. 생략
l1, l infinity norm 구하는 법에 대한 증명 ^fn1
-
-
아래 l1과 l infinity norm의 연관: , 이를 활용해 l1, l2, l infinity norm의 관계 유도 가능: (94p)
-
-
-
The Nuclear Norm (trace norm) (95p) << I.9 에서도 나온 적 있음
- .
- III.4에서 나오는 결측치가 있을 때의 matrix completion에서 nuclear norm이 key가 됨
- medical norm:
-
Spectral Radius (95p)
- eigenvalue 중 가장 큰 것. . norm의 조건은 충족 못함
- 이게 중요한 이유는 일 때 이기 때문
Problem Set
2024.01.15
6
I.12 Factoring Matrices and Tensors: Positive and Sparse
2024.01.15 5:18 PM, 2024.01.30 4:10 AM
내용
data matrix의 factorization에 대한 wider view를 제시
-
만으로 충분하지 않을 수 있는 케이스: nonnegative, sparse, tensor data (97p)
- sparsity: nonzero인 수들에 의미가 있다는 걸 알 수 있음.
- nonnegativity: meaningful한 수를 찾기 위해. 아래 참고
- 그래서 위 둘은 very valuable properties라고 함(98p)
- 그런데 SVD를 하면 보통 +,- 부호가 섞여있는 작은 값의 수들이 매우 많게 됨.
-
를 로 합쳐서 로 분해하는 아이디어? k-means와도 관련이 있다고
-
Nonnegative Matrix Factorization (NMF): (97p)
- 행렬 을 lower rank이면서 negative entry가 없는 두 행렬 로 분해하는 것.
- 참고로 인 행렬의 예시는 98p의 얼굴 이미지 데이터. 이미지 각 픽셀의 intensity가 행렬의 element이니 각 값은 0이상.
- 왜 lower rank? → simplicity
- 왜 nonnegative? → meaningful한 숫자들을 만들기 위함. plus-minus cancellation 없는! (무게, 부피, 개수, 확률 같은 것들도 다 양수죠?)
- 이 symmetric positive definite이면? 분해는 가능할텐데, 보통 가 nonnegative로 존재하지는 않는다. 보통은 그냥 와 가장 가까운 를 찾아야 함. (97p)
- practical하게는, 와 의 orthogonality를 포기해야 함. (sparsity, nonnegativity를 더 중시, 98p)
- 이건 SVD와 달리 NP-Hard problem임 (99p)
- 행렬 을 lower rank이면서 negative entry가 없는 두 행렬 로 분해하는 것.
-
SPCA (98p)
- 를 찾는데.. 는 뭐 특별한 건 아님. A$의 column $a_j=c_{1j}b_1+...+c_{nj}b_n 이니 이게 더 등식에 가까울수록 더 좋은 인 것.
- 의 column 개수 < 의 column 개수이다? 그럼 dimensionality reduction.
- 이걸 쓰는 예시가 Facial feature extraction, Text Mining/Document Classification (98p)
-
Optimality Conditions (99p)
- 의 값을 minimize하는 게 중요한데.. 이 내용은 잘 모르겠는
-
Computing the Factors: Basic Methods (99p)
- 어쨌든 또는 를 어떻게 계산해서 구할지가 문제
- alternating factorization: 두 행렬 중 하나를 고정 후 다른 하나를 optimize, 그 후 반대로. 이걸 반복 Frobenius norm을 사용해서 각 단계는 least square의 형태가 됨
- 근데 이 방법은 convergence가 보장되지 않음. III.4에서 발전된 형태 ADMM이 나옴 (99p)
-
Sparse Principal Components (99p)
- nonzero component가 너무 많으면 다뤄야 할 변수가 너무 많다는 것인데.. 그래서 non zero component의 개수가 중요.
- 근데 SVD는 안에 대부분의 숫자가 다 nonzero임. 값이 너무 작은 걸 없앨 수도 있겠지만, 그냥 sparse vector를 만드는 알고리즘들이 제안되었음.
- matrix 에 대해서는 norm 말고 nuclear norm 을 사용.
- + ridge regression
-
Tensors (101p)
- tensor는 row, column에 이어 tube추가
- Example 2 : 에서 (101p)
- 이 때 의 는 딥러닝 레이어 하나의 weight matrix를 생각하면 됨.
- Example 3 : The Joint Probability Tensor (102p)
-
The Norm and Rank of a Tensor (103p)
- 3차원 텐서를 3-way tensor, tensor of order 3라 함
- Frobenius norm처럼 norm of T =
- 텐서의 의미: 이것도 matrix처럼 linear operator가 되거나, RGB 이미지는 3-way, 영상은 4-way tensor.
- tensor의 factorization은 다루지 않고, rank of tensor도 간단하지 않음 (103p)
- Eckart-Young theorem이 있는 matrix와 달리, tensor는 어떤 tensor에 대한 best approximation이 존재하지 않음. 그럼에도 low rank tensor를 구하는 방법에는 CP, Tucker가 있음
-
CP Decomposition (104p)
- 여전히 핵심은 rank-1 tensor의 합으로 텐서 T를 approximate하는 것
- SVD와 달리 각각이 orthogonal하지 않음.
- NP-Hard
- 이것도 alternating algorithm 있음 (105p)
- 목표는
-
Matricized Form of a Tensor T (105p)
- CP Decomposition 하기 전에 tensor를 matricize하는 방법 소개
- 위의 각각이
-
The Khatri-Rao Product (105p)
- Kronecker product를 이용해서, 과 을 곱하면 이 나오는…
- column들이 인 행렬을 각각 라 하면 와 같이 나타낼 수 있음
-
Computing the CP Decomposition of T (106p)
- 고정 후 에 대한 least square 풀고, … , 를 반복. 자세한 과정 생략 (107p)
-
The Tucker Decomposition (107p)
- .
- 이제는 Khatri-Rao 말고 Kronecker product 사용: , 역시 생략
-
Decomposition and Randomization for Large Tensors (108p) 생략
Problem Set
References
Strang, G. (2019). Linear Algebra and learning from data. Wellesley-Cambridge Press.