求对一矩阵求导过程的推导

在梯度下降法中,有个对矩阵求导的推导,即J(Θ)=1/2*||Θ*X−Y||^2对Θ求导的结果是∂J(Θ)/∂Θ=X'*X*Θ−X'*Y,其中X'表示X的转置。请问这是怎么来的,根据哪个矩阵求导公式而来的,请帮忙推导。
这两个网页里都有这样的叙述,我就是看不明白那一步是怎么来的。
http://blog.csdn.net/laoliulaoliu/article/details/7173184
http://hi.baidu.com/chenjinandy/blog/item/bb9b6c6f775187c780cb4a67.html
简单的做法:用{, }表示内积,则任意依赖于实数t的向量X=X(t), ||X||^2={X,X}=X'X,且有莱布尼茨法则:d/dt({X,X})=2{d/dt(X),X}.
任取矩阵租缓岁A,弊睁令g(t)=Θ+tA, 则g(0)=Θ,dg/dt=A
令 f(t)=J(g(t))=1/2*||g(t)X−Y||^2={g(t)X−Y, g(t)X−Y}/2,
对t求导,得到d/dt(f(t))={d/dt(g(t))X, g(t)X−Y}={AX, g(t)X-Y}
取t=0,就哪凳得到df/dt(0)={AX, ΘX-Y}={AX, ΘX}-{AX,Y}
这是一个A的线性函数: dJ(A)=X'A'ΘX-X'A'Y
这个线性函数就是J的微分。
矩阵的微分是函数中知简导数的概念形式推广到矩阵的情形。矩阵微分根据对不同变量的求导,有不同形式。

定义一: 设m×n矩阵
A(t)=【amn(t)猛此】
的每个元素aij(t)都是自变量t的可导函数,则称m×n矩阵【δamn(t)/δt】为A(t)关于变量t的导数,记为δA(t)/δt;

定义二:设A为m×n阵,f(A)为矩阵A的数量值函数。若f(A)关于A的任一元素aij的偏导δf/ δaij都存在,则称【δf/δamn】为f(A)关于A=(aij)的导数,记为δf(A)/δA;

定义三:设A为m×n维矩阵型变量,A=(aij),G(A)维A的矩阵值函数(p×q维)即G(A)=【g(A)pq】,其中g(A)ij都为A的数值量函数,且关于A可导,则称【δG/δaij】=△⊙G(△应是倒三角,为[δ/δaij],Hamilton算子矩卖裤阵;⊙应是乘号加圈,为Kronecker积)
梯度下降的那篇文章已经有详细的介绍了,就是多变元函数的链式法则求导而已,哪一步没有看懂?