多变量微分

约 2932 个字预计阅读时间 10 分钟

1. 二元函数的绘制

对于双变量函数 \(f(x,y)\)，如果想画出其图像，有两种绘制方法： - 三维立体图：令 \(z=f(x,y)\)，将该函数画在空间直角坐标系中． - 二维等高线图：令 \(f(x,y)=C\)，\(C\) 为任意常数，通过取值不同的 \(C\) 画出多条等高线图得到函数的图像．

2. 偏导与微分

2.1 偏导数

当有多个自变量时，因变量对某一个自变量的导数称为偏导数．

对于二元函数，当 \(x,y\) 无关时，将 \(y\) 固定（视为常数），\(f\) 关于 \(x\) 的偏导数

\[ f_{x}=\dfrac{\partial{f}}{\partial{x}}=\lim_{\Delta x \to 0}\dfrac{f(x_{0}+\Delta x,y_{0})-f(x_{0},y_{0})}{\Delta x} \]

\(f\) 对 \(y\) 的偏导数同理．

2.2 线性近似与全微分

在一元函数中，我们可以通过在某点处通过切线来进行线性近似．在 \((x_{0},f(x_{0}))\) 处，我们有切线方程

\[ y=f'(x_{0})(x-x_{0})+f(x_{0}) \]

当 \(x\) 与 \(x_{0}\) 相差不大时，其误差较小可忽略，将函数值用线性近似得到

\[ \Delta f = f(x)-f(x_{0})\approx f'(x_{0})(x-x_{0}) \]

两边同时取极限 \(\lim_{x \to x_{0}}\)

\[ df=f'(x_{0})dx \]

即为一元函数的微分．

注意： \(\Delta f\) 是质点在曲面上移动时 \(z\) 坐标的真实改变量． \(df\) 是质点在切平面上移动时，\(z\) 坐标的近似改变量．

当 \(f\) 是关于独立变量 \(x,y\) 的二元函数 \(z=f(x,y)\) 时，其仍可以用线性近似，只不过由切线换成了切平面．在 \(f(x_{0},y_{0})\) 处，固定 \(y\)，其在平行于 \(xOz\) 平面内的切线方程为

\[ \begin{cases} z=f_{x}(x_{0},y_{0})(x-x_{0})+f(x_{0},y_{0}) \\ \\ y=y_{0} \end{cases} \]

同理，固定 \(x\)，其在平行于 \(yOz\) 平面内的切线方程为

\[ \begin{cases} z=f_{y}(x_{0},y_{0})(y-y_{0})+f(x_{0},y_{0}) \\ \\ x=x_{0} \end{cases} \]

当 \(x,y\) 同时变化时，\(f\) 的变化量应该是这两种变化的叠加，找到过这两条直线的切平面

\[ z=f_{x}(x_{0},y_{0})(x-x_{0})+f_{y}(x_{0},y_{0})(y-y_{0})+f(x_{0},y_{0}) \]

因此得到

\[ \Delta f\approx f_{x}\Delta x+f_{y}\Delta y \]

两边同时取极限 \(\lim_{x \to x_{0}, y \to y_{0}}\)

\[ df=f_{x}dx+f_{y}dy \]

即为全微分方程．

2.3 链式法则

由上节，对于二元函数 \(f(x,y)\) 有

\[ df=f_{x}dx+f_{y}dy \]

若 \(x,y\) 可参数化，即 \(x=x(t),y=y(t)\)，则代入

\[ dx=\dfrac{dx}{dt}dt \quad dy=\dfrac{dy}{dt}dt \]

得到

\[ \begin{aligned} {df}&=\dfrac{\partial{f}}{\partial{x}}\dfrac{dx}{dt}dt+\dfrac{\partial{f}}{\partial{y}}\dfrac{dy}{dt}dt\\ &=(\dfrac{\partial{f}}{\partial{x}}\dfrac{dx}{dt}+\dfrac{\partial{f}}{\partial{y}}\dfrac{dy}{dt})dt \end{aligned} \]

则

\[ \begin{aligned} f'(t)&=\dfrac{df}{dt}\\ &=\dfrac{\partial{f}}{\partial{x}}\dfrac{dx}{dt}+\dfrac{\partial{f}}{\partial{y}}\dfrac{dy}{dt} \end{aligned} \]

即 \(f\) 关于 \(t\) 的全导数公式，其符合链式法则．

当参数关系变得复杂时仍成立．如 \(w=f(x,y),x=x(u,v),y=y(u,v)\)，则

\[ \begin{aligned} dw &=f_{x}dx+f_{y}dy \\ &=f_{x}(x_{u}du+x_{v}dv)+f_{y}({y_u}du+y_{v}dv) \\ &=(f_{x}x_{u}+f_{y}{y_u})du+(f_{x}x_{v}+f_{y}{y_v})dv \end{aligned} \]

根据全微分公式，有

\[ \begin{cases} \dfrac{\partial{w}}{\partial{u}}=f_{x}x_{u}+f_{y}{y_u} \\ \dfrac{\partial{w}}{\partial{v}}=f_{x}x_{v}+f_{y}{y_v} \end{cases} \]

2.4 二阶偏导与混合偏导

与一元函数类似，多元函数偏导后仍然是关于自变量的函数，可以继续偏导得到二阶偏导数；对于二元函数，一般将 \(f\) 关于 \(x\) 的二阶偏导数记为 \(f_{xx}\)，关于 \(y\) 的二阶偏导数记为 \(f_{yy}\)．

\(f\) 先对 \(x\) 再对 \(y\) 的二阶偏导数记为 \(f_{xy}\)，先对 \(y\) 再对 \(x\) 的二阶偏导数记为 \(f_{yx}\)．只要这两个偏导数存在且连续，则必有 \(f_{xy}=f_{yx}\)．

2.5 二元函数泰勒公式

一元函数的泰勒公式本质是多项式拟合，通过在某点处函数值与各阶导数值来拟合函数在该点附近的函数值．对于二元函数，泰勒公式同样适用．不妨将二元函数 \(f(x,y)\) 在 \((x_{0},y_{0})\) 处用多项式拟合，展开到二阶，设

\[ f(x,y)=A+B(x-x_0)+C(y-y_0)+D(x-x_0)^{2}+E(x-x_0)(y-y_0)+F(y-y_0)^{2}+\cdots \]

代入 \(x=x_0,y=y_0 \implies A=f(x_0,y_0)\)．

将 \(f\) 关于 \(x\) 求偏导，得到

\[ f_x(x,y)=B+2D(x-x_0)+E(y-y_0)+\cdots \]

代入 \(x=x_0,y=y_0 \implies B=f_x(x_0,y_0)\) 同理，\(C=f_y(x_0,y_0)\)．

将 \(f\) 关于 \(x\) 求二阶偏导，得到

\[ f_{xx}(x,y)=2D+\cdots \]

代入 \(x=x_0,y=y_0 \implies D=\dfrac{1}{2}f_{xx}(x_0,y_0)\)．同理得到 \(E=f_{xy}(x_0,y_0),F=\dfrac{1}{2}f_{yy}(x_0,y_0)\)．

因此，可以得到二元函数 \(f=(x,y)\) 的二阶泰勒展开为

\[ \begin{aligned} f(x,y) &= f(x_0,y_0)+f_x(x-x_0)+f_y(y-y_0) \\ &+\dfrac{1}{2}f_{xx}(x-x_0)^{2}+f_{xy}(x-x_0)(y-y_0)+\dfrac{1}{2}f_{yy}(y-y_0)^{2} + \cdots \end{aligned} \]

3. 向量化导数

3.1 Nabla算子与梯度

若 \(w\) 是关于独立变量 \(x,y,z\) 的三元函数 \(w=w(x,y,z)\)，且 \(x,y,z\) 均可关于 \(t\) 参数化，则由链式法则

\[ \dfrac{dw}{dt}=\dfrac{\partial{w}}{\partial{x}}\dfrac{dx}{dt}+\dfrac{\partial{w}}{\partial{y}}\dfrac{dy}{dt}+\dfrac{\partial{w}}{\partial{z}}\dfrac{dz}{dt} \]

为了简化公式，我们引入Nabla算子，符号为 \(\nabla\)，在空间直角坐标系中是一个向量，其分量是各轴方向的偏导数算子：

\[ \nabla= \langle{\dfrac{\partial{}}{\partial{x}},\dfrac{\partial{}}{\partial{y}},\dfrac{\partial{}}{\partial{z}}}\rangle \]

则有

\[ \nabla w=\langle{\dfrac{\partial{w}}{\partial{x}},\dfrac{\partial{w}}{\partial{y}},\dfrac{\partial{w}}{\partial{z}}}\rangle \]

根据质点运动学，有

\[ \boldsymbol{r}=\langle{x,y,z}\rangle \]

则有

\[ \dfrac{d\boldsymbol{r}}{dt}=\langle{\dfrac{dx}{dt},\dfrac{dy}{dt},\dfrac{dz}{dt}}\rangle \]

最后可以简化为

\[ \dfrac{dw}{dt}=\nabla w \cdot \dfrac{d\boldsymbol{r}}{dt} \]

其中，\(\nabla w\) 称为 \(w\) 的梯度．梯度总是垂直于 \(w=c\) 这个曲面（或曲线）．下面给出证明．

已知 \(\dfrac{dw}{dt}=\nabla w \cdot \dfrac{d\boldsymbol{r}}{dt}\)，而当 \(w=c\) 时，\(dw=0\)，则有

\[ \nabla w \cdot \dfrac{d\boldsymbol{r}}{dt}=\nabla w \cdot\boldsymbol{v}=0 \]

因此有 \(\nabla w\perp \boldsymbol{v}\)．

对于一个曲线，在某点处 \(\nabla w\) 与其速度向量垂直，则 \(\nabla w\) 必然在该点处与该曲线垂直；对于一个曲面，在某点处 \(\nabla w\) 与其在该点处的任意速度向量垂直，而该点处的速度向量均在该点的切平面上，则 \(\nabla w\) 是该点处切平面的一个法向量，其与该曲面垂直．

因此，必然有 \(\nabla w \perp\) 曲面 \(w=c\)．

3.2 方向导数

函数 \(f(x,y)\) 关于 \(x,y\) 的偏导数 \(f_{x}, f_{y}\) 刻画了 \(f\) 在 \(x,y\) 轴方向上的变化率．而方向并不拘泥于两个坐标轴，我们可以求出某点在任意方向上的导数．

在 \(xOy\) 平面内任取某一方向单位向量 \(\hat{u}=\langle{a,b}\rangle \quad (a^{2}+b^{2}=1)\)，在该方向上导数为 \(\left. \dfrac{dw}{ds} \right|_{\hat{u}}\)

（\(s\) 为在 \(xOy\) 平面上的路径，\(ds\) 为在 \(xOy\) 平面上的路径微元，其满足 \(ds = \sqrt{ (dx)^{2}+(dy)^{2} }\)）

（本质上任意导数定义都是如此，函数值变化量的微分比去移动路径长度的微分；如沿 \(x\) 轴导数为 \(\dfrac{dw}{dx}\)，\(dx\) 就是路径长度）

则有

\[ \begin{aligned} \left. \dfrac{dw}{ds} \right|_{\hat{u}}&=f_{x}\dfrac{dx}{ds}+f_{y}\dfrac{dy}{ds} \\ &=\nabla f\cdot \dfrac{d\boldsymbol{r}}{ds} \end{aligned} \]

由质点运动学可知，\(\dfrac{d\boldsymbol{r}}{ds}\) 为单位切向量，在这里即为 \(\hat{u}\)，因此 \(\left. \dfrac{dw}{ds} \right|_{\hat{u}}=\nabla f \cdot \hat{u}\)．

则 \(\left. \dfrac{dw}{ds} \right|_{\hat{u}} =|\nabla f|\cos{\theta}\)． + \(\theta=0\)，此时方向导数取得最大值．也就是说梯度的方向是方向导数最大的方向，也就是函数值增长最快的方向．从直觉上也符合，因为垂直于等高线的方向是最陡峭的． + \(\theta=90^\circ\)，此时方向导数为 \(0\)，也就是函数变化率为 \(0\)，再次印证了梯度垂直于等高线． + \(\theta = 180^\circ\)，此时方向导数取得最小值，其为函数值减少最快的方向．

4. 极值与最值

4.1 无约束极值与最值

与一元函数类似，对于二元函数 \(f(x,y)\)，\(f\) 在 \((x_0,y_0)\) 处取得极值的必要条件是 \(f_x(x_0,y_0)=f_y(x_0,y_0)=0\)．

4.1.1 二阶导检验

不妨考虑函数 \(w=ax^2+bxy+cy^2\)，在驻点 \((0,0)\) 处的极值性．

当 \(a\ne 0\) 时，我们将 \(x^2\) 的系数 \(a\) 提出，并且对 \(x\) 进行配方，得到

\[ \begin{aligned} w&=a(x^2+\frac{b}{a}xy+\frac{c}{a}y^2) \\ &=a(x+\frac{b}{2a}y)^2+(c-\frac{b^2}{4a})y^2 \\ &=\frac{1}{4a}\left[ 4a^2(x+\frac{b}{2a}y)^2+(4ac-b^2)y^2\right] \end{aligned} \]

当 \(4ac-b^2>0\) 时，\([\,]\) 内的值总是非负；若 \(a>0\)，则 \(w\) 在 \((0,0)\) 处取得最小值；若 \(a<0\)，则 \(w\) 在 \((0,0)\) 处取得最大值．
当 \(4ac-b^2<0\) 时，\(4a^2(x+\dfrac{b}{2a}y)^2\) 的值恒正，而 \((4ac-b^2)y^2\) 的值恒负；当 \(x,y\) 取不同值时，\(w\) 即可能为正数也可能为负数，因此 \(w\) 在 \((0,0)\) 处为鞍点．
当 \(4ac-b^2=0\) 时，有 \(w=a(x+\dfrac{b}{2a}y)^2\)，此时在直线 \(x=-\dfrac{b}{2a}y\) 上均有 \(w=0\)；其余位置 \(w\) 与 \(a\) 同号．

把该结论推广到一般的二元函数：由泰勒公式可知，在驻点处将 \(f(x,y)\) 展开到二阶，由于 \(f_x=0,f_y=0\) 因此

\[ f(x,y) -f(x_0,y_0)\approx \dfrac{1}{2}f_{xx}(x-x_0)^{2}+f_{xy}(x-x_0)(y-y_0)+\dfrac{1}{2}f_{yy}(y-y_0)^{2} \]

记 \(A=f_{xx}(x_0,y_0),B=f_{xy}(x_0,y_0),C=f_{yy}(x_0,y_0)\)，则有

\[ \Delta f \approx \frac{1}{2}A\Delta x^{2}+B\Delta x \Delta y + \frac{1}{2}C\Delta y^{2} \]

根据之前的推导 1. 当 \(AC-B^2>0\) 时，\(\Delta f\) 与 \(A\) 同号；当 \(A>0\) 时，\(\Delta f\) 在任何方向都为正数，即 \(f\) 在 \((x_0,y_0)\) 处取得极小值；当 \(A<0\) 时，\(\Delta f\) 在任何方向都为负数，即 \(f\) 在 \((x_0,y_0)\) 处取得极大值． 2. 当 \(AC-B^2<0\) 时，\(\Delta f\) 可正可负，为鞍点． 3. 当 \(AC-B^2=0\) 时，存在一条过 \((x_0,y_0)\) 的直线满足直线上均有 \(\Delta f=0\)；此时想判断极值需要泰勒展开到更高级项，即二阶导无法判断．

4.2 有约束极值与最值

对于二元函数 \(f(x,y)\)，当其自变量 \(x,y\) 受到约束 \(g(x,y)=C\) 时：

在 \((x_0,y_0)\) 处，\(f\) 的坐标向量的运动方向必须与 \(g(x,y)=C\) 在 \((x_0,y_0)\) 处切线方向共线；如果方向不共线 \(f\) 会脱离约束 \(g(x,y)=C\)．

例：\(f(x,y) = x^2+y^2\)，约束为 \(g(x,y)=xy=1\)．在点 \((1,1)\) 处，为了保证 \(f\) 的坐标向量 \(\boldsymbol{r}=\langle x,y\rangle\) 在移动 \(ds\) 后仍然在约束 \(g(x,y)=xy=1\) 上，必有移动方向朝 \((1,-1)\) 方向或 \((-1,1)\) 方向．

当 \(f\) 取得极值时，在可移动的合法方向 \(\hat{u}\) 上必有方向导数为 \(0\)，即 \(\left. \dfrac{df}{ds} \right|_{\hat{u}} = 0\)．

而 \(\left. \dfrac{df}{ds} \right|_{\hat{u}}=\nabla f\cdot \hat{u}\)，因此对于每一个合法方向 \(\hat{u}\)，都有 \(\nabla f\cdot \hat{u}=0\)；而 \(\hat{u}\) 是 \(g=C\) 的切线方向，所有的 \(\hat{u}\) 构成了 \(g=C\) 的切平面，即 \(\nabla f\) 垂直于 \(g=C\) 的切平面．

又因为 \(\nabla g\) 也垂直于 \(g=C\) 的切平面，因此 \(\nabla f \parallel \nabla g\)．

因此，\(\exists \lambda\)，使得 \(\nabla f = \lambda \nabla g\)．得到方程

\[ \begin{cases} f_x = \lambda g_x \\ f_y = \lambda g_y \\ g(x,y) = C \end{cases} \]

解出 \(x,y,\lambda\) 即可得到极值点．

上述方法称为拉格朗日乘数法．注意该方法无法判断得到的极值点是极大值还是极小值．

5. 受限变量微分

5.1 非独立变量

若 \(f(x,y) = x + y\)，则 \(\dfrac{\partial f}{\partial x} = 1\)；令 \(x = u, y = u+v\)，则 \(f(u,v) = 2u + v\)，\(\dfrac{\partial f}{\partial u} = 2\)．

我们得到 \(x=u\) 但是 \(\dfrac{\partial f}{\partial x} \ne \dfrac{\partial f}{\partial u}\)．

出现上述问题的原因是：求 \(\dfrac{\partial f}{\partial x}\) 时，我们把 \(y\) 看作常数；求 \(\dfrac{\partial f}{\partial u}\) 时，我们把 \(v\) 看作常数，也就是把 \(y-x\) 看做常数，\(v\) 固定时 \(y\) 仍可以变化，因而得到的结果也就不同．

我们用 \(\left( \dfrac{\partial f}{\partial x} \right)_y\) 表示在 \(y\) 固定时对 \(x\) 的偏导数，\(\left( \dfrac{\partial f}{\partial u} \right)_v\) 表示在 \(v\) 固定时对 \(u\) 的偏导数．则有

\[ \left( \dfrac{\partial f}{\partial u} \right)_v = \left( \dfrac{\partial f}{\partial x} \right)_v \ne \left( \dfrac{\partial f}{\partial x} \right)_y \]

因此当变量之间不是独立关系时，求偏导数时需要明确哪个变量被固定．

5.2 隐函数求导

对于隐函数 \(g(x,y,z)=0\)，如果 \(g_z \ne 0\)，且 \(z\) 可表示为 \(x,y\) 的函数 \(z=z(x,y)\)，即 \(g(x,y,f(x,y))=0\)．应如何求出 \(\dfrac{\partial z}{\partial x}\) 和 \(\dfrac{\partial z}{\partial y}\)？

对 \(g\) 求微分，由全微分得到

\[ g_x dx + g_y dy + g_z dz = 0 \]

对于 \(\dfrac{\partial z}{\partial x}\)，由于 \(x\) 与 \(y\) 是独立变量，因此求 \(\dfrac{\partial z}{\partial x}\) 时，\(y\) 固定，\(dy=0\)，得到

\[ g_x dx + g_z \dfrac{\partial z}{\partial x} dx = 0 \Rightarrow \dfrac{\partial z}{\partial x} = -\dfrac{g_x}{g_z} \]

同理，求 \(\dfrac{\partial z}{\partial y}\) 时，\(x\) 固定，\(dx=0\)，得到

\[ g_y dy + g_z \dfrac{\partial z}{\partial y} dy = 0 \Rightarrow \dfrac{\partial z}{\partial y} = -\dfrac{g_y}{g_z} \]