跳转至

多变量微分

约 2932 个字 预计阅读时间 10 分钟

1. 二元函数的绘制

对于双变量函数 \(f(x,y)\),如果想画出其图像,有两种绘制方法: - 三维立体图:令 \(z=f(x,y)\),将该函数画在空间直角坐标系中. - 二维等高线图:令 \(f(x,y)=C\)\(C\) 为任意常数,通过取值不同的 \(C\) 画出多条等高线图得到函数的图像.

2. 偏导与微分

2.1 偏导数

当有多个自变量时,因变量对某一个自变量的导数称为偏导数.

对于二元函数,当 \(x,y\) 无关时,将 \(y\) 固定(视为常数),\(f\) 关于 \(x\) 的偏导数

\[ f_{x}=\dfrac{\partial{f}}{\partial{x}}=\lim_{\Delta x \to 0}\dfrac{f(x_{0}+\Delta x,y_{0})-f(x_{0},y_{0})}{\Delta x} \]

\(f\)\(y\) 的偏导数同理.

2.2 线性近似与全微分

在一元函数中,我们可以通过在某点处通过切线来进行线性近似.在 \((x_{0},f(x_{0}))\) 处,我们有切线方程

\[ y=f'(x_{0})(x-x_{0})+f(x_{0}) \]

\(x\)\(x_{0}\) 相差不大时,其误差较小可忽略,将函数值用线性近似得到

\[ \Delta f = f(x)-f(x_{0})\approx f'(x_{0})(x-x_{0}) \]

两边同时取极限 \(\lim_{x \to x_{0}}\)

\[ df=f'(x_{0})dx \]

即为一元函数的微分.

注意: \(\Delta f\) 是质点在曲面上移动时 \(z\) 坐标的真实改变量. \(df\) 是质点在切平面上移动时,\(z\) 坐标的近似改变量.

\(f\) 是关于独立变量 \(x,y\) 的二元函数 \(z=f(x,y)\) 时,其仍可以用线性近似,只不过由切线换成了切平面.在 \(f(x_{0},y_{0})\) 处,固定 \(y\),其在平行于 \(xOz\) 平面内的切线方程为

\[ \begin{cases} z=f_{x}(x_{0},y_{0})(x-x_{0})+f(x_{0},y_{0}) \\ \\ y=y_{0} \end{cases} \]

同理,固定 \(x\),其在平行于 \(yOz\) 平面内的切线方程为

\[ \begin{cases} z=f_{y}(x_{0},y_{0})(y-y_{0})+f(x_{0},y_{0}) \\ \\ x=x_{0} \end{cases} \]

\(x,y\) 同时变化时,\(f\) 的变化量应该是这两种变化的叠加,找到过这两条直线的切平面

\[ z=f_{x}(x_{0},y_{0})(x-x_{0})+f_{y}(x_{0},y_{0})(y-y_{0})+f(x_{0},y_{0}) \]

因此得到

\[ \Delta f\approx f_{x}\Delta x+f_{y}\Delta y \]

两边同时取极限 \(\lim_{x \to x_{0}, y \to y_{0}}\)

\[ df=f_{x}dx+f_{y}dy \]

即为全微分方程.

2.3 链式法则

由上节,对于二元函数 \(f(x,y)\)

\[ df=f_{x}dx+f_{y}dy \]

\(x,y\) 可参数化,即 \(x=x(t),y=y(t)\),则代入

\[ dx=\dfrac{dx}{dt}dt \quad dy=\dfrac{dy}{dt}dt \]

得到

\[ \begin{aligned} {df}&=\dfrac{\partial{f}}{\partial{x}}\dfrac{dx}{dt}dt+\dfrac{\partial{f}}{\partial{y}}\dfrac{dy}{dt}dt\\ &=(\dfrac{\partial{f}}{\partial{x}}\dfrac{dx}{dt}+\dfrac{\partial{f}}{\partial{y}}\dfrac{dy}{dt})dt \end{aligned} \]

\[ \begin{aligned} f'(t)&=\dfrac{df}{dt}\\ &=\dfrac{\partial{f}}{\partial{x}}\dfrac{dx}{dt}+\dfrac{\partial{f}}{\partial{y}}\dfrac{dy}{dt} \end{aligned} \]

\(f\) 关于 \(t\) 的全导数公式,其符合链式法则

当参数关系变得复杂时仍成立.如 \(w=f(x,y),x=x(u,v),y=y(u,v)\),则

\[ \begin{aligned} dw &=f_{x}dx+f_{y}dy \\ &=f_{x}(x_{u}du+x_{v}dv)+f_{y}({y_u}du+y_{v}dv) \\ &=(f_{x}x_{u}+f_{y}{y_u})du+(f_{x}x_{v}+f_{y}{y_v})dv \end{aligned} \]

根据全微分公式,有

\[ \begin{cases} \dfrac{\partial{w}}{\partial{u}}=f_{x}x_{u}+f_{y}{y_u} \\ \dfrac{\partial{w}}{\partial{v}}=f_{x}x_{v}+f_{y}{y_v} \end{cases} \]

2.4 二阶偏导与混合偏导

与一元函数类似,多元函数偏导后仍然是关于自变量的函数,可以继续偏导得到二阶偏导数;对于二元函数,一般将 \(f\) 关于 \(x\) 的二阶偏导数记为 \(f_{xx}\),关于 \(y\) 的二阶偏导数记为 \(f_{yy}\)

\(f\) 先对 \(x\) 再对 \(y\) 的二阶偏导数记为 \(f_{xy}\),先对 \(y\) 再对 \(x\) 的二阶偏导数记为 \(f_{yx}\).只要这两个偏导数存在且连续,则必有 \(f_{xy}=f_{yx}\)

2.5 二元函数泰勒公式

一元函数的泰勒公式本质是多项式拟合,通过在某点处函数值与各阶导数值来拟合函数在该点附近的函数值.对于二元函数,泰勒公式同样适用.不妨将二元函数 \(f(x,y)\)\((x_{0},y_{0})\) 处用多项式拟合,展开到二阶,设

\[ f(x,y)=A+B(x-x_0)+C(y-y_0)+D(x-x_0)^{2}+E(x-x_0)(y-y_0)+F(y-y_0)^{2}+\cdots \]

代入 \(x=x_0,y=y_0 \implies A=f(x_0,y_0)\)

\(f\) 关于 \(x\) 求偏导,得到

\[ f_x(x,y)=B+2D(x-x_0)+E(y-y_0)+\cdots \]

代入 \(x=x_0,y=y_0 \implies B=f_x(x_0,y_0)\) 同理,\(C=f_y(x_0,y_0)\)

\(f\) 关于 \(x\) 求二阶偏导,得到

\[ f_{xx}(x,y)=2D+\cdots \]

代入 \(x=x_0,y=y_0 \implies D=\dfrac{1}{2}f_{xx}(x_0,y_0)\). 同理得到 \(E=f_{xy}(x_0,y_0),F=\dfrac{1}{2}f_{yy}(x_0,y_0)\)

因此,可以得到二元函数 \(f=(x,y)\) 的二阶泰勒展开为

\[ \begin{aligned} f(x,y) &= f(x_0,y_0)+f_x(x-x_0)+f_y(y-y_0) \\ &+\dfrac{1}{2}f_{xx}(x-x_0)^{2}+f_{xy}(x-x_0)(y-y_0)+\dfrac{1}{2}f_{yy}(y-y_0)^{2} + \cdots \end{aligned} \]

3. 向量化导数

3.1 Nabla算子与梯度

\(w\) 是关于独立变量 \(x,y,z\) 的三元函数 \(w=w(x,y,z)\),且 \(x,y,z\) 均可关于 \(t\) 参数化,则由链式法则

\[ \dfrac{dw}{dt}=\dfrac{\partial{w}}{\partial{x}}\dfrac{dx}{dt}+\dfrac{\partial{w}}{\partial{y}}\dfrac{dy}{dt}+\dfrac{\partial{w}}{\partial{z}}\dfrac{dz}{dt} \]

为了简化公式,我们引入Nabla算子,符号为 \(\nabla\),在空间直角坐标系中是一个向量,其分量是各轴方向的偏导数算子:

\[ \nabla= \langle{\dfrac{\partial{}}{\partial{x}},\dfrac{\partial{}}{\partial{y}},\dfrac{\partial{}}{\partial{z}}}\rangle \]

则有

\[ \nabla w=\langle{\dfrac{\partial{w}}{\partial{x}},\dfrac{\partial{w}}{\partial{y}},\dfrac{\partial{w}}{\partial{z}}}\rangle \]

根据质点运动学,有

\[ \boldsymbol{r}=\langle{x,y,z}\rangle \]

则有

\[ \dfrac{d\boldsymbol{r}}{dt}=\langle{\dfrac{dx}{dt},\dfrac{dy}{dt},\dfrac{dz}{dt}}\rangle \]

最后可以简化为

\[ \dfrac{dw}{dt}=\nabla w \cdot \dfrac{d\boldsymbol{r}}{dt} \]

其中,\(\nabla w\) 称为 \(w\)梯度.梯度总是垂直于 \(w=c\) 这个曲面(或曲线).下面给出证明.

已知 \(\dfrac{dw}{dt}=\nabla w \cdot \dfrac{d\boldsymbol{r}}{dt}\),而当 \(w=c\) 时,\(dw=0\),则有

\[ \nabla w \cdot \dfrac{d\boldsymbol{r}}{dt}=\nabla w \cdot\boldsymbol{v}=0 \]

因此有 \(\nabla w\perp \boldsymbol{v}\)

对于一个曲线,在某点处 \(\nabla w\) 与其速度向量垂直,则 \(\nabla w\) 必然在该点处与该曲线垂直; 对于一个曲面,在某点处 \(\nabla w\) 与其在该点处的任意速度向量垂直,而该点处的速度向量均在该点的切平面上,则 \(\nabla w\) 是该点处切平面的一个法向量,其与该曲面垂直.

因此,必然有 \(\nabla w \perp\) 曲面 \(w=c\)

3.2 方向导数

函数 \(f(x,y)\) 关于 \(x,y\) 的偏导数 \(f_{x}, f_{y}\) 刻画了 \(f\)\(x,y\) 轴方向上的变化率.而方向并不拘泥于两个坐标轴,我们可以求出某点在任意方向上的导数.

\(xOy\) 平面内任取某一方向单位向量 \(\hat{u}=\langle{a,b}\rangle \quad (a^{2}+b^{2}=1)\),在该方向上导数为 \(\left. \dfrac{dw}{ds} \right|_{\hat{u}}\)

\(s\) 为在 \(xOy\) 平面上的路径,\(ds\) 为在 \(xOy\) 平面上的路径微元,其满足 \(ds = \sqrt{ (dx)^{2}+(dy)^{2} }\)

(本质上任意导数定义都是如此,函数值变化量的微分比去移动路径长度的微分;如沿 \(x\) 轴导数为 \(\dfrac{dw}{dx}\)\(dx\) 就是路径长度)

则有

\[ \begin{aligned} \left. \dfrac{dw}{ds} \right|_{\hat{u}}&=f_{x}\dfrac{dx}{ds}+f_{y}\dfrac{dy}{ds} \\ &=\nabla f\cdot \dfrac{d\boldsymbol{r}}{ds} \end{aligned} \]

由质点运动学可知,\(\dfrac{d\boldsymbol{r}}{ds}\) 为单位切向量,在这里即为 \(\hat{u}\),因此 \(\left. \dfrac{dw}{ds} \right|_{\hat{u}}=\nabla f \cdot \hat{u}\)

\(\left. \dfrac{dw}{ds} \right|_{\hat{u}} =|\nabla f|\cos{\theta}\). + \(\theta=0\),此时方向导数取得最大值.也就是说梯度的方向是方向导数最大的方向,也就是函数值增长最快的方向.从直觉上也符合,因为垂直于等高线的方向是最陡峭的. + \(\theta=90^\circ\),此时方向导数为 \(0\),也就是函数变化率为 \(0\),再次印证了梯度垂直于等高线. + \(\theta = 180^\circ\),此时方向导数取得最小值,其为函数值减少最快的方向.

4. 极值与最值

4.1 无约束极值与最值

与一元函数类似,对于二元函数 \(f(x,y)\)\(f\)\((x_0,y_0)\) 处取得极值的必要条件是 \(f_x(x_0,y_0)=f_y(x_0,y_0)=0\)

4.1.1 二阶导检验

不妨考虑函数 \(w=ax^2+bxy+cy^2\),在驻点 \((0,0)\) 处的极值性.

\(a\ne 0\) 时,我们将 \(x^2\) 的系数 \(a\) 提出,并且对 \(x\) 进行配方,得到

\[ \begin{aligned} w&=a(x^2+\frac{b}{a}xy+\frac{c}{a}y^2) \\ &=a(x+\frac{b}{2a}y)^2+(c-\frac{b^2}{4a})y^2 \\ &=\frac{1}{4a}\left[ 4a^2(x+\frac{b}{2a}y)^2+(4ac-b^2)y^2\right] \end{aligned} \]
  1. \(4ac-b^2>0\) 时,\([\,]\) 内的值总是非负;若 \(a>0\),则 \(w\)\((0,0)\) 处取得最小值;若 \(a<0\),则 \(w\)\((0,0)\) 处取得最大值.
  2. \(4ac-b^2<0\) 时,\(4a^2(x+\dfrac{b}{2a}y)^2\) 的值恒正,而 \((4ac-b^2)y^2\) 的值恒负;当 \(x,y\) 取不同值时,\(w\) 即可能为正数也可能为负数,因此 \(w\)\((0,0)\) 处为鞍点.
  3. \(4ac-b^2=0\) 时,有 \(w=a(x+\dfrac{b}{2a}y)^2\),此时在直线 \(x=-\dfrac{b}{2a}y\) 上均有 \(w=0\);其余位置 \(w\)\(a\) 同号.

把该结论推广到一般的二元函数:由泰勒公式可知,在驻点处将 \(f(x,y)\) 展开到二阶,由于 \(f_x=0,f_y=0\) 因此

\[ f(x,y) -f(x_0,y_0)\approx \dfrac{1}{2}f_{xx}(x-x_0)^{2}+f_{xy}(x-x_0)(y-y_0)+\dfrac{1}{2}f_{yy}(y-y_0)^{2} \]

\(A=f_{xx}(x_0,y_0),B=f_{xy}(x_0,y_0),C=f_{yy}(x_0,y_0)\),则有

\[ \Delta f \approx \frac{1}{2}A\Delta x^{2}+B\Delta x \Delta y + \frac{1}{2}C\Delta y^{2} \]

根据之前的推导 1. 当 \(AC-B^2>0\) 时,\(\Delta f\)\(A\) 同号;当 \(A>0\) 时,\(\Delta f\) 在任何方向都为正数,即 \(f\)\((x_0,y_0)\) 处取得极小值;当 \(A<0\) 时,\(\Delta f\) 在任何方向都为负数,即 \(f\)\((x_0,y_0)\) 处取得极大值. 2. 当 \(AC-B^2<0\) 时,\(\Delta f\) 可正可负,为鞍点. 3. 当 \(AC-B^2=0\) 时,存在一条过 \((x_0,y_0)\) 的直线满足直线上均有 \(\Delta f=0\);此时想判断极值需要泰勒展开到更高级项,即二阶导无法判断.

4.2 有约束极值与最值

对于二元函数 \(f(x,y)\),当其自变量 \(x,y\) 受到约束 \(g(x,y)=C\) 时:

\((x_0,y_0)\) 处,\(f\) 的坐标向量的运动方向必须与 \(g(x,y)=C\)\((x_0,y_0)\) 处切线方向共线;如果方向不共线 \(f\) 会脱离约束 \(g(x,y)=C\)

例:\(f(x,y) = x^2+y^2\),约束为 \(g(x,y)=xy=1\). 在点 \((1,1)\) 处,为了保证 \(f\) 的坐标向量 \(\boldsymbol{r}=\langle x,y\rangle\) 在移动 \(ds\) 后仍然在约束 \(g(x,y)=xy=1\) 上,必有移动方向朝 \((1,-1)\) 方向或 \((-1,1)\) 方向.

\(f\) 取得极值时,在可移动的合法方向 \(\hat{u}\) 上必有方向导数为 \(0\),即 \(\left. \dfrac{df}{ds} \right|_{\hat{u}} = 0\)

\(\left. \dfrac{df}{ds} \right|_{\hat{u}}=\nabla f\cdot \hat{u}\),因此对于每一个合法方向 \(\hat{u}\),都有 \(\nabla f\cdot \hat{u}=0\);而 \(\hat{u}\)\(g=C\) 的切线方向,所有的 \(\hat{u}\) 构成了 \(g=C\) 的切平面,即 \(\nabla f\) 垂直于 \(g=C\) 的切平面.

又因为 \(\nabla g\) 也垂直于 \(g=C\) 的切平面,因此 \(\nabla f \parallel \nabla g\)

因此,\(\exists \lambda\),使得 \(\nabla f = \lambda \nabla g\).得到方程

\[ \begin{cases} f_x = \lambda g_x \\ f_y = \lambda g_y \\ g(x,y) = C \end{cases} \]

解出 \(x,y,\lambda\) 即可得到极值点.

上述方法称为拉格朗日乘数法.注意该方法无法判断得到的极值点是极大值还是极小值.

5. 受限变量微分

5.1 非独立变量

\(f(x,y) = x + y\),则 \(\dfrac{\partial f}{\partial x} = 1\);令 \(x = u, y = u+v\),则 \(f(u,v) = 2u + v\)\(\dfrac{\partial f}{\partial u} = 2\)

我们得到 \(x=u\) 但是 \(\dfrac{\partial f}{\partial x} \ne \dfrac{\partial f}{\partial u}\)

出现上述问题的原因是:求 \(\dfrac{\partial f}{\partial x}\) 时,我们把 \(y\) 看作常数;求 \(\dfrac{\partial f}{\partial u}\) 时,我们把 \(v\) 看作常数,也就是把 \(y-x\) 看做常数,\(v\) 固定时 \(y\) 仍可以变化,因而得到的结果也就不同.

我们用 \(\left( \dfrac{\partial f}{\partial x} \right)_y\) 表示在 \(y\) 固定时对 \(x\) 的偏导数,\(\left( \dfrac{\partial f}{\partial u} \right)_v\) 表示在 \(v\) 固定时对 \(u\) 的偏导数.则有

\[ \left( \dfrac{\partial f}{\partial u} \right)_v = \left( \dfrac{\partial f}{\partial x} \right)_v \ne \left( \dfrac{\partial f}{\partial x} \right)_y \]

因此当变量之间不是独立关系时,求偏导数时需要明确哪个变量被固定.

5.2 隐函数求导

对于隐函数 \(g(x,y,z)=0\),如果 \(g_z \ne 0\),且 \(z\) 可表示为 \(x,y\) 的函数 \(z=z(x,y)\),即 \(g(x,y,f(x,y))=0\).应如何求出 \(\dfrac{\partial z}{\partial x}\)\(\dfrac{\partial z}{\partial y}\)

\(g\) 求微分,由全微分得到

\[ g_x dx + g_y dy + g_z dz = 0 \]

对于 \(\dfrac{\partial z}{\partial x}\),由于 \(x\)\(y\) 是独立变量,因此求 \(\dfrac{\partial z}{\partial x}\) 时,\(y\) 固定,\(dy=0\),得到

\[ g_x dx + g_z \dfrac{\partial z}{\partial x} dx = 0 \Rightarrow \dfrac{\partial z}{\partial x} = -\dfrac{g_x}{g_z} \]

同理,求 \(\dfrac{\partial z}{\partial y}\) 时,\(x\) 固定,\(dx=0\),得到

\[ g_y dy + g_z \dfrac{\partial z}{\partial y} dy = 0 \Rightarrow \dfrac{\partial z}{\partial y} = -\dfrac{g_y}{g_z} \]