Archivo de la categoría: Matemáticas

Variables aleatorias


  • Concepto de variable aleatoria
  • Variable aleatoria discreta: funciones de probabilidad y distribución
  • Variable aleatoria continua: funciones de densidad y distribución
  • Esperanza matemática
  • Varianza
  • Desigualdad de Txebixef
  • Variable aleatoria bidimensional

separador2

Concepto de variable aleatoria

Es la generalización de las variables estadísticas que se han visto en el tema Estadística descriptiva, análisis de datos ; la definición era:

Variable estadística: una característica numérica de la población que nos interesa estudiar

Pues bien, una variable aleatoria (v.a.) es:

  1. O bien una variable estadística
  2. O bien una función de una variable estadística

Ejemplo 1 :
1. El resultado de lanzar un dado es una v.a.: X = {1, 2, 3, 4, 5, 6}
2. La (función) suma de puntos de dos dados: S = X1 + X2 = {2, 3, 4, ..., 12}
3. La temperatura del aula en días sucesivos: T = {17, 17.3, ...}
4. El consumo de energía E en calefacción en el aula en función de la temperatura T,  E(T) = Ke^{T-C}, donde C es una constante. Siendo la temperatura T una variable aleatoria, la función E(T) también lo será.

Variables aleatorias discretas y continuas
Si la variable estadística es discreta (toma valores enteros) entonces la variable aleatoria también lo será (como en los ejemplos 1 y 2). Si la variable estadística es continua (toma valores reales) entonces la variable aleatoria también lo será (como en los ejemplos 3 y 4).

Notación para las variables aleatorias
Usaremos letras mayúsculas para las variables aleatorias, tales como X, Y, T, ..., y letras minúsculas para valores concretos de la variable: x = 17.3.

separador2

Variable aleatoria discreta: funciones de probabilidad y distribución

Cada valor que toma la variable aleatoria es: o bien un punto muestral (ver: introducción a las probabilidades) o bien una función de un punto muestral. Como cada punto muestral tiene asociada una probabilidad, también la tendrá la variable aleatoria. Cuando la v.a. es discreta (todos sus valores son enteros), llamamos función de probabilidad a la asignación de probabilidades para cada valor posible:

Valores de la v.a. X

Probabilidad

X = x1

p1 = P(X = x1)

...

...

X = xn

pn = P(X = xn)

En general tendremos P (X = x_i) = p_i. Por las propiedades de la probabilidad es inmediato que P (X = x_i) > 0 para todos los puntos x_i. La suma de valores de la función de probabilidad valdrá 1: \sum_iP(X=x_i)=1.

La función de probabilidad podemos verla como la generalización de la frecuencia relativa (ver Estadística descriptiva, análisis de datos). Definimos la función de distribución para v.a. discreta, F(x), como la probabilidad de que la v.a. X tome valores más pequeños o iguales al valor x_k:

F (x_k) = P (X <= x_k)

La relación con la función de probabilidad es inmediata:

F\left(x_k\right)=\sum_{1\leq i\leq k}P\left(X\leq x_i\right)=P\left(X\leq x_k\right)

La función de probabilidad viene a ser la generalización de la frecuencia relativa acumulada (ver Estadística descriptiva, análisis de datos).

Ejemplo 2: Lanzamos un dado dos veces y definimos la variable aleatoria X restando a los puntos obtenidos en el primer lanzamiento los obtenidos en el segundo lanzamiento. Los valores posibles que puede tomar X son {0, 1, 2, 3, 4, 5, -1, -2, -3, -4, -5}. Para calcular la probabilidad de obtener cada uno de esos valores enumeramos los casos posibles para cada uno de ellos; la probabilidad, por la regla de Laplace, será P(caso) = casos posibles / casos totales, teniendo en cuenta que el número de casos totales es 6·6 = 36 combinaciones de puntuaciones, y que los sucesos son excluyentes (si sucede un caso no puede suceder ningún otro). Por ejemplo, para X = 4 tenemos dos casos: (6, 2) y (5, 1), cada uno de ellos tiene probabilidad 1/36, la probabilidad de que suceda uno o el otro, siendo excluyentes, es la suma 1/36 + 1/36. Procediendo de esta forma obtenemos la función de probabilidad de la v.a. X:

x puntuaciones cuenta probabilidad: f(x)
0 1-1, 2-2, 3-3, 4-4, 5-5, 6-6 6 6/36
1 6-5, 5-4, 4-3, 3-2, 2-1 5 5/36
2 6-4, 5-3, 4-2, 3-1 4 4/36
3 6-3, 5-2, 4-1 3 3/36
4 6-2, 5-1 2 2/36
5 6-1 1 1/36

Para los valores que faltan en la tabla, {-1, -2, -3, -4, -5}, las probabilidades son las mismas que para {1, 2, 3, 4, 5}. Así pues la función de probabilidad viene dada por la tabla:

x 0 1 2 3 4 5 -1 -2 -3 -4 -5
f(x) 6/36 5/36 4/36 3/36 2/36 1/36 5/36 4/36 3/36 2/36 1/36

Como comprobación, siempre tenemos que obtener la suma de todos los valores f(x), que ha de valer 1 (una de las propiedades de las probabilidades: si el espacio muestral Ω se puede considerar dividido en n subconjuntos disjuntos entre sí, Ω = A1 ∪ A2 ∪ … ∪ An, entonces P(A1) + P(A2) + … + P(An) = 1 (ver Introducción a las probabilidades, tercera definición de probabilidad). En efecto: 6/36 + 5/36 + 4/36 + 3/36 + 3/36 + 1/36 + 5/36 + 4/36 + 3/36 + 3/36 + 1/36 = 36/36 = 1.

Para obtener la función de distribución de X basta con calcular la tabla de probabilidades acumuladas:

x

0

1

2

3

4

5

-1

-2

-3

-4

-5

f(x)

6/36

5/36

4/36

3/36

2/36

1/36

5/36

4/36

3/36

2/36

1/36

F(x)

6/36

11/36

15/36

18/36

20/36

21/36

26/36

30/36

33/36

35/36

36/36

La gráfica de la función de probabilidad es:

Función de probabilidad, variable discreta
Función de probabilidad, variable discreta

La función de distribución suele representarse como una función escalonada:

Función de distribución, variable discreta
Función de distribución, variable discreta

Propiedades inmediatas de las funciones de distribución discretas F (x)

  1. El valor de F(x) está en el intervalo [0, 1]
  2. F(x) es no decreciente
  3. La probabilidad P(X > x_k) és igual a 1 - F(x_k)

separador2

Variable aleatoria continua: funciones de densidad y distribución


Cuando la variable es continua sabemos que se trabaja con intervalos de la variable (ver Estadística Descriptiva => Agrupación de datos en intervalos). La asignación de probabilidades se hará por tanto para cada intervalo que definamos.


En el tema Estadística Descriptiva la anchura de cada intervalo la definíamos arbitrariamente según el número de intervalos y el recorrido de la variable. Ahora hay que generalizar para intervalos de cualquier anchura: supongamos que el recorrido de la variable aleatoria es [max, min]; entonces definimos una función de densidad de probabilidad f(x) de la v.a. continua X como cualquiera que verifica las tres condiciones siguientes:

  1. No negatividad: f(x) >= 0
  2. Probabilidad de un intervalo: P\left(X\in\left[a,b\right]\right)=\int_a^bf\left(x\right)\operatorname dx
  3. Normalización: P\left(X\in\left[max,\;min\right]\right)=\int_{min}^{max}f\left(x\right)\operatorname dx=1

Se deducen las siguientes propiedades:

  1. La probabilidad en las variables continuas se calcula con una integral sobre un intervalo (2ª propiedad de las funciones de densidad)
  2. La probabilidad de un punto siempre es cero: P (X = x) = P (x <= X <= x) = 0 pues coinciden los límites de la integral (es un intervalo de longitud nula)
  3. En cambio f (x) no tiene porque ser cero en ningún punto
  4. La gráfica de la función de densidad es la generalización del histograma de frecuencias relativas (Estadística Descriptiva).

Definimos la función de distribución para v.a. continuas, F (x), como la probabilidad de que X tome valores más pequeños que a x: F (x) = P (X < x_k).  La relación con la función de densidad es inmediata: si el valor mínimo de la v.a. X es min, entonces tendremos que:

F\left(x_0\right)=P\left(X\in\left[min,\;x_0\right]\right)=\int_{min}^{x_0}f\left(x\right)\operatorname dx

Si la expresión anterior la expresamos para un valor x genérico y la derivamos respecto ese valor x, aplicando el primer teorema fundamental del cálculo obtenemos otra relación importante entre las funciones de densidad y de distribución continuas:

F'\left(x\right)=\frac{\operatorname d{}}{\operatorname dx}\int_{min}^xf\left(t\right)\operatorname dt=f\left(x\right)

Que se expresa como "La derivada de la función de distribución es la función de densidad"

La función de distribución continua tiene ciertas propiedades:

  1. Asíntotas horizontales izquierda y derecha: F (-) = 0, F (+) = 1
  2. F (x) es continua y no decreciente
  3. La probabilidad de un
    intervalo [a, b] es igual a F (b) - F (a)
Ejemplo 3: Sea la función de densidad de probabilidad

f\left(x\right)=\left\{\begin{array}{l}0\;\;\;\;\;\;\;\;\;\;\;\;\;\text{si }x\not\in\left[0,\;1\right]\\\frac23\left(x+1\right)\;\text{si }x\in\left[0,\;1\right]\end{array}\right.

Calcular P(0\leq X\leq0.5), P(-3\leq X\leq0.5), P(0\leq X\leq1)

Según la propiedad 2 de las funciones de densidad: P(0\leq X\leq0.5)=\int_0^{0.5}f\left(x\right)\operatorname dx=\int_0^{0.5}\frac23\left(x+1\right)\operatorname dx=\frac23\left[\frac{x^2}2+x\right]_0^{0.5}=\frac23\left(\frac{0.5^2}2+0.5-0\right)=\frac5{12}.

Para el segundo intervalo hemos de tener en cuenta los intervalos de definición de la función f(x):

P(-3\leq X\leq0.5)=\int_{-3}^{0.5}f\left(x\right)\operatorname dx=\int_{-3}^00\operatorname dx+\int_0^{0.5}\frac23\left(x+1\right)\operatorname dx=0+\frac5{12}=\frac5{12}

Para el tercer intervalo tenemos:

P(-3\leq X\leq0.5)=\int_0^1f\left(x\right)\operatorname dx=\int_0^1\frac23\left(x+1\right)\operatorname dx=\frac23\left[\frac{x^2}2+x\right]_0^1=\frac23\left(\frac12+1-0\right)=1

un resultado esperado, pues es la condición de normalización de las funciones de densidad.

Vectores y valores propios, diagonalización de matrices

Vectores propios y valores propios

Definición 1: dado un endomorfismo f de un espacio vectorial E, f:E\rightarrow E, si existen vectores \boldsymbol v\in E tales que su imagen por f es otro vector proporcional a v, f\left(\boldsymbol v\right)=k\boldsymbol v\in E, siendo k un escalar, diremos que v es un vector propio de f, con valor propio k.

Ejemplo 1: La aplicación lineal f:\mathbb{R}^2\rightarrow\mathbb{R}^2 con matriz (en la base canónica)

\begin{pmatrix}3/5&4/5\\4/5&-3/5\end{pmatrix}

cumple que, para el vector (2, 1),

\begin{pmatrix}3/5&4/5\\4/5&-3/5\end{pmatrix}\begin{pmatrix}2\\1\end{pmatrix}=\begin{pmatrix}6/5+4/5\\8/5-3/5\end{pmatrix}=\begin{pmatrix}2\\1\end{pmatrix}

luego (2, 1) es un vector propio de f, con valor propio k = 1.

Condición para que existan valores y vectores propios

Teóricamente para encontrar los posibles valores propios de una aplicación lineal f planteamos la ecuación  lineal

f\left(\boldsymbol v\right)=k\boldsymbol v\Leftrightarrow f\left(\boldsymbol v\right)-k\boldsymbol v=\mathbf0\Leftrightarrow\left(f-k\mathbb{I}\right)=\mathbf0 [1]

, donde \mathbb{I} es la aplicacion identidad, \mathbb{I}\left(\boldsymbol v\right)=\boldsymbol v\right, y el símbolo 0 representa el vector nulo. Esto puede interpretarse como: los vectores propios de f han de ser vectores del núcleo de la aplicación \left(f-k\mathbb{I}\right). Recordando que para que el núcleo de una aplicación no sea el conjunto vacío se ha de cumplir que su determinante sea nulo, obtenemos la condición de existencia de valores y vectores propios:

\text{det}\;\begin{pmatrix}a_{11}-1&\dots&a_{1n}\\\vdots&\dots&\vdots\\a_{n1}&\cdots&a_{nn}-1\end{pmatrix}=0 [2]

Ejemplo 2: La aplicación del ejemplo 1 cumple la condición de existencia de vectores y valores propios:

\text{det}\begin{pmatrix}3/5-1&4/5\\4/5&-3/5-1\end{pmatrix}=\begin{vmatrix}-\frac25&\frac45\\\frac45&-\frac85\end{vmatrix}=\frac{16}{25}-\frac{16}{25}=0

Polinomio característico de la aplicación lineal

Para encontrar vectores propios de f, hemos visto que será lo mismo que encontrar los vectores del núcleo de la aplicación lineal \left(f-k\mathbb{I}\right) para los valores posibles de k. Estos valores k han de cumplir la condición [2]:

\text{det}\;\begin{pmatrix}a_{11}-k&\dots&a_{1n}\\\vdots&\dots&\vdots\\a_{n1}&\cdots&a_{nn}-k\end{pmatrix}=0 [3].

Al desarrollar este determinante, obtenemos un polinomio de grado n en la variable k, denominado polinomio característico de la aplicación lineal f. Para cada raíz de este polinomio, obtendremos uno de los valores propios de f.

Ejemplo 3: La aplicación del ejemplo 1 tiene por polinomio característico:

\text{det}\begin{pmatrix}3/5-k&4/5\\4/5&-3/5-k\end{pmatrix}=-\frac9{25}+k^2-\frac{16}{25}=k^2-1

con raíces k = +1, -1, que son los valores propios de f.

Propiedad 1: Una propiedad importante del polinomio característico es que no depende de las bases en la que expresemos la matriz de la aplicación f, por este motivo se le llama característico de f.

Determinación de los vectores propios

Para cada valor propio encontrado con el polinomio característico, planteamos la ecuación lineal [1], que será un sistema con n incógnitas del tipo indeterminado, pues su determinante es nulo (condición [2]). Las soluciones formaran un subespacio vectorial: el del núcleo de la aplicación \left(f-k\mathbb{I}\right).

Ejemplo 4: para el valor propio k = 1 de la aplicación del ejemplo 1, planteamos y resolvemos el sistema siguiente:

\begin{array}{l}\begin{pmatrix}3/5-1&4/5\\4/5&-3/5-1\end{pmatrix}\begin{pmatrix}x\\y\end{pmatrix}=\begin{pmatrix}0\\0\end{pmatrix}\Rightarrow\left.\begin{array}{r}-\frac25x+\frac45y=0\\\frac45x-\frac85y=0\end{array}\right\}\Rightarrow\\\left.\begin{array}{r}-\frac45x+\frac85y=0\\\frac45x-\frac85y=0\end{array}\right\}\Rightarrow x-2y=0\Rightarrow\boxed{x=2y}\end{array}

Cualquier vector que cumpla esta condición será un vector propio de f con valor propio k = 1, como por ejemplo los vectores (2, 1), (10, 5), (-4, -2), ...

Cuando el polinomio característico tiene raíces múltiples, no siempre será posible encontrar todos los vectores propios, como establece la siguiente propiedad:

Propiedad 2: la dimensión del subespacio Núcleo de \left(f-k\mathbb{I}\right) para raíces múltiples k es menor o igual  que la multiplicidad.

Ejemplo 5: La aplicación lineal que tiene por matriz

\begin{pmatrix}6&3&1\\-27&-14&-5\\65&36&13\end{pmatrix}

cumple la condición [2] de existencia de valores y vectores propios (comprobado con una calculadora de determinantes en línea). Calculemos su polinomio característico:

\begin{array}{l}\text{det }\begin{pmatrix}6-k&3&1\\-27&-14-k&-5\\65&36&13-k\end{pmatrix}=\left(6-k\right)\begin{vmatrix}-14-k&-5\\36&13-k\end{vmatrix}+27\begin{vmatrix}3&1\\36&13-k\end{vmatrix}-65\begin{vmatrix}3&1\\-14-k&-5\end{vmatrix}=\\\left(6-k\right)\left(-182+14k-13k+k^2+180\right)+27\left(39-3k-36\right)+65\left(-15+14+k\right)=\\\left(6-k\right)\left(k^2+k-2\right)+27\left(3-3k\right)-65+65k=\\6k^2+6k-12-k^3-k^2+2k+81-81k-65+65k=\\-k^3+5k^2-8k+4=0\end{array}

En casos reales deberíamos obtener las raíces de forma aproximada con ordenador, en este ejemplo didáctico las raíces son enteras, por Ruffini probamos con los divisores del término independiente, 4:

\begin{array}{l}\;\;\begin{array}{cccc}-1&5&-8&4\end{array}\\1\;\;\underline{\;\begin{array}{cccc}&-1&4&-4\end{array}}\\\begin{array}{cccc}\;\;-1&4&-4&\boxed0\end{array}\;\\\end{array}

Tenemos el primer valor propio, k = 1, es una raíz simple (multiplicidad = 2), y el subespacio vectorial asociado de valores propios tendrá, pues, dimensión 1 (geométricamente es una recta). Hemos reducido la ecuación característica a segundo grado, -k^3+5k^2-8k+4=\left(k-1\right)\left(-k^2+4k-4\right), la resolvemos directamente:

-k^2+4k-4=0\Rightarrow k=\frac{-4\pm\sqrt{16-4\cdot(-1)\cdot(-4)}}{-2}=2

El valor propio k = 2 es una raíz doble (multiplicidad = 2), el subespacio vectorial asociado de valores propios puede tener dimensión 1 (una recta) o 2 (un plano).

Diagonalización de endomorfismos (y matrices)

Propiedad 3: los vectores propios correspondientes a valores propios distintos de un endomorfismo f son linealmente independientes.

Por la propiedad 3, en una aplicación f en un espacio de dimensión n, no pueden haber más de n valores propios distintos, pues ese es el número máximo de vectores linealmente independientes.

Definición 2: dado un endomorfismo f de un espacio vectorial E, f:E\rightarrow E de dimensión n, si existen exactamente n valores propios de f, diremos que el endomorfismo (y su matriz) es diagonalizable.

El nombre "diagonalizable" proviene del hecho de que, si existen n vectores propios independientes, formaran una base del espacio, y si expresamos la matriz de f en esa base, entonces la matriz será diagonal, y sus elementos seran precisamente los valores propios. En efecto, si {u_1,u_2,...,u_n} es la base de vectores propios, con valores propios {k_1,k_2,...,k_n}, entonces la matriz de f en esa base está formada por las imágenes f(u_i)=k_iu_i expresadas en la misma base {u_1,u_2,...,u_n}, que es la matriz diagonal:

\begin{pmatrix}k_1&&\\&\ddots&\\&&k_n\end{pmatrix}

Ejemplo 6: la aplicación lineal del ejemplo 1, sobre el espacio \mathbb{R}^2, tiene dos valores propios, luego será diagonalizable: podemos tomar una base de \mathbb{R}^2 formada por vectores propios cualesquiera de f, y en esa base la matriz de f será:

\begin{pmatrix}1&0\\0&-1\end{pmatrix}

Ejemplo 7: la aplicación lineal f del ejemplo 5 tiene una raíz doble k = 2, para que sea diagonalizable ha de suceder que la dimensión del núcleo de (f - 2I) sea también 2. Vamos a comprobarlo, recordando que los vectores (x, y, z) del núcleo son aquellos que tienen por imagen el vector nulo, planteamos:

\left(f-2\mathbb{I}\right)\begin{pmatrix}x\\y\\z\end{pmatrix}=0\Leftrightarrow\begin{pmatrix}4&3&1\\-27&-16&-5\\65&36&11\end{pmatrix}\begin{pmatrix}x\\y\\z\end{pmatrix}=\begin{pmatrix}4x+3y+z\\-27x-16y-5z\\65+6y+11z\end{pmatrix}=\begin{pmatrix}0\\0\\0\end{pmatrix}

un sistema lineal homogéneo, que simplificamos:

\begin{array}{l}\begin{array}{c}27\cdot\\4\cdot\\\end{array}\begin{pmatrix}4x+3y+z\\-27x-16y-5z\\65+36y+11z\end{pmatrix}\sim\begin{pmatrix}108x+81y+27z\\-108x-64y-20z\\65+36y+11z\end{pmatrix}\sim\begin{pmatrix}4x+3y+z\\0x+17y+7z\\65+36y+11z\end{pmatrix}\sim\\\begin{array}{c}65\cdot\\\\-4\end{array}\begin{pmatrix}4x+3y+z\\0x+17y+7z\\65+36y+11z\end{pmatrix}\sim\begin{pmatrix}260x+195y+65z\\0x+17y+7z\\-260x-144y-44z\end{pmatrix}\sim\begin{pmatrix}4x+3y+z\\0x+17y+7z\\0x-51y-21z\end{pmatrix}\sim\\\begin{array}{c}\\51\\17\end{array}\begin{pmatrix}4x+3y+z\\0x+17y+7z\\0x-51y-21z\end{pmatrix}\sim\begin{pmatrix}4x+3y+z\\0x+867y+357z\\0x-867y-357z\end{pmatrix}\sim\begin{pmatrix}4x+3y+z\\0x+17y+7z\\0x+0y+0z\end{pmatrix}\end{array}

Vemos que nos quedan 2 ecuaciones independientes: la dimensión del núcleo de (f - 2I) es 1, no coincide con la multiplicidad del valor propio k = 2, luego la matriz no es diagonalizable. Resolviendo el sistema indeterminado podemos obtener los vectores propios del valor propio k = 2:

\begin{array}{l}\left.\begin{array}{r}4x+3y+z=0\\17y+7z=0\end{array}\right\}\Rightarrow\left.\begin{array}{r}4x+3y+z=0\\\boxed{y=-7z/17}\end{array}\right\}\Rightarrow4x-\left(21/17\right)z+z=0\Rightarrow\\4x-\left(4/17\right)z=0\Rightarrow\boxed{x=\left(1/17\right)z}\end{array}

o sea que nos queda los vectores (x, y, z) en función de z; por ejemplo, dado z = 17, entonces x =1 , y = -7, y obtenemos el vector propio (1, -7, 17) para el valor propio k = 2.

Obtengamos ahora un vector propio para el valor k = 1, o sea, resolvemos la ecuación (f - 1·I)v = 0, donde v = (x, y, z); esta vez usamos una hoja de cálculo para los detalles aritméticos:

pivote

Resolviendo las dos ecuaciones independientes:

\begin{array}{l}\left.\begin{array}{r}5x+3y+z=0\\6y+2z=0\end{array}\right\}\Rightarrow\left.\begin{array}{r}5x+3y+z=0\\\boxed{y=-z/3}\end{array}\right\}\Rightarrow4x-z+z=0\Rightarrow\boxed{x=0}\\\end{array}

Por ejemplo, para z = 3, obtenemos el vector propio (0, -1, 3). Como f no diagonaliza, no tenemos una base de vectores propios de f; lo que sí podemos hacer es completar los vectores propios de f con otro vector linealmente independiente para obtener una base que "casi diagonaliza". Por ejemplo, el vector (1, 0, 1) es claramente independiente de (1, -7, 17) y de (0, -1, 3). Tenemos pues la base {(1, -7, 17) , (0, -1, 3) , (1, 0, 1)}. ¿cuál será la matriz de f en esta base? Determinemos f((1, 0, 1), que resulta ser (7, -32, 78). ¿Cómo se expresa este vector en la base dada? Planteamos (7, -32, 78) = x·(1, -7, 17)+y·(0, -1, 3) + z·(1, 0, 1)  resolvemos este sistema, esta vez usamos una de las muchas páginas de Internet gratuitas que hacen el trabajo pesado (http://wims.unice.fr/wims/wims.cgi). obtenemos:

pivote2

Entonces concluimos que la matriz de f en la base que hemos diseñado es:

\begin{pmatrix}1&0&-\frac{25}3\\0&2&-\frac{79}3\\0&0&\frac{46}3\end{pmatrix}.

Ejemplo 8: comprobar si la matriz siguiente diagonaliza, teniendo en cuenta que está expresada en la base {(1, 1, 0), (1, 0, 1), (2, 2, 1)},

\begin{pmatrix}2&-3&0\\2&0&0\\0&-3&0\end{pmatrix}.

Antes que nada, si queremos comprobar que  {(1, 1, 0), (1, 0, 1), (2, 2, 1)} es realmente una base, calculamos el determinante que tiene por columnas los vectores, si son independientes el resultado ha de ser distinto de cero, lo hacemos con la web WolframAlpha:

determ

Vemos que es distinto de cero, luego efectivamente los vectores forman base. A continuación calculamos el polinomio característico del determinante, que recordemos que no depende de la base usada (propiedad 1), planteamos

det\begin{pmatrix}2-k&-3&0\\2&-k&0\\0&-3&-k\end{pmatrix}

y lo resolvemos de nuevo con WolframAlpha: el código es det {{2-k, 2, 0}, {-3, -k, -3}, {0, 0, -k}}, y el resultado -k (k^2 - 2 k + 6), este polinomio tiene una única raíz real, k = 0, con lo cual la matriz no es diagonalizable (ver definición 2).

 

Optimización continua: introducción y conceptos básicos

Introducción

Este artículo y otros de la categoria "Optimización"  se basan en mis apuntes como estudiante en la asignatura Optimización Continua, impartida en la Facultad de Matemáticas de la UPC en Barcelona por el catedrático Narcís Nabona.

El campo de la optimización matemática tiene como objetivo encontrar un conjunto de valores x_1,...,x_n que minimicen (o maximicen) una funciónf(x_1,...,x_n) posiblemente sujeto a una serie de restricciones sobre las variables. Cuando las funciones son reales y derivables, el campo se restringe a la denominada optimización continua. En general, en las aplicaciones prácticas, los problemas suelen ser demasiado grandes y complicados para obtener una solución exacta por un método analítico, incluso si la función es lineal, por lo que se recurre a cálculo computacional usando algoritmos matemáticos para resolver, por iteraciones sucesivas, el problema hasta un cierto grado de precisión. Las aplicaciones son muy numerosas, podemos citar el análisis de estabilidad reacciones químicas, análisis de estabilidad de sistemas complejo,  síntesis en una red de reactores químicos, estimación de parámetros y reconciliación de datos,  óptica, y diseño atómico y molecular de compuestos.

Ejemplo 1: (Optimization Problems Arising in Optics and Mechanics - Robert. J Vanderbei) En la búsqueda de posibles planetas que puedan albergar vida semejante a la nuestra, se necesita detectar planetas de un tamaño similar a la Tierra, orbitando en torno a estrellas parecidas al Sol; la luz reflejada por esos planetas es del orden de 10^{-10} veces menor a la luz emitida por la estrella, por tanto son fuentes de luz extraordinariamente débiles, pero además, dadas las distancias astronómicas a las que están, la separación por los telescopios de la imagen de la estrella y del planeta necesita tratar con una separación angular del orden de 0.1 segundos de arco, o sea una ángulo de 10^{-5} grados. Para ello se utiliza un telescopio con un espejo curvo de 40m de diámetro, el problema que se encuentra es la aparición de anillos de difracción, que enmascaran la luz del planeta que se quiere observar, para ello se recurre a encontrar una forma óptima que minimice la difracción, resultando un problema en un número infinito de dimensiones (infinite-dimensional optimization).

En lo que sigue supondremos que estamos buscando el máximo de una función real de variable vectorial, f:\mathbb{R}^n\rightarrow\mathbb{R}.

Formas cuadráticas

Definición 1: Si Q es una matriz cuadrada simétrica de orden n, la aplicación de \mathbb{R}^n en \mathbb{R},  f(x) = x'Qx [1], es una forma cuadrática (real).

Descomposición espectral de una matriz simétrica

Las matrices simétricas siempre tienen valores propios reales: Qu_i=\lambda_iu_i,\;\lambda_i\in\mathbb{R}. Recordemos que los vectores propios u_i de una matriz Q son independientes entre sí, y si además la matriz es simétrica, además serán ortogonales: u_iu_j=\delta_{ij}=1\;\text{si }i=j,\;0\;\text{si }i\neq j. Si los normalizamos, v_i=\frac{u_i}{\parallel u_i\parallel}, y los disponemos en forma de matriz, V=\begin{bmatrix}v_1&\dots&v_n\end{bmatrix}, se cumplirá que VQV' = I, donde I es la matriz identidad.  Además, llamando \Lambda a la matriz diagonal que tiene por elementos los valores propios \lambda_i, se verifica V'Q=\;\Lambda V'.

El producto

\begin{array}{l}V\;\Lambda V'=\begin{bmatrix}v_1&\dots&v_n\end{bmatrix}\begin{bmatrix}\lambda_1&&\\&\ddots&\\&&\lambda_n\end{bmatrix}\begin{bmatrix}v_1\\\vdots\\v_n\end{bmatrix}={\textstyle\sum_{}}\lambda_iv_iv_i'\\\\\end{array}

se llama la descomposición espectral de la matriz Q.

Signo de una forma cuadrática

Si en la definición [1] sustituimos Q por su descomposición espectral obtenemos la expresión

\begin{array}{l}x'\left({\textstyle\sum_{}}\lambda_iv_iv_i'\right)x=\sum\lambda_i\left(x'v_iv_i'x\right)=\sum\lambda_i\left(v_ix\right)^2\\\\\end{array}

cuyo signo sólo depende del signo de los valores propios \lambda_i:

Definición 2: signo de la forma cuadrática Q.

  • Q es definida positiva si todos los \lambda_i>0
  • Q es definida negativa si todos los \lambda_i<0
  • Q es semidefinida positiva si todos los \lambda_i\geq0
  • Q es semidefinida negativa si todos los \lambda_i\leq0
  • Q es indefinida en cualquier otro caso

Gráfica de una forma cuadrática

Si Q es definida positiva, la gráfica de x'Qx forma un paraboloide elíptico en el cuadrante positivo XYX (fig. 1, izquierda).

Gráfica de x'Qx para x: vector de R², siendo Q def.+ o indefinida
Fig. 1: Gráfica de x'Qx para x: vector de R², siendo Q def.+ o indefinida

Las curvas de nivel son elipses, todos con los mismos ejes cuyas direcciones vienen determinadas por los vectores propios. Si Q es indefinida, entonces x'Qx forma un paraboloide hiperbólico (una "silla de montar", fig.1, derecha).

Máximos y mínimos de funciones convexas; aplicación a formas cuadráticas

El concepto de función convexa que se estudia en Cálculo es importante en Optimización debido a la siguiente

Propiedad 1:  Si una función real es convexa en un intervalo, y en ese intervalo tiene un mínimo local en x_0, entonces ese mínimo es absoluto.

La siguiente propiedad relaciona funciones convexas con formas cuadráticas:

Propiedad 2: Una forma cuadrática es una función convexa si y sólo si es definida positiva.

Así pues, si una forma cuadrática definida positiva tiene un mínimo en x_0, entonces ese mínimo es absoluto.

Convergencia de algoritmos iterativos

Como comentábamos en la introducción, en Optimización se utilizan algoritmos para aproximar, por iteraciones sucesivas, el óptimo de una función dada. En esta sección repasamos algunos conceptos básicos de tales algoritmos.

Definición 3: Eficiencia computacional de un algoritmo.

Es una medida del número de operaciones de cálculo y de su complejidad que necesita ejecutar el algoritmos en cada iteración.

Definición 4: Convergencia global.

Un algoritmo que se acerca al óptimo x^*  todo lo que queramos por aproximaciones sucesivas {x_0,x_1,..._x_n,...} es globalmente convergente si converge al óptimo sea cual sea el punto inicial x_0 tomado.

Definición 5: Convergencia local.

Se refiere a la "velocidad" de aproximación al óptimo x^* de un algoritmo cuando estamos en la iteración n-ésima y el valor actual x_n está dentro de un entorno B(x^*,r) de radio r "pequeño". Suele suceder que las primeras iteraciones avanzan rápido, pero cuando nos acercamos al óptimo la convergencia es más lenta, por eso tiene sentido este indicador de convergencia local.

A continuación detallamos un poco estas dos últimas definiciones.

Convergencia global

El método clásico de asegurar la convergencia global es de las direcciones de descenso:  dado el punto x_k de la iteración actual el algoritmo ha de buscar una dirección D_k (una recta) a lo largo de la cual se moverá para hallar el próximo punto x_{k+1}, la distancia será un parámetro \alpha, de forma que podemos definir una función de una variable real g(\alpha)=f(x_k+\alpha D_k); encontrando el valor \alpha que minimice g(\alpha) obtendremos el nuevo punto x_{k+1}=x_k+\alpha D_k. A este proceso de minimización a lo largo de la recta x_k+\alpha D_k se le llama busqueda lineal (line search).

Propiedad 3: condición necesaria (no suficiente) de convergencia global.

Para tener convergencia global es necesario que las D_k sean direcciones de descenso para la función f(x) que se minimiza, esto es, queremos que se cumpla f\left(x_k+\alpha D_k\right)<f\left(x_k\right) para \alpha>0.

¿Qué caracteriza a una dirección de descenso? Desarrollemos en serie de Taylor f(x_k+\alpha D_k) alrededor del punto x_k hasta la primera derivada:

f\left(x_k+\alpha D_k\right)\approx f\left(x_k\right)+\alpha D_k\nabla f\left(x_k\right),

imponiendo la condición de descenso:

f\left(x_k+\alpha D_k\right)<f\left(x_k\right)+\alpha D_k\nabla f\left(x_k\right)\Rightarrow\alpha D_k\nabla f\left(x_k\right)<0\Rightarrow\boxed{D_k\nabla f\left(x_k\right)<0} [1]

Recordando que el gradiente \nabla f y la dirección D_k son vectores, la condición anterior nos dice que su producto escalar ha de ser negativo, intuitivamente, las direcciones de descenso "apuntan al lado contrario que el vector gradiente".

Convergencia local

¿Cómo podemos medir la convergencia local? Lo haremos de forma semejante a las series de números reales, usando los conceptos de orden de convergencia y tasa de convergencia. Dada una sucesión convergente x_1, x_2, ..., x_k, ... con límite x^*,

Definición 6: orden y tasa de convergencia

diremos que el orden de convergencia es p, un número entero, si p es el mayor entero tal que  el siguiente límite existe:

\lim_{k\rightarrow\infty}\frac{\left\|x_{k+1}-x^\ast\right\|}{\left\|x_k-x^\ast\right\|^p}=\beta [2]

siendo \beta la tasa de convergencia.

En general no es fácil establecer establecer el orden y tasa de convergencia de un algoritmo. En el siguiente apartado vemos el importante algoritmo del gradiente.

Minimización de funciones cuadráticas con el algoritmo del gradiente

Definición 7: función cuadrática

Es toda función vectorial de variable real de la forma q\left(x\right)=\frac12x'Qx-c'x, donde x,c\in\mathbb{R}^n, x',c' son los vectores transpuestos (vectores fila), y Q es una matriz cuadrada simétrica y definida positiva, con lo cual el término \frac12x'Qx es una forma cuadrática.

La minimización de funciones cuadráticas es importante desde el punto de vista teórico y práctico. De hecho el mínimo x^* es fácil de encontrar de forma analítica, derivando e igualando a cero: \frac{\operatorname dq}{\operatorname dx}=Qx-c=0\Rightarrow x^\ast=Q^{-1}c. Si hacemos la segunda derivada, \frac{\operatorname d^2q}{\operatorname dx^2}=Q, que al ser Q definida positiva, asegura que el valor x^* es un mínimo. Usaremos las funciones cuadráticas para analizar el comportamiento del algoritmo del gradiente. Empezamos con una definición.

Definición 8: función error.

Si x^* es el mínimo de una función cuadrática, definimos la función error asociada como

\varepsilon\left(x\right)=\frac12\left(x-x^\ast\right)^'Q\left(x-x^\ast\right) [3]

Desarrollando esta expresión:

\varepsilon\left(x\right)=\frac12x'Qx-\frac12x'Qx^\ast-\frac12x^{\ast'}Qx+\frac12x^{\ast'}Qx^\ast

como la matriz Q es simétrica, \frac12x'Qx^\ast=\frac12x^{\ast'}, y llamando q(x) a la forma cuadrática \frac12x'Qx, nos queda

Ejemplo: La función cuadrática q\left(x\right)=2x_1^2+x_2^2-x_1-2x_2, que puede expresarse matricialmente como

q\left(x\right)=\frac12\begin{pmatrix}x_1&x_2\end{pmatrix}\begin{pmatrix}4&0\\0&2\end{pmatrix}\begin{pmatrix}x_1\\x_2\end{pmatrix}-\begin{pmatrix}1&2\end{pmatrix}\begin{pmatrix}x_1\\x_2\end{pmatrix}=\frac12x'Qx-cx

tiene el mínimo absoluto (es una función convexa) en x^\ast=\begin{pmatrix}\frac14&1\end{pmatrix}; en la siguiente figura representamos sus curvas de nivel, correspondientes a los valores q = 0, 1 y 2, que son una família de elipses concénticas, y el vector óptimo x^\ast

 

Curvas de nivel y posición del óptimo de la función cuadrática q(x)

Dado el punto x=(2,2), su función error es

\varepsilon\left(x\right)=\frac12\begin{pmatrix}2-\frac12&2-1\end{pmatrix}\begin{pmatrix}4&0\\0&2\end{pmatrix}\begin{pmatrix}2-\frac12\\2-1\end{pmatrix}=5.5.

El gradiente  de la función es

\nabla q=\begin{pmatrix}4x_1-1\\2x_2-2\end{pmatrix}

Algoritmo del descenso más rápido

Los métodos que obtienen la dirección de descenso usando el vector gradiente son la família de métodos del gradiente. Una posible dirección de descenso es precisamente la opuesta al gradiente, evidentemente cumple con la condición de descenso [1]: D=-\nabla q. Si actuamos así, estamos usando el método del descenso más rápido (steepest descent method). Tomando el punto inicial x = (0, 0), el punto siguiente será

x=\left(0,0\right)+\alpha D=\left(0,0\right)-\alpha\begin{pmatrix}4\cdot0-1\\2\cdot0-2\end{pmatrix}=\begin{pmatrix}\alpha\\2\alpha\end{pmatrix}

El valor de la función en ese nuevo punto será q\left(\alpha,2\alpha\right)=2\alpha^2+4\alpha^2-\alpha-4\alpha=6\alpha^2-5\alpha=f\left(\alpha\right), una función del parámetro \alpha, procedemos a encontrar el mínimo de esta función de una variable: f'\left(\alpha\right)=12\alpha-5=0\Rightarrow\alpha=5/12, que es un mínimo ya que f''\left(\alpha\right)=12>0. Para este valor, obtenemos el siguiente punto,

\left(x_1,x_2\right)=\left(0,0\right)+\frac5{12}\begin{pmatrix}1\\2\end{pmatrix}=\begin{pmatrix}5/12\\5/6\end{pmatrix}

Si repetimos este proceso con el nuevo punto, esto es, calcular el gradiente en ese punto, obtener la función f(\alpha ) y minimizarla para encontrar \alpha, y así obtener el punto siguiente, obtenemos el siguiente punto de la sucesión, que es (1/4, 1.4). En la figura vemos el avance del algoritmo:

optimitzacio-8

Observad que en el primer paso, el que obtiene el primer vector x_1, se toma la dirección perpendicular a la curva de nivel (línea de puntos) que pasa por el punto inicial (0. 0); de hecho este método procede siempre así, en todo punto. Las instrucciones precisas son:

Método del descenso más rápido (steepest descent method)

Para minimizar una función real f\left(x\right):\mathbb{R}^n\rightarrow\mathbb{R}, dado un punto inicial x_0, y una tolerancia \varepsilon, poner k = 1

  • paso 1) Calcular la dirección de descenso  D_k=-\nabla f\left(x_k\right)
  • paso 2) obtener \min_\alpha f\left(x_k+\alpha D_k\right) (exploración lineal)
  • paso 3) obtener el siguiente punto x_{k+1}=x_k+\alpha D_k
  • paso 4) Calcular \left\|\nabla f\left(x_{k+1}\right)\right\|
  • paso 5) si \left\|\nabla f\left(x_{k+1}\right)\right\|<\varepsilon, SALIR: óptimo encontrado, x^\ast\approx x_{k+1}, en otro caso, incrementar k := k +1, SALTAR al paso 1.

Si especializamos este método a las funciones cuadráticas, obtenemos:

Método del descenso más rápido para funciones cuadráticas

Para minimizar una función cuadráticaq\left(x\right)=\frac12x'Qx-c'xq\left(x\right):\mathbb{R}^n\rightarrow\mathbb{R}, dado un punto inicial x_0, y una tolerancia \varepsilon, poner k = 1

  • paso 1) Calcular la dirección de descenso  D_k=-\nabla f\left(x_k\right)=-Qx_k+c
  • paso 2) obtener \min_\alpha f\left(x_k+\alpha D_k\right) (exploración lineal), que es \alpha=\frac{\left\|D_k\right\|^2}{D_k^{'}\cdot Q\cdot D_k}
  • paso 3) obtener el siguiente punto x_{k+1}=x_k+\alpha D_k
  • paso 4) Calcular \left\|\nabla f\left(x_{k+1}\right)\right\|=\left\|-Qx_{k+1}+c\right\|
  • paso 5) si \left\|\nabla f\left(x_{k+1}\right)\right\|<\varepsilon, SALIR: óptimo encontrado, x^\ast\approx x_{k+1}, en otro caso, incrementar k := k +1, SALTAR al paso 1.

Ejemplo 3: Aplicando el método del descenso más rápido a la función del ejemplo 2, con el punto inicial (0, 0) y una tolerancia 0.001, obtenemos la secuencia de iteraciones siguiente:

Fig. 6: iteraciones del método del descenso más rápido, función cuadrática
Fig. 6: iteraciones del método del descenso más rápido, función cuadrática

En 7 iteraciones obtenemos el mínimo aproximado (0.2499, 0.9996) que está cerca del exacto, (0,25, 1).

Coste computacional y tasa de convergencia

En algoritmos numéricos, el coste computacional es una estimación del orden de magnitud del número de operaciones aritméticas efectuadas por el algoritmo. En el método del descenso más rápido para funciones cuadráticas, los pasos más costosos son el 1 y el 2: obtener el producto de la matriz Q de dimensión n x n, con el vector x, de dimensión n, necesita n² operaciones, y el producto x'Qx necesita n² + n² operaciones. Como solo nos interesa el orden de magnitud, concluimos que el coste es del orden de n².

Para obtener la tasa de convergencia recordamos la expresión [3] de la función error, en el punto x_k, a la que añadimos el término QQ^{-1} que es igual a la matriz identidad:

\begin{array}{l}\varepsilon\left(x\right)=\frac12\left(x-x^\ast\right)'Q\left(x-x^\ast\right)=\frac12\left(x-x^\ast\right)'\left(QQ^{-1}\right)Q\left(x-x^\ast\right)\\\end{array}

Aplicamos ahora que Qx_k-c es igual al gradiente de q(x), lo llamamos C_k, y también usamos que para el vector óptimo x^* se cumple que Qx^*=c, con ello obtenemos:

\begin{array}{l}\varepsilon\left(x\right)=\frac12\left(x_k-x^\ast\right)'\left(QQ^{-1}\right)Q\left(x_k-x^\ast\right)=\frac12\left[-x_k^{\ast'}Q+x_k'Q\right]Q^{-1}\left[Qx_k-Qx_k^\ast\right]=\\\frac12\left[-c'+c'+C_k\right]Q^{-1}\left[C_k+c-c\right]=\frac12C_kQ^{-1}C_k\\\end{array}

Para la función error en el vector x_{k+1} obtenemos \frac12C_{k+1}Q^{-1}C_{k+1}. Recordando que en el paso 3 del algoritmo hacemos x_{k+1}=x_k+\alpha D_k, siendo \alpha=\frac{\left\|D_k\right\|^2}{D_k^{'}\cdot Q\cdot D_k} y D_k=-C_k, vemos que:

x_k-x_{k+1}=-\alpha D_k=\frac{\left\|C_k\right\|^2}{C_k'QC_k}C_k

sustituimos esta expresión en la de la función error:

\begin{array}{l}\varepsilon\left(x_k\right)-\varepsilon\left(x_{k+1}\right)=\frac12\left(x_k-x^\ast\right)'Q\left(x_k-x^\ast\right)-\frac12\left(x_{k+1}-x^\ast\right)'Q\left(x_{k+1}-x^\ast\right)=\\\frac12\left(x_k-x_{k+1}\right)'Q\left(x_k-x_{k+1}\right)=\frac12\left(\frac{\left\|C_k\right\|^2}{C_k'QC_k}C_k\right)'Q\left(\frac{\left\|C_k\right\|^2}{C_k'QC_k}C_k\right)=\\\frac12\frac{\left\|C_k\right\|^2}{C_k'QC_k}\left(\cancel{C_k'QC_k}\right)\frac{\left\|C_k\right\|^2}{\cancel{C_k'QC_k}}=\frac12\frac{\left\|C_k\right\|^4}{C_k'QC_k}\end{array}

Entonces el error relativo es:

\frac{\varepsilon\left(x_k\right)-\varepsilon\left(x_{k+1}\right)}{\varepsilon\left(x_k\right)}=\frac{\left\|C_k\right\|^4}{\left(C_k'Q^{-1}C_k\right)\left(C_k'QC_k\right)}

Necesitamos ahora el siguiente resultado:

Lema: aplicando la desigualdad de Kantorovich al caso de la función cuadrática, resulta que se cumple

\frac{\left\|C_k\right\|^4}{C_k'QC_k}\geq\frac{4Aa}{\left(A+a\right)^2}

siendo A, a, los valores propios mayor y menor, respectivamente, de la matriz Q.

Aplicando el lema, llegamos a una cota superior para la tasa de convergencia:

\beta=\frac{\varepsilon_{k+1}}{\varepsilon_k}\leq\frac{\left(A-a\right)^2}{\left(A+a\right)^2}\leq1

El algoritmo del descenso más rápido aplicado a una función cuadrática tiene una tasa de convergencia que depende de los valores propios de la forma cuadrática.

Como consecuencia, si A >> a, entonces \beta tiende a 1, y el error tiende a ser constante: el algoritmo se estanca, no avanza. En el otro caso extremo, si A = a, entonces \beta=0: el algoritmo alcanza el mínimo en un solo paso. La distribución de los valores propios tiene una relación directa con la geometría de las curvas de nivel. Esta situación sugiere que, cambiando la escala del problema, se puede convertir la geometría de forma que se igualen los valores propios de Q, consiguiendo que el método sea eficiente en casos generales. Esto efectivamente es posible, y conduce a los métodos de gradiente conjugado.

optimitzacio-9
Izquierda: la dirección de máximo descenso es la misma para todas las curvas de nivel cuando son esferas concéntricas. Derecha: cuando son elipsoides muy achatados, las direcciones de máximo descenso cambian continuamente, produciendo pasos muy cortos y perjudicando la tasa de convergencia.

Ejemplo 4: La tasa de convergencia del método aplicado a la función cuadrática  del ejemplo 2, con A = 4, a = 2, es \beta=\frac{\varepsilon_{k+1}}{\varepsilon_k}\leq\frac{\left(4-2\right)^2}{\left(4+2\right)^2}=\frac4{36}=\frac19, estimación que coincide bastante bien con el descenso en el valor del módulo del gradiente observado en el ejemplo 3.

Aplicaciones lineales

Competencias:

  1. Calcular el  núcleo e imagen de una aplicación lineal.
  2. Determinar una aplicación lineal conociendo las imágenes de los vectores de una base.

Conceptos:

  1. Conocer el concepto de aplicación lineal y su relación con las matrices.

separador2

Aplicaciones lineales

Las aplicaciones lineales, como todas las aplicaciones, son un tipo de correspondencia entre conjuntos, en este caso entre vectores de dos espacios vectoriales (para un recordatorio de las correspondencias entre conjuntos, ver el artículo Funciones), de hecho son funciones (o aplicaciones), pero con dos condiciones adicionales:

Definición 1: aplicación lineal entre espacios vectoriales. Una aplicación lineal es una función f que asigna vectores u de un espacio vectorial U a vectores f(u) = de otro espacio vectorial V, cumpliendo las siguientes condiciones de linealidad:

  1. f(u + u') = f(u) + f(u') = v + v', siendo u, u' vectores cualesquiera de U, y v, v' vectores de V
  2. k·f(u) = f(k·u) para cualquier vector u de U

Ejemplo 1: La correspondencia f que relaciona cada vector u del plano V_2 con el propio vector u girado 90⁰ en sentido horario, ¿es una aplicación lineal? Antes que nada, establecemos que es una aplicación: a cada vector u le corresponde un único vector f(u). Comprobemos ahora las condiciones de linealidad. La primera nos pregunta que pasa con las sumas de vectores: ¿es lo mismo sumar dos vectores u + u' y luego girar el resultado, que primero girar cada vector u, u' y luego sumar los vectores girados? Se puede ver gráficamente que esto es cierto sin dificultad (fig. 1)

Fig. 1: comprobación gráfica de que f(u + v) = f(u) + f(v)
Fig. 1: comprobación gráfica de que f(u + v) = f(u) + f(v)

La demostración general, algebraica, pasa por determinar cómo se transforman las componentes de un vector cualquiera u = (x, y) al aplicar el giro, resultando f(u) = v = (x', y'); la figura 2 nos muestra las relaciones entre (x, y), (x', y'):

Fig. 2: coordenadas de un giro cualquiera en el plano
Fig. 2: coordenadas de un giro de 90⁰ en el plano

\begin{array}{l}x'=u\cos\left(90^0-\alpha\right)=u\sin\left(\alpha\right)=y;\;\\y'=u\sin\left(90^0-\alpha\right)=-u\cos\left(\alpha\right)=-x\end{array}

Por tanto la rotación lo que hace es intercambiar valores i cambiar un signo: (x' , y') = (y, -x). Comprobemos ahora la propiedad 1 de linealidad:

\begin{array}{l}f\left(\boldsymbol u+\boldsymbol v\right)=f\left(\left(x_1,y_1\right)+\left(x_2,y_2\right)\right)=f\left(\left(x_1+x_2,y_1+y_2\right)\right)=\left(y_1+y_2,-x_1-x_2\right);\\f\left(\boldsymbol u\right)+f\left(\boldsymbol v\right)=f\left(\left(x_1,y_1\right)\right)+f\left(\left(x_2,y_2\right)\right)=\left(y_1,-x_1\right)+\left(y_2,-x_2\right)=\left(y_1+y_2,-x_1-x_2\right).\end{array}

En efecto coinciden, luego queda demostrada la propiedad 1. La otra propiedad es inmediata:

\begin{array}{l}f\left(k\boldsymbol u\right)=f\left(k\left(x_1,y_1\right)\right)=f\left(\left(kx_1,ky_1\right)\right)=\left(ky_1,-kx_1\right);\\kf\left(\boldsymbol u\right)=kf\left(\left(x_1,y_1\right)\right)=k\left(y_1,-x_1\right)=\left(ky_1,-kx_1\right).\end{array}

Por tanto la aplicación f de giro es una aplicación lineal.

Se suele expresar la relación de correspondencia de una aplicación lineal entre vectores por un diagrama como:

\begin{array}{l}f:\;U\rightarrow V\\\;\;\;\;u\rightarrow\;f(u)=v\end{array},

indicando que la aplicación es entre los espacios vectoriales U y V. En el ejemplo 1, el de la rotación, ambos espacios son el mismo V_2 de vectores del plano: f:\;V_2\rightarrow V_2, pero en general U y V pueden ser distintos.

Núcleo e imagen de una aplicación lineal

En una aplicación lineal f siempre se cumple que f(0) = 0, pero puede suceder que ningún otro vector u se relacione con el vector nulo, o bien que la ecuación f(u) = 0 tenga más soluciones que u = 0.  El conjunto de vectores u que son soluciones de f(u) = 0  se llama el núcleo de la aplicación lineal f. El núcleo como mínimo contiene el vector nulo 0.

Por otro lado, la ecuación v = f(u) siendo u la incógnita, no siempre tiene solución, y entonces no existe ningún vector u del espacio vectorial U al que le corresponda el vector v del espacio V. Definimos el conjunto imagen de la aplicación lineal f como el subconjunto de vectores v del espacio V tales que la ecuación v = f(u) tiene solución.

Ejemplo 2: La aplicación giro del ejemplo 1 tiene como Núcleo sólo el vector nulo 0,  pues ningún vector u al girarlo 90⁰ quedará reducido al 0.  Su conjunto imagen será todo el espacio V_2, pues para cualquier vector v, existe un vector u que cumple  v = f(u): basta con girar  v 90⁰ en sentido antihorario para obtener la solución u.

Ejemplo 3: Sea la aplicación f una proyección sobre el plano coordenado XY, entre el espacio V_3 y el espacio V_3, tal que f (x, y, z) = (x, y, 0). Cualquier vector (0, 0, z) del subespacio vectorial k · (0, 0, 1), generado por el vector unitario  = (0, 0, 1), se corresponde con el vector nulo (0, 0, 0); por tanto el Núcleo de f es el subespacio vectorial {k ·ẑ} siendo k un escalar cualquiera. Por otro lado la ecuación v = f(u) sólo tiene solución u si el vector v está en el plano XY; por ejemplo, el vector v = (1, 2, 3) no puede ser la proyección en el plano XY de ningún vector u = (x, y, z), pues no está contenido en el plano XY. Vemos que el subconjunto Imagen de la aplicación f son los vectores (x, y, 0)  del plano XY, pues son los únicos que se generan por la acción de f sobre V_3.

NOTA 1: Siendo la imagen de f todo el plano XY, también podríamos haber definido f según el esquema:

\begin{array}{l}f:\;V_3\rightarrow V_2\\(x,y,z)\rightarrow(x,y)\end{array}

En este caso, la imagen de f no es un subconjunto, sino que coincide con todo el espacio V_2.

NOTA 2: las aplicaciones lineales en las que coinciden los dos espacios vectoriales, f:\;U\rightarrow U, se llaman endomorfismos.

Tenemos las siguientes propiedades y definiciones importantes de las aplicaciones lineales:

Propiedad 1

  1. Para toda aplicación lineal f:\;U\rightarrow V, su núcleo y su imagen son subespacios vectoriales de U y de V, respectivamente.
  2. Para toda aplicación lineal (en dimensión no infinita) f:\;U\rightarrow V, se cumple que dimensión(U) = dimensión(subespacio núcleo de f) + dimensión(subespacio imagen de f)
  3. La aplicación lineal f es inyectiva si y sólo si núcleo(f) = {0}. En ese caso f se llama un monomorfismo.
  4. La aplicación lineal f:\;U\rightarrow V es exhaustiva si y sólo si el subespacio imagen(f) coincide con el espacio V. En ese caso f se llama un epimorfismo
  5. Si la aplicación f cumple la propiedad 3 y la 4 simultáneamente, entonces decimos que es una aplicación lineal biyectiva: un isomorfismo. Si además f es tal que f:\;U\rightarrow U, o sea que también es un endomorfismo, diremos que f es un automorfismo.

Ejemplo 4: la aplicación giro 90⁰ de los ejemplos 1 y 2 es un endomorfismo de V_2; además cumple la propiedad 1.3, luego es inyectiva, y monomorfismo. También cumple la 1.4, luego es biyectiva, y como es endomorfismo biyectivo, es un automorfismo. Su núcleo es el vector {0}, un subespacio vectorial de V_2 de dimensión cero, y su imagen es todo el espacio V_2, con dimensión 2, luego se cumple la igualdad 1.2 y también la propiedad 1.1.

Ejemplo 5: para calcular la dimensión de la imagen de la aplicación lineal definida por

\begin{array}{l}f\left(1,1,0\right)=\left(2,2,0\right)\\f\left(1,0,1\right)=\left(-3,0,-3\right)\\f\left(2,2,1\right)=\left(0,0,0\right)\end{array}

miramos si los tres vectores imagen son linealmente independientes entre sí, planteando la ecuación a(2,2,0) + b(-3,0,-3) + c(0,0,0) = 0, siendo a, b, c escalares, si sólo se cumple la igualdad con a = b = c = 0 entonces son linealmente independientes:

\begin{array}{l}a\left(2,2,0\right)+b\left(-3,0,-3\right)+c\left(0,0,0\right)=\left(0,0,0\right)\Rightarrow\\2a-3b=0;\;2a=0;-3b=0\Rightarrow\boxed{a=0,\;b=0}\end{array}

Como c queda indeterminado (puede tomar cualquier valor) resulta que los tres vectores son linealmente dependientes, así que la dimensión del espacio imagen es menor que tres. Evidentemente (2,2,0) y (-3,0,-3) sí son independientes entre sí, luego forman una base del subespacio imagen, el cual tiene dimensión 2 (pues hay dos vectores imagen linealmente independientes).

Por la propiedad 2, deducimos que la dimensión del núcleo de la aplicación es 3 - 2 = 1. Y por la propiedad 3, deducimos que la aplicación no es inyectiva.

Cualquier vector v que pertenezca al subespacio imagen ha de ser combinación lineal de la base {(2,2,0), (-3,0,-3)}; por ejemplo, para saber si el vector (1, -1, 1) pertenece al subespacio imagen, planteamos (1, -1, 1) = a(2,2,0) + b(-3,0,-3) = (2a-3b, 2a, -3b), igualando componentes obtenemos 2a - 3b = 1, 2a = -1, -3b = 1, por tanto a = -1/2, b = -1/3, pero la igualdad 2a - 3b = 1 no se cumple, luego (1, -1, 1) no pertenece al subespacio imagen.

Definición 2: Rango de una aplicación lineal

Se llama rango de una aplicación lineal f a la dimensión de su subespacio imagen.

Ejemplo 6: la aplicación giro 90⁰ de los ejemplos 1 y 2 tiene rango 2, y la aplicación del ejemplo 3 también tiene rango 2.

Aplicaciones lineales y bases vectoriales

Antiguamente, se identificaban las funciones con las fórmulas analíticas explícitas usadas para obtener las correspondencias, como por ejemplo f(x, y) = (2x -1, x + y). Actualmente el concepto de función es más amplio, no está vinculado necesariamente a una expresión analítica. En el caso de las aplicaciones lineales, hay una propiedad importante en este sentido:

Propiedad 2: Se puede determinar completamente una aplicación lineal entre espacios vectoriales, f:U\rightarrow V, dando los vectores transformados por f de una base vectorial cualquiera del espacio origen U.

Ejemplo 7: para determinar la aplicación del ejemplo 3, una proyección f:V_3\rightarrow V_3 sobre el plano coordenado XY, tomamos una base \left\{e_1,e_2,e_3\right\} de V_3. por ejemplo la base canónica {(1, 0, 0), (0, 1, 0), (0, 0, 1)}, y obtenemos sus imágenes por f:  f(1, 0, 0) = (1, 0, 0), f(0, 1, 0) = (0, 1, 0), f(0, 0, 1) = ( 0, 0, 0). Entonces, dado un vector de V_3 cualquiera, u = (x, y, z), podemos obtener su imagen así:

1º) expresamos u como combinación lineal de los vectores de la base \left\{e_1,e_2,e_3\right\}, que expresamos así: u=\left(x,y,z\right)=u_1e_1+u_2e_2+u_3e_3. Los coeficientes u_1,u_2,u_3 se llaman componentes del vector u en la base \left\{e_1,e_2,e_3\right\}

2º) obtenemos f\left(u\right)=f\left(x,y,z\right)=f\left(u_1e_1+u_2e_2+u_3e_3\right)=u_1f\left(e_1\right)+u_2f\left(e_2\right)+u_3f\left(e_3\right)

En nuestro ejemplo, con la base canónica, los coeficientes son inmediatos: (x, y, z) = x(1, 0, 0) + y(0, 1, 0) + z(0, 0, 1), luego f(x, y, z) = x·f(1, 0, 0) + y·f(0, 1, 0) + z·f(0, 0, 1) = x(1, 0, 0) + y(0, 1, 0) + 0 = (x, y, 0).

En el ejemplo 6 hemos usado la base canónica pues es la más simple, tan simple que al aplicar la propiedad 2 se obtienen resultados evidentes, lo cual ayuda a entender el significado de la propiedad, pero parece ser poco útil en la práctica; de hecho es todo lo contrario: en las aplicaciones prácticas y los problemas a menudo encontramos dificultades para encontrar expresiones analíticas de funciones, y  en cambio usando la propiedad 2 con bases adecuadas (no las canónicas) podemos determinar la aplicación lineal. En el siguiente ejemplo vemos una situación así.

Ejemplo 8: Consideremos un plano P en el espacio, tal que corta a los planos coordenados XZ y YZ a 45⁰ (figura 3)

aplica_lineals3

Definimos la aplicación f:P\rightarrow P realizando una rotación de 90⁰, según un eje perpendicular a P, en sentido antihorario, que afecta a todos los vectores contenidos en el plano P.  Dado un vector cualquiera u = (x, y, z) del plano P, ¿cuál es su vector imagen por f?

Podríamos obtener la expresión analítica de f tal como hemos hecho en el ejemplo 1, pero será mucho más fácil usar la propiedad 2 y nuestros conocimientos de espacios vectoriales: notemos que el plano P es un subespacio vectorial de V_3, y que f es un endomorfismo de P en P.

¿Qué base de P podemos tomar? En la figura 3 vemos que los vectores u (contenido en el plano XZ) y v (contenido en el plano YZ) están contenidos en P, y además son linealmente independientes; como la dimensión de P es 2, deducimos que el conjunto {u, v} es una base vectorial de P. Observad que no hemos dado componentes a los vectores u, v, de momento pueden ser cualesquiera, siempre que  estén en los planos XZ y con el YZ y formen un ángulo de 45⁰ con X y con Z, o con Y y con Z, respectivamente.

¿Cuales son las imágenes de u, v por f? Demos ahora valores a estos vectores, por ejemplo u = (1, 0, 1), v = (0, 1, 1) cumplen las condiciones exigidas. El giro de 90⁰ lleva al vector u a coincidir con el vector v: f(u) = v; y al vector v lo gira hacia el plano (-X)(-Z): f(v) = (-1, 0 ,-1) = -u. Ahora ya podemos expresar la imagen de cualquier vector w = (x, y, z) de P:

1º) Dado un vector w =(x, y, z) de V_2, sus coeficientes han de cumplir \left(x,y,z\right)=\lambda\boldsymbol u+\mu\boldsymbol v=\lambda\left(1,1,0\right)+\mu\left(0,1,1\right), con esto obtenemos los coeficientes \lambda,\;\mu

2º) obtenemos la imagen: f\left(x,y,z\right)=f\left(\lambda\boldsymbol u+\mu\boldsymbol v\right)=\lambda f\left(\boldsymbol u\right)+\mu f\left(\boldsymbol v\right)=-\lambda\boldsymbol v-\mu\boldsymbol u

Por ejemplo, el vector w = (2, 1, 3) pertenece al plano V_2, pues (2, 1, 3) = 2·(1, 0, 1) + 1·(0, 1, 1) = 2u + v; ¿cuál es la imagen por f del vector (1, 2, 1)? Será:

f\left(2,1,3\right)=f\left(2\boldsymbol u+1\boldsymbol v\right)=2f\left(\boldsymbol u\right)+1f\left(\boldsymbol v\right)=-2\boldsymbol v-\boldsymbol u=2\left(0,1,1\right)-\left(1,0,1\right)=\left(-1,2,1\right),

y podemos comprobar fácilmente que el vector f(w) tambien está en el plano V_2, ya que \left(-1,2,1\right)=-\left(1,0,1\right)+2\cdot(0,1,1)=-\boldsymbol u+2\boldsymbol v.

Matriz de una aplicación lineal

Dada una aplicación lineal f:U\rightarrow V entre dos espacios vectoriales, siendo la base de U los vectores \left\{u_1,u_2,\dots,u_n\right\}, su matriz asociada es la siguiente  disposición de las imágenes de los vectores de la base de U:

\begin{pmatrix}f\left(u_1\right)&f\left(u_2\right)&\dots&f\left(u_n\right)\end{pmatrix}

Como cada vector f(u_i) tendrá n componentes, se obtiene u cuadro numérico en el que cada columna representa las componentes del vector f(u_i).

Ejemplo 9: la aplicación linealf:P\rightarrow P del ejemplo 7 verifica que la base del espacio P (un plano) es {u , v} y sus imágenes por f son f(u) = v, f(v) = -u; entonces, la matriz asociada a f en las bases {u, v} es:

\begin{pmatrix}f\left(u\right)&f\left(v\right)\end{pmatrix}=\begin{pmatrix}0&-1\\1&0\end{pmatrix}

Observad que las componentes de los vectores imagen se disponen "en vertical", que hay dos columnas, una para cada vector de la base {u, v}, y cada columna tiene dos componentes. La primera columna indica que f(u) = 0·u + 1·v, y la segunda que f(v)=-1·u + 0·v.

Rango de una matriz

Antes se ha definido el rango de una aplicación lineal f como la dimensión de su espacio imagen; dada una matriz A cualquiera, su rango por columnas es el número máximo de columnas que, tomadas como vectores, son linealmente independientes. Si la matriz A es la matriz asociada a la aplicación f, entonces el rango de A coincide con el rango de f.  Por ejemplo, la matriz del ejemplo 8 tiene rango 2, pues sus dos columnas, vistas como vectores, son independientes, y por tanto la aplicación asociada tiene rango 2, equivalentemente, su espacio imagen tiene dimensión 2.

Por otro lado, dada una matriz A, definimos su rango por filas como el número máximo de filas que, tomadas como vectores, son linealmente independientes. Se cumple que los rangos por filas y por columnas siempre coinciden, así que podemos calcular el rango de la matriz como mejor nos convenga.

Matrices cuadradas y matrices rectangulares

Si una aplicación f hace corresponder espacios vectoriales de la misma dimensión n, entonces la matriz asociada tendrá n columnas (una por cada vector de la base) y n filas (pues cada columna se expresará según la misma base de n componentes): diremos que es una matriz cuadrada. En cambio si los espacios tienen dimensiones distintas, las matrices asociadas tendrán distinto número de filas que de columnas, serán matrices rectangulares. Por ejemplo, la aplicación de la nota 1 corresponde V_3 con V_2,  luego su matriz contendrá 3 columnas y dos filas, su aspecto será:

\begin{pmatrix}\square&\square&\square\\\square&\square&\square\end{pmatrix}

Matrices y bases

En el ejemplo 8, hemos expresado los vectores de la base de U, y sus imágenes, respecto a la propia base de U, {u , v}. Pero cualquier base vectorial es válida para expresar los vectores del espacio. Por ello, la matriz de la aplicación lineal depende de la base del espacio origen U y también de la base en la que se expresen los vectores imagen; cuando no se indica que base se está utilizando, se supondrá que las bases son las canónicas.

Operaciones con aplicaciones y con sus matrices

Se pueden definir las operaciones suma de funciones (f + g) y producto de una función por un escalar k·f de la siguiente forma:

(f + g)(x) = f(x) + g(x); k·f(x) = f(kx)

Resulta que estas operaciones tienen las propiedades habituales de la suma: asociativa, conmutativa, elemento neutro y elemento inverso), y las propiedades distributiva k(f + g) = k·f + k·g, (k + p)f = kf + p·f,  asociativa (kp)·f = k(p·f), y elemento neutro escalar1·f = f. Con ello podemos decir que el conjunto de aplicaciones lineales, junto con las operaciones definidas, es también un espacio vectorial.

Por otro lado, podemos hacer lo mismo con las matrices: definimos la suma de dos matrices (han de ser de las mismas dimensiones, o sea, número de filas y de columnas):

\begin{pmatrix}a_1^1&\dots&a_1^n\\\vdots&\vdots&\vdots\\a_m^1&\cdots&a_m^n\end{pmatrix}+\begin{pmatrix}b_1^1&\dots&b_1^n\\\vdots&\vdots&\vdots\\b_m^1&\cdots&b_m^n\end{pmatrix}=\begin{pmatrix}a_1^1+b_1^1&\dots&a_1^n+b_1^n\\\vdots&\vdots&\vdots\\a_m^1+b_m^1&\cdots&a_m^n+b_m^n\end{pmatrix}

y el producto de un escalar por una matriz:

k\begin{pmatrix}a_1^1&\dots&a_1^n\\\vdots&\vdots&\vdots\\a_m^1&\cdots&a_m^n\end{pmatrix}=\begin{pmatrix}ka_1^1&\dots&ka_1^n\\\vdots&\vdots&\vdots\\ka_m^1&\cdots&ka_m^n\end{pmatrix}

Con estas operaciones, las matrices forman un espacio vectorial.

Además tenemos la siguinte propiedad:

Propiedad 1: Dadas dos aplicaciones lineales f, g, con matrices asociadas F, G,  y un escalar k, se cumple que:

  1. la aplicación k·f tiene por matriz k·F
  2. la aplicación suma f + g tiene por matriz F + G

Hay otra operación con funciones que es importante: la composición de funciones; recordemos que dadas dos funciones f, g su composición se describe por \left(f\circ g\right)\left(x\right)=f\left(g\left(x\right)\right). También recordemos la definición de función inversa: dada la función f, su función inversa f^{-1} es aquella tal que al componerla con f resulta la función identidad: f\circ f^{-1}=I.

La composición de aplicaciones lineales y la inversa de una aplicación lineal también tienen correspondencias con las matrices: definimos el producto de matrices según la siguiente igualdad:

\begin{pmatrix}a_1^1&\dots&a_1^n\\\vdots&\vdots&\vdots\\a_m^1&\cdots&a_m^n\end{pmatrix}\cdot\begin{pmatrix}b_1^1&\dots&b_1^m\\\vdots&\vdots&\vdots\\b_n^1&\cdots&b_n^m\end{pmatrix}=\begin{pmatrix}{\textstyle\sum_{i=1}^n}a_1^ib_i^1&\dots&\textstyle\sum_{i=1}^na_1^ib_i^n\\\vdots&\vdots&\vdots\\\textstyle\sum_{i=1}^na_m^ib_i^1&\dots&\textstyle\sum_{i=1}^na_m^ib_i^m\end{pmatrix}

Que puede entenderse mejor siguiendo esta regla de formación: para hallar el elemento fila1-columna1 del producto de matrices A·B multiplicamos uno por uno los elementos de la 1ª fila de A por los elementos de la 1ª columna de B:

Fig. 4: obtención del primer elemento del producto de matrices

Fig. 4: obtención del primer elemento del producto de matrices

En general, multiplicamos uno por uno los elementos de la fila n de A por los elementos de la columna m de B para obtener el elemento de la fila n y columna m de A·B:

Fig. 5: obtención del último elemento de la 1ª fila del producto de matrices A·B
Fig. 5: obtención del último elemento de la 1ª fila del producto de matrices A·B

NOTA: las operaciones con matrices pueden, y creo que deberían hacerse en el siglo XXI, con calculadora o ordenador; hay numerosas páginas que hacen cálculo matricial on-line, como por ejemplo https://matrixcalc.org/es/  o la potente página Wolfram Alpha que todo estudiante debería conocer y utilizar,

También se puede definir la inversa de una matriz (A), como la matriz \left(A\right)^{-1} tal que el producto de ambas es igual a la matriz identidad, una matriz con unos en la diagonal y ceros en el resto de posiciones:

A\cdot\left(A\right)^{-1}=\begin{pmatrix}1&0&\dots&0&0\\0&1&0&0&0\\\vdots&\vdots&\vdots&\vdots&\vdots\\0&\dots&0&1&0\\0&0&\dots&0&1\end{pmatrix}

Tenemos la siguiente propiedad importante:

Propiedad 2: la aplicación composición de funciones f\circ g tiene por matriz el producto de matrices F·G, siendo F y G las matrices de f, g respectivamente dadas en las bases, y la aplicación inversa f^{-1} tiene por matriz la matriz inversa \left(A\right)^{-1}

Ejemplo 10: Llamemos f a la función proyección sobre el plano V_2 del ejemplo 3,

\begin{array}{l}f:V_3\rightarrow V_2\\\left(x,y,z\right)\rightarrow\left(x,y,0\right)\end{array},

y llamemos g a la función giro en el plano del ejemplo 1:

\begin{array}{l}g:V_2\rightarrow V_2\\\left(x,y\right)\rightarrow\left(y,-x\right)\end{array}

La composición g\circ f será:

\begin{array}{l}g\circ f:V_3\rightarrow V_2\rightarrow V_2\\\left(x,y,z\right)\rightarrow\left(x,y\right)\rightarrow\left(y,-x\right)\end{array}

(recordemos que \left(g\circ f\right)\left(x\right)=g\left(f\left(x\right)\right), literalmente, "primero se aplica f, y despues se aplica g".

Las matrices de f, g, en las bases canónicas, son:

\left(F\right)=\begin{pmatrix}1&0&0\\0&1&0\end{pmatrix},\;\left(G\right)=\begin{pmatrix}0&1\\-1&0\end{pmatrix}

entonces la matriz de la composición g\circ f se puede obtener multiplicando la matrices (G)·(F):

\left(G\right)\cdot\left(F\right)=\begin{pmatrix}0&1\\-1&0\end{pmatrix}\cdot\begin{pmatrix}1&0&0\\0&1&0\end{pmatrix}\;=\begin{pmatrix}0&1&0\\-1&0&0\end{pmatrix}

NOTA: observad que las matrices tienen dimensiones acordes con la aplicación a la que representan, si f:V_3\rightarrow V_2 entonces (F) tiene 2 filas y 3 columnas (matriz de 2x3), y si g:V_2\rightarrow V_2$ entonces (G) tiene 2 filas y 2 columnas (matriz de 2x3), en general si f:V_n\rightarrow V_m$ entonces (F) tiene m filas y n columnas (matriz de m x n).

Obtención de la imagen de un vector u por la función f a partir de la matriz (F) de la función

Para hallar la imagen f(u) dada la matriz (F) de la aplicación f, simplemente disponemos los elementos del vector u en forma de matriz columna, (u), y realizamos el producto de (F)·(u):

f\left(\boldsymbol u\right)=\left(F\right)\cdot\begin{pmatrix}u_1\\u_2\\\vdots\\u_n\end{pmatrix}

Para que esto funcione, la matriz (F) ha de tener el mismo número de  columnas que el número de elementos del vector u.

Ejemplo 11: La imagen del vector (-3, 5, 6) por la aplicación lineal g\circ f del ejemplo 9, una proyección en el plano XY seguida de un giro, se obtiene matricialmente así:

f\left(\boldsymbol u\right)=\begin{pmatrix}0&1&0\\-1&0&0\end{pmatrix}\cdot\begin{pmatrix}-3\\5\\6\end{pmatrix}=\begin{pmatrix}5\\3\end{pmatrix}

Matrices de cambio de base

Si tenemos una matriz de una aplicación f expresada según unas bases de los espacios vectoriales y queremos obtener la matriz de la misma aplicación f pero expresada en bases distintas, la podemos obtener mediante la siguiente propiedad:

Propiedad 3 (matrices del cambio de base). Si tenemos una aplicación lineal f:U\rightarrow V , tomando las bases ({\overrightarrow{au}}_1,{\overrightarrow{au}}_2,...,{\overrightarrow{au}}_n) del espacio U y ({\overrightarrow{av}}_1,{\overrightarrow{av}}_2,...,{\overrightarrow{av}}_n) del espacio V, entonces la matriz de la aplicación lineal contendrá las imágenes de los vectores \overrightarrow{au} expresados en la base de losvectores \overrightarrow{av}, llamemos a esta matriz (A).

Por otro lado,   si tomamos otras bases ({\overrightarrow{bu}}_1,{\overrightarrow{bu}}_2,...,{\overrightarrow{bu}}_n) del espacio U y ({\overrightarrow{bv}}_1,{\overrightarrow{bv}}_2,...,{\overrightarrow{bv}}_n) del espacio V, la matriz asociada a la aplicación será distinta, la llamaremos (B).

Entonces se cumple la relación entre matrices (B) = (Q)·(A)·(P), donde:

(Q) es la matriz que tiene por columnas los vectores \overrightarrow{bu} expresados en la base de los vectores \overrightarrow{au} (suele decirse: "los vectores de la nueva base de U expresados en la base antigua de U")

(P) es la matriz que tiene por columnas los vectores \overrightarrow{av} expresados en la base de los vectores \overrightarrow{bv} (suele decirse: "los vectores de la antigua  base de V expresados en la nueva base de V")

Ejemplo 12:  la matriz A de la aplicación del  ejemplo 7, dada en el ejemplo 8, utiliza la base {u, v}, si tomamos otra base {u', v'} dada por u' = u + v, v ' = u - v, ¿cuál será la matriz B de la aplicación en la nueva base?

Identificamos las matrices  de cambio de base (P), (Q):

Matriz Qnueva base {u', v'} expresada en la base antigua de U, la {u, v}, es evidente que

Q=\begin{pmatrix}1&1\\1&-1\end{pmatrix}

Matriz P:  vectores de la antigua  base {u, v},  expresados en la nueva base {u', v'}; observamos que u' + v' = 2u y que u' - v' = 2v, luego u = (1/2)(u' + v') y v = (1/2)(u' - v' ), luego:

P=\frac12\begin{pmatrix}1&1\\1&-1\end{pmatrix}

Aplicamos la propiedad 3:

\begin{array}{l}\left(B\right)=\left(Q\right)\left(A\right)\left(P\right)=\begin{pmatrix}1&1\\1&-1\end{pmatrix}\cdot\begin{pmatrix}0&-1\\1&0\end{pmatrix}\cdot\frac12\begin{pmatrix}1&1\\1&-1\end{pmatrix}=\\\frac12\begin{pmatrix}1&1\\1&-1\end{pmatrix}\cdot\begin{pmatrix}-1&1\\1&1\end{pmatrix}=\frac12\begin{pmatrix}0&2\\-2&0\end{pmatrix}=\begin{pmatrix}0&1\\-1&0\end{pmatrix}\end{array}

Estadística -> Estadística Aplicada -> Series Temporales

Series temporales, tendencia, estacionalidad

Las series temporales (de datos estadísticos) relacionan eventos parecidos acaecidos en diferentes épocas, buscando detectar algún patrón de comportamiento, alguna tendencia, que permita hacer predicciones futuras.

Ejemplo 1: Comparar las importaciones y exportaciones anuales de una empresa en los últimos 15 años, comparándolas, analizando su evolución temporal.

Puede ser un problema complicado, ya que frecuentemente sucede que las sucesivas observaciones no son independientes entre sí, como por ejemplo las ventas de un comercio en un mes pueden no ser independientes de las ventas del mes anterior.

Las variables utilizadas en las series temporales

Hay variables estadísticas, que miden cantidades, de la que puede determinarse su valor, al menos en teoría, en cualquier momento del tiempo; por ejemplo, el número de parejas de hecho que residen en una cierta localidad. Es un número variable, pero puede hacerse un censo y determinar su número en un cierto día escogido obviando dificultades técnicas, quizá la población es demasiado numerosa para completar el censo en un sólo día, pero no es una limitación de base, sino una de recursos disponibles, de hecho, el número de parejas de hecho está claramente definido en cualquier hora de cualquier día.

Por otro lado, hay variables estadísticas que miden flujos o variaciones de otras cantidades, en las que siempre debemos determinar su valor en un intervalo de tiempo más o menos amplio; por ejemplo, el número de uniones de parejas en el juzgado en un día determinado puede ser cero, mientras que el día siguiente será mayor que cero. En éste último caso cogeremos un intervalo de tiempo suficientemente amplio y trataremos con "uniones civiles en el juzgado por día" por ejemplo, dividiendo por el número de días del período.

Ejemplo 2: Gráfico de ventas de unos grandes almacenes.

Fig.1: gráficos de ventas, izquierda, anuales, derecha, trimestrales
Fig.1: gráficos de ventas, izquierda, anuales, derecha, trimestrales
Tendencia general

A menudo los datos cuando se representan en intervalos largos de tiempo presentan una curva de evolución  suave, como en la figura 1 a la izquierda, que muestra las ventas totales de unos almacenes por años mostrando una tendencia general de crecimiento constante; en cambio los mismos datos tomados a intervalos de tiempo más cortos presentan fuertes oscilaciones, como vemos en la figura a la derecha, que muestra las ventas trimestrales en dos años consecutivos, no se ve una tendencia clara.

Estacionalidad

Al reducir el intervalo temporal, puede suceder que salgan a la luz influencias periódicas particulares que varían los datos en tiempos fijados, como por ejemplo campañas de Navidad, rebajas de agosto, influencia del turismo en ciertas épocas de cada año, etc; en este caso diremos que la serie temporal presenta estacionalidad. Hemos visto dos características importantes de las series temporales (de datos estadísticos): la tendencia general y las influencias periódicas.

Ciclos

Si representamos de nuevo el gráfico de ventas por meses, las oscilaciones aumentan, pero aún podemos observar la tendencia general ascendente, la estacionalidad (en el mes 6, junio, y en el 6+12 = 18, junio del año siguiente, las ventas presentan máximos) y la aparición de ciclos (cambios recurrentes a medio plazo), que son períodos en los que los datos presentan un aspecto parecido: en la figura 2 la estructura entre los meses 1 y 12 es algo semejante, pero incrementada, a la de los meses 13 a 24 del año siguiente.

Fig. 2: tendencia general, estacionalidad y ciclos
Fig. 2: tendencia general, estacionalidad y ciclos
Variaciones erráticas o aleatorias

Además de las causas anteriores de variabilidad, encontraremos en la práctica variaciones que no son debidas a ninguna de esas causas, y por ello las atribuiremos al azar.

Así pues, el modelo clásico de tratamiento de series temporales supone que las variaciones entre datos pueden explicarse por una, varias o todas estas fuentes de variación:

  1. una tendencia general
  2. una estacionalidad
  3. aparición de ciclos de variaciones
  4. variaciones aleatorias

Análisis de series temporales

Las cuatro causas anteriores de variabilidad se combinan entre sí matemáticamente, formando un modelo teórico con el cual se pueden explicar los comportamientos del los datos y hacer predicciones. Los datos se procesan con un programa de Estadística, en el cual, en las opciones, deberemos indicar de que forma combinaremos las causas; los modelos caen en dos categorías:

  • Modelos estáticos
    • Modelo multiplicativo: considera que la variabilidad total observada es el producto de las producidas por cada factor, o sea por la tendencia general, estacionalidad, etc
    • Modelo aditivo: considera que la variabilidad total observada es la suma de las producidas por cada factor, o sea por la tendencia general, estacionalidad, etc
  • Modelos dinámicos: las variaciones en el tiempo t se calculan tomando las variaciones de los factores en tiempos anteriores de la serie, t-1, t-2, etc.

Los modelos dinámicos contemplan una complicación típica de las series temporales que es la presencia de correlación serial o relaciones entre datos contiguos (la no independencia de datos que comentábamos); toda la Estadística en general se simplifica cuando los datos son independientes entre sí, y se complica cuando no lo son. Un ejemplo en el que podemos esperar encontrar correlación serial sería el caso de las ventas de los almacenes: después de un mes de ventas elevadas es posible inferir que las ventas pueden bajar debido a que los clientes habituales ya han hecho sus compras importantes el mes anterior y posiblemente no gasten mucho dinero en dos meses consecutivos. En cambio en una serie temporal mensual del número de turistas que visitan una ciudad, los turistas son independientes entre sí, no repiten la visita cada mes, así que no podemos inferir nada de la cantidad de turistas de un mes para el siguiente.

Otra complicación que puede aparecer es la presencia de valores inusuales, atípicos, denominados valores influyentes; cuando un evento extraordinario modifica la tendencia natural se producen estos valores singulares que nos pueden llevar a un análisis erróneo si no los detectamos y aislamos.

Por suerte, los programas estadísticos proporcionan "filtros" para detectar, dados los datos de una serie temporal, su tendencia general, estacionalidad, periodicidad, sus ciclos, sus correlaciones seriales y sus valores influyentes.

Determinación de la tendencia por regresión, suavización de la serie, detección de ciclos: ejemplo práctico

Consideremos los datos de tasa de paro en España entre los años 1978 y 2013, que reproducimos parcialmente:

Año Tasa
1978 7
1979 9
1980 12
1981 14
1982 16
1983 18
1984 21
1985 22

(...)

2008 13,9
2009 18,1
2010 20
2011 21,7
2012 25,1
2013 26,3

Observamos la gráfica de puntos de la serie:

Fig.3: gráfica de serie temporal
Fig.3: gráfica de serie temporal

La línea roja marca la media de todos los datos; vemos que los valores parecen oscilar en torno a la media, aunque la oscilación se hace mayor en los últimos años; cuando se observa esta oscilación en torno a la media, decimos que la serie presenta estacionariedad en media. Además, la serie parece presentar cierta pauta de variación, hay unos mínimos muy parecidos en los años 70 y en el 2005, y unos máximos en los años 80 y 90, así que podemos pensar que la serie presenta cambios cíclicos (no estacionalidad, pues no se aprecia repetición de pauta en años concretos, más bien son cambios a medio-largo plazo).

Observamos ahora el gráfico de las desviaciones respecto a la media, obtenidas haciendo las diferencias X_t-\overline{X_t} para cada dato de la serie:

Fig. 4: Gráfica de desviaciones respecto de la media total
Fig. 4: Gráfica de desviaciones respecto de la media total

De nuevo vemos que hay una oscilación de las desviaciones en torno del valor cero, oscilación que se amplifica en los últimos años (quizá debido a la crisis financiera del 2008 y siguientes): hay una estacionariedad en la desviación respecto de la media.

Para concretar si las variaciones observadas son cíclicas y/o estacionarias, interesa quitar de la serie las oscilaciones aleatorias y eliminar, si la hay, la tendencia general (si hay por ejemplo una tendencia general al aumento de la tasa de desempleo, se hace más difícil ver las oscilaciones de cada período). A este proceso le denominamos suavizar la serie. 

El primer paso será determinar la tendencia de la serie, hay dos métodos para hacerlo, en el primero se usa regresión para ajustar una curva a la gráfica de la serie temporal:  en la hoja de cálculo hacemos clic-derecho sobre la gráfica de la serie y escogemos agregar línea de tendencia, que puede seguir diversos modelos matemáticos: lineal, logarítmico, polinómico, etc. Hay que ensayar algunos, observando para cada prueba el coeficiente de determinación, por ejemplo:

Fig 5: tendencia lineal y polinómica de grado 3 para la serie temporal
Fig 5: tendencia lineal y polinómica de grado 3 para la serie temporal

En la figura 5 se ha ensayado ajuste lineal, con un coeficiente R² muy bajo, del 0.009, y polinómica de grado 3, con un coeficiente R² bastante bueno, 0,69; se presenta también la ecuación del ajuste polinómico. No es necesario un ajuste muy bueno, sólo queremos captar la tendencia general, así que daríamos por aceptable el ajuste polinómico. Un economista podría sugerirnos que esa tendencia está siguiendo alguno de los ciclos económicos, vemos que hay un máximo de paro laboral en 1988 y otro en 2014, y hay mínimos en 1978 y en 2004, con un intervalo entre máximos y mínimos de unos 25 años; los máximos de paro podrían achacarse a la reconversión industrial del los años 80, y a a incorporación a la Comunidad Económica Europea (1986) que obligó a un proceso culminante de desmantelamiento industrial a partir de 1986, y a la crisis financiera del 2008 y siguientes.

serie_temporal6
Fig. 6: la línia en rojo representa la serie de datos a la que se ha restado la curva de tendencia

 En la figura 6 hemos restado de la serie de datos original la tendencia, el resultado es la serie representada por puntos rojos; las oscilaciones ahora están en torno al valor cero, y son de más corto plazo que las anteriores: cada cinco años, aproximadamente, que coinciden con otro ciclo económico: el ciclo de Kitchin, debido a oscilaciones en la producción de las empresas y sus ajustes a la demanda real. Al restar la tendencia hemos supuesto que la serie se ajusta bien al modelo sumativo, que supone que la variabilidad total observada es la suma de las producidas por cada factor, o sea por la tendencia general, estacionalidad, etc.

Correlación serial, determinación de la tendencia por el método de las medias móviles: ejemplo

Siguiendo con los datos del paro en España,  como sospechamos que puede haber una correlación serial (la tasa de paro de cada año condiciona la del año siguiente, pues es un índice que no se cambia fácilmente de un año para otro) calculamos el coeficiente de correlación serial definido como

r=\frac{\text{cov}\left(X_t,X_{t-1}\right)}{S_{X_t}\cdot S_{X_{t-1}}} [1]

donde X_t son los datos en el período t, y  X_{t-1} son los datos en el año anterior:

Año Xt Xt-1
1978 7 -
1979 9 7
1980 12 9
1981 14 12

(...)

2010 20 18,1
2011 21,7 20
2012 25,1 21,7
2013 26,3 25,1
2014 - 26,3

La \text{cov}\left(X_t,X_{t-1}\right) es la covarianza de las dos variables, y las S son sus desviaciones típicas, resulta: S_t=4,94S_{t-1}=5,11, Cov = 23,39, autocorrelación = 0,93. La autocorrelación, que se interpreta igual que la correlación de Pearson, es muy alta, del 93%, confirmando nuestra suposición de que la tasa de un año influye en la siguiente. Las causas principales de autocorrelación son las tendencias o ciclos, así que en este segundo análisi de los datos también llegamos al mismo punto: parece que las variaciones en la tasa de desempleo son cíclicas en el tiempo.

Para determinar los ciclos procedemos como antes: hay que determinar la tendencia de la serie y proceder a suavizarla.  Para determinar la tendencia ya hemos visto que podemos hacerlo por regresión, pero ahora lo haremos con un método alternativo: el de las medias móviles. Consiste en sustituir los datos originales por las medias de 2 datos correlativos (medias móviles de orden 1), de 3 datos (medias móviles de orden 2), etc. Reproducimos algunas de esas medias en la siguiente tabla, donde "media movil-2" significa media de dos datos (media de orden 1), "media movil-3" significa media de tres datos (media de orden 2), etc.:

Año Tasa media móvil-2 media móvil-3 media móvil-4
2013 26,3
2012 25,1 25,7
2011 21,7 23,4 22,9
2010 20 20,9 20,2 23,3
2009 18,1 19,1 17,9 21,2
2008 13,9 16,0 16,1 18,4
2007 8,3 11,1 14,7 15,1
2006 8,1 8,2 13,6 12,1
2005 9,2 8,7 12,8 9,9
2004 10,4 9,8 12,3 9,0

Lógicamente, a medida que vamos aumentando el orden de la media móvil, tenemos menos datos, pasando de los N originales a N-1 medias de orden 1, N-2 de orden 2, ... N-m de orden m.

En la figura 7 vemos estas series de medias moviles. Si nos fijamos en las medias de orden 3, la línia roja, y la comparamos la tendencia polinómica de grado 3 de la figura 5 veremos que coinciden mucho: las medias de orden 3 son una buena aproximación a la tendencia de esta serie.

Fig. 7: representación de las series de medias móviles
Fig. 7: representación de las series de medias móviles

A partir de aquí procederíamos como en la sección anterior: restando la tendencia (las medias móviles de orden 3) de los datos de la serie original para obtener la serie suavizada.

Conclusión

Este artículo es sólo una breve introducción práctica al estudio de las series temporales, presentando los aspectos básicos. En el estudio de las series de datos en el tiempo interesa analizar sus variaciones para detectar sus posibles causas, normalmente interesa reducir esas variaciones (tasa de empleo constante, por ejemplo) o bien mantenerlas siempre positivas (aumento continuo de las ventas), e incluso, más difícil, hacer predicciones de futuro.

Espacios vectoriales

Competencias:

  1. Distinguir vectores linealmente independientes, de vectores linealmente dependientes.
  2. Determinar bases de subespacios vectoriales concretos.

Conceptos:

  1. Conocer las estructuras de espacio vectorial y subespacio vectorial.

Dependencia e independencial lineal de vectores

Definición 1: Un vector \overrightarrow v es una combinación lineal de los vectores {\overrightarrow u}_1,{\overrightarrow u}_2,\cdots,{\overrightarrow u}_n, si existen n números reales (o escalares) tales que se cumple \overrightarrow v=c_1{\overrightarrow u}_1+c_2{\overrightarrow u}_2+\cdots+c_n{\overrightarrow u}_n

Ejemplo 1: El vector \overrightarrow w=(2,4,6) se obtiene del vector \overrightarrow v=(1,3,6) por multiplicación por el escalar 2:  \overrightarrow w=2\cdot \overrightarrow v. Luego \overrightarrow w es combinación lineal de un único vector \overrightarrow v, con c=2

Ejemplo 2: El vector \overrightarrow w=(2,4,6) no puede ser combinación lineal de los vectores \overrightarrow v_1=(1,0,0),\overrightarrow v_1=(0,1,0), pues \left(2,4,6\right)=c_1\left(1,0,0\right)+c_2\left(0,1,0\right) implica que, tomando componentes uno a uno, 2=c_1,\;4=c_2,\;6=0, lo cual no tiene sentido.

Definición 2: Cuando un vector \overrightarrow v sea una combinación lineal de otros vectores, diremos que el conjunto \left\{\overrightarrow v,{\overrightarrow u}_1,{\overrightarrow u}_2,\cdots,{\overrightarrow u}_n\right\} es linealmente dependiente.

Ejemplo 3:  El vector \overrightarrow w=(2,4,6) del ejemplo 1, junto con el vector  \overrightarrow v=(1,3,6), forman un conjunto \left\{\overrightarrow v,\overrightarrow w\right\} linealmente dependiente.

Determinar si un conjunto dado de vectores {\overrightarrow u}_1,{\overrightarrow u}_2,\cdots,{\overrightarrow u}_n es linealmente dependiente  pasa por ver si alguno de sus vectores puede expresarse como combinación lineal de los demás; esto puede ser pesado de comprobar. Afortunadamente, la siguiente propiedad nos facilita el trabajo:

Propiedad 1: dado un conjunto de vectores {\overrightarrow u}_1,{\overrightarrow u}_2,\cdots,{\overrightarrow u}_n será linealmente dependiente si existe una combinación lineal de todos ellos que sea igual al vector nulo, c_1{\overrightarrow u}_1+c_2{\overrightarrow u}_2+\cdots+c_n{\overrightarrow u}_n=\overrightarrow 0, sin que sean todos los coeficientes c_1,c_2,...c_n todos nulos.

Ejemplo 4:  Los vectores \overrightarrow w=(2,4,6),\overrightarrow v_1=(1,0,0),\overrightarrow v_1=(0,1,0) no son linealmente dependientes, pues si intentamos aplicar la propiedad 1, todos los coeficientes de anulan:

\begin{array}{l}c_1\left(2,4,6\right)+c_2\left(1,0,0\right)+c_3\left(0,1,0\right)=\left(0,0,0\right)\Leftrightarrow\\\left.\begin{array}{r}\begin{array}{l}2c_1+c_2=0\\4c_1+c_3=0\\6c_1=0\end{array}\\\end{array}\right\}\Rightarrow c_1=0,\;c_2=0,\;c_3=0\end{array}

Definición 3: si un conjunto de vectores no es linealmente dependiente, diremos que es un conjunto linealmente independiente.

Ejemplo 5: El conjunto de vectores del ejemplo 4 es linealmente independiente.

NOTA 1: geométricamente, se puede visualizar la dependencia o independencia lineal usando la regla del paralelogramo para la suma de vectores; en la figura 1, el vector w puede verse como la diagonal de un paralelogramo  formado por los vectores u, v, convenientemente "alargados" según unos coeficientes, con ello concluimos que {u, v, w} son linealmente dependientes, pues existe una combinación lineal que expresa w en función de u, v. Equivalentemente, si {u, v, w} son linealmente dependientes, significa que existe una combinación, que en la figura es w = 2u + v; entonces es inmediato que puede hacerse w - 2u - v = 0, una combinación lineal con los escalares 1, -2, -1 que resulta ser cero, con coeficientes no todos nulos, y por la propiedad 1 el conjunto {u, v, w} es linealmente dependiente (l.d.)

Fig.1 : vectores linealmente dependientes
Fig.1 : Con dos vectores linealmente independientes en el plano puede formarse un paralelogramo; un tercer vector será necesariamente dependiente de los dos primeros, pues podrá expresarse en función de ellos mediante la regla del paralelogramo para la suma de vectores.

En el plano los vectores tienen sólo dos componentes; implica que, geométricamente, dos vectores u, w del plano son l.d. si y sólo si no se puede formar con ellos ningún paralelogramo, o sea, si u, w están en la misma recta (son colineales). Con vectores de tres componentes distintos, podremos tener un conjunto l.d. si y sólo si no podemos formar un paralelepípedo con ellos, o sea, si dos de ellos, al menos, son colineales (figura 3).

Fig. 2: dependencia lineal con vectores en el espacio; tres vectores pueden ser linealmente independientes si forman un paralelepípedo, un cuarto vector siempre se podrá expresar como una combinación lineal de los anteriores.
Fig. 2: dependencia lineal con vectores en el espacio; tres vectores pueden ser linealmente independientes si forman un paralelepípedo, un cuarto vector siempre se podrá expresar como una combinación lineal de los anteriores.

Espacios vectoriales

Definición 4: un espacio vectorial es una estructura matemática formada por un conjunto de vectores, un conjunto de escalares, una operación suma entre vectores (con las propiedades habituales de la suma: asociativa, conmutativa, elemento neutro y elemento inverso), y una operación producto de vector por escalar con las propiedades distributiva a(u + v) = au + av, (a + b)u = au + bu,  asociativa (ab)u = a(bu), y elemento neutro escalar 1u = u (los vectores se indican en negrita, los escalares en letra normal).

Ejemplo 6: El sistema de dos ecuaciones con dos incógnitas

\left.\begin{array}{r}c_1^1x_1+c_2^1x_2=0\\c_1^2x_1+c_2^2x_2=0\end{array}\right\}

si admite una solución x_1,\;x_2 significa que al sustituir esos valores en las ecuaciones se cumplen las igualdades; si existe una segunda soluciónx_1^',\;x_2^' distinta de la primera, entonces la suma x=\left(x_1+x_1^'\right),\;y=\left(x_2+x_2^'\right) también será una solución, así como su producto por cualquier escalar  k (numero real), kx=\left(x_1+x_1^'\right),\;ky=\left(x_2+x_2^'\right). Definiendo como vectores (x, y) a las soluciones del sistema, con la operación suma de soluciones y producto por un real k, el conjunto de soluciones del sistema es un espacio vectorial.

Ejemplo 7: los vectores del plano real, con la suma habitual (a, b) + (c, d) = (a + b, c + d), y el producto de un vector por un escalar k, k(a, b) = (ka, kb), es un espacio vectorial; esta suma vectorial coincide con la regla del paralelogramo usada para sumar vectores en Física.

NOTA 2: Estrictamente hablando, en Álgebra se definen los espacios vectoriales V (conjunto de vectores) sobre un "cuerpo" de escalares K, donde la palabra cuerpo denota otra estructura algebraica formada por un conjunto y unas operaciones; aquí estamos suponiendo que el cuerpo de escalares es el conjunto de los números reales\mathbb{R}, y que los vectores están formados por listas ordenadas de números reales (a, b, c, ...): son espacios vectoriales reales sobre el cuerpo de los reales, \mathbb{R}. Pero en general pueden definirse espacios vectoriales más abstractos, por ejemplo, podemos definir un espacio de vectores complejos y usar como cuerpo escalar el conjunto de números racionales \mathbb{Q}.

Conjuntos, o sistemas de vectores, generadores del espacio, y bases del espacio. Dimensión de un espacio vectorial.

Hay una importante relación entre espacios vectoriales y el concepto de dependencia/independencia lineal, que nos viene dada por la siguiente propiedad:

Propiedad 2: los (posiblemente infinitos) vectores de un espacio vectorial pueden obtenerse a partir de un número limitado de algunos de sus vectores, por combinación lineal de ellos.  Tal conjunto de vectores se denomina conjunto generador del espacio.

Ejemplo 8: Los vectores (1,1), (-1,0), (0,3) forman un sistema generador de todos los vectores del espacio vectorial V_2 de vectores reales (x,y), ya que siempre podremos encontrar coeficientes escalares a, b, c tales que (x,y) = a(1,1) + b(-1,0) +  c(0,3) para cualquier vector (x, y).

Se pueden formar muchos sistemas generadores válidos para cualquier espacio vectorial V_n, con un número variable de vectores; ahora bien, vimos en el apartado anterior que en V_2 se necesitan como mínimo dos vectores para formar, por combinación lineal (o la regla del paralelogramo) el resto de vectores (fig. 1), y en el caso de V_3 se necesitan tres vectores (fig.2). Cuando un sistema generador tiene el mínimo posible de vectores, se denomina una base del espacio vectorial.

Ejemplo 9: Los vectores (1,1), (-1,0), (0,3) del ejemplo 8 son  un sistema generador de V_2, pero no son base, pues el mínimo necesario de vectores reales en V_2 hemos visto que es dos. Si cogemos el sistema de dos vectores {(1,1), (-1,0)}, como son independientes (no son colineales, si lo fueran, sus componentes serian proporcionales) generan también todo V_2, luego son una base. Tomando el sistema {(-1,0), (0,3)} vemos que también son independientes, luego son base.

Definición 5: el número de vectores que contiene cualquier base de un espacio vectorial V_n se llama dimensión del espacio.

NOTA 3: todas las bases de un espacio tienen el mismo número de vectores siempre que el espacio vectorial sea de dimensión finita; para espacios de dimensión infinita no es cierto. Un ejemplo importante de espacio de dimensión infinita es el espacio de Hilbert,  con diversas aplicaciones científicas.

Subespacios vectoriales

Si tomamos una parte de los vectores de un espacio vectorial de dimensión n, V_n, ¿es posible que ese subconjunto de vectores sea también un espacio vectorial?  Para serlo, debería cumplir las condiciones de la definición 4. La siguiente propiedad nos da una herramienta más directa para saberlo.

Propiedad 3: dado un subconjunto W de los vectores de V_n, W será espacio vectorial si y sólo si se cumple que:

1 - para cualquier par de vectores u, w de W, el vector u + w también pertenece a W

2- para cualquier vector u de W, y cualquier escalar k, se cumple que el vector ku también pertenece a W

Cuando tal subconjunto W sea también espacio vectorial, diremos que es un subespacio vectorial de V_n.

Ejemplo 10: Tomemos el subconjunto de vectores W de V_2 expresados por c·(1, 1), donde c es un escalar cualquiera. Geométricamente, W es una recta que pasa por el origen y por el punto (1, 1). ¿Es subespacio vectorial? Veamos: dos vectores cualesquiera de W serán c(1, 1) y c'(1, 1), si los sumamos obtenemos c(1, 1) + c'(1, 1) = (c + c')(1, 1) que también pertenece a W, pues c + c' es un escalar. Por otra parte, k·c(1, 1) = (k·c)(1, 1) que también es de W, Luego por la propiedad 3, W es subespacio vectorial de V_2

En general, la dimensión de un subespacio vectorial W será menor que la del espacio total V; de hecho, si fueran iguales, entonces el subespacio no es tal, sino que hay una igualdad, W = V. También en general, dada una base de V, no será una base de W. En cambio, si tomamos cada vector de la base de V, y generamos todos los vectores posibles por combinación lineal, sí obtenemos subespacios vectoriales:

Propiedad 4: si tenemos una base de V_n, con n vectores, entonces las combinaciones lineales de esos vectores, tomados de uno en uno, de dos en dos, etc, forman subespacios vectoriales de dimensiones uno, dos, etc.

Ejemplo 11: una base de V_3 es {u=(1,0,0), v=(-1, 1,0), w=(0,1,1)}; las combinaciones lineales de uno en uno  ku, kv, kcon k un escalar cualquiera forman tres subespacios vectoriales de dimensión 1 (son rectas que pasan por el origen), las combinaciones lineales de dos en dos  au + bv, au + bw, av + bw, con a,b escalares cualesquiera, forman tres subespacios vectoriales de dimensión 2 (son planos que pasan por el origen), y si tomamos los tres vectores, au + bv + cw, el subespacio generado coincide con el espacio total V_3.  Por ejemplo, (x, y, z) = a(1,0,0) + b(-1, 1,0) = (a-b, -b, 0) es un subespacio vectorial de dimensión 2 en  V_3: un plano que pasa por el origen de coordenadas.

 Unión e intersección de subespacios vectoriales

Los conjuntos admiten las operaciones de unión e intersección; siendo los subespacios vectoriales subconjuntos, es lógico pensar que también admitirán esas operaciones. No obstante, se presenta una dificultad con las uniones de subespacios: si prolongamos dos vectores u, v distintos, obtenemos dos rectas U, W (figura 3), cada recta es un subespacio vectorial de dimensión 1, generado por el vector correspondiente. La intersección de las dos rectas es un punto, que se puede hacer corresponder con un subespacio de dimensión cero, pero la unión de las dos rectas (el conjunto de puntos que pertenece a U o a W) no cumple la condición 1 de la propiedad 3: para cualquier par de vectores u, v de U\cup W, el vector u + v no pertenece aU\;\cup\;W, pues vemos en la figura que la suma u + v por la regla del paralelogramo no pertenece ni a U ni a W.

Fig. 3: dos rectas obtenidas por prolongación de dos vectores independientes generan dos subespacios vectoriales
Fig. 3: dos rectas obtenidas por prolongación de dos vectores independientes generan dos subespacios vectoriales

Tenemos la siguiente propiedad para las uniones e intersecciones de subespacios vectoriales:

Propiedad 5: La intersección  U\cap W de subespacios vectoriales U, W siempre será también un subespacio vectorial, pero la unión U\cup W no lo será, excepto en casos especiales.

Para solventar esta dificultad con las uniones de subespacios se recurre a definir otro subespacio vectorial que incluya a los vectores de U\cup W más los mínimos adicionales que aseguren que se cumplen las condiciones exigidas por la propiedad 3. La siguiente propiedad nos dice como lograrlo.

Propiedad 6: dados dos subespacios U, V, el mínimo subespacio vectorial que incluye todos los vectores de la unión U\cup W es el generado por el conjunto \left\{u+v\;\vert\;u\in U,\;v\in V\right\}. Designamos a este subespacio por U + V, el subespacio suma de subespacios.

Ejemplo 12: El subespacio U generado por la prolongación del vector u = (1,1,1), que es au, y el subespacio V generado por v = (1, 0, -1), que es bv, siendo a, b escalares cualesquiera, tienen como suma el subespacio \left\{a\left(1,1,1\right)+b\left(1,0,-1\right)\vert\;a,\;b\in\mathbb{R}\right\}=\left\{\left(a+b,a,a-b\right)\;\vert\;a,\;b\in\mathbb{R}\right\}

La siguiente propiedad relaciona las dimensiones de los subespacios U, V con sus sumas e intersecciones.

Propiedad 7 (fórmula de Grassmann): dados dos subespacios U, V, se cumple que

\text{dim }U\;+\;\text{dim }V=\text{dim }\left(U+V\right)+\text{dim }\left(U\cap V\right)

Ejemplo 13: siguiendo con los subespacios U, V del ejemplo 12, la intersección de ambos es:

\left\{a\left(1,1,1\right)\right\}\cap\left\{b\left(1,0,-1\right)\right\}=\left\{\left(a,a,a\right)\right\}\cap\left\{\left(b,0,-b\right)\right\}=\left\{\left(0,0,0\right)\right\}

luego dim(U\cap V) = 0 (un punto aislado se considera de dimensión cero). Por la fórmula de Grassmann, la dimensión del subespacio suma será igual a la suma de las dimensiones de U, V, ambas valen 1 (son rectas en el espacio), luego dim(U \cup V) = 1 + 1 = 2, que es un plano en el espacio, que comprende las dos rectas U, V.

Definición 6: si la intersección de dos subespacios U, V es el vector cero, diremos que la suma de subespacios U + V es una suma directa de subespacios, y se escribe así: U\oplus V.

 Ejemplo 14: siguiendo con los subespacios U, V de los ejemplos 12 y 13, como su intersección es el vector nulo, su suma es directa:

U\oplus V=\left\{\left(a+b,a,a-b\right)\;\vert\;a,\;b\in\mathbb{R}\right\}

NOTA 3: El vector nulo 0 está presente en cualquier espacio o subespacio vectorial (es el elemento neutro de la suma de vectores), por ello, la intersección de subespacios siempre contiene al vector nulo. Geométricamente, los subespacios son rectas, planos o hiperplanos que pasan por el origen de coordenadas. La intersección de subespacios U, V sólo será distinta del conjunto {0} cuando o bien U esté contenido en V o bien V esté contenido en U. Por ejemplo, la intersección del plano U: (x, y, z) = a·(1,0,0) + b(0,1,0) con la recta V: c·(-1, 3, 0) es la propia recta V, pues V está contenida en U. En este ejemplo la suma U + V no es directa, el subespacio intersección tiene dimensión 1 y el subespacio suma tiene dimensión 2 (y se cumple la fórmula de Grassmann, como podeis verificar fácilmente).

separador2

Examen-2 de Cálculo

1. Calcular \underset{n\rightarrow\infty}{lim}\frac{\sqrt{n^2+1}-\sqrt{9n^2+2}}{3n-2+\sqrt{4n^2-3}}

Solución: \underset{n\rightarrow\infty}{lim}\frac{\sqrt{n^2+1}-\sqrt{9n^2+2}}{3n-2+\sqrt{4n^2-3}}=\frac{\sqrt{\infty+1}-\sqrt{\infty+2}}{\infty-2+\sqrt{\infty-3}}=\frac{\infty-\infty}\infty=? tenemos dos indeterminaciones, una en el numerador, \infty-\infty, otra en la fracción \frac{\infty}\infty. Viendo que el grado máximo de n es 1, dividimos numerador y denominador por n, y volvemos a aplicar el límite:

\begin{array}{l}\underset{n\rightarrow\infty}{lim}\frac{\sqrt{n^2+1}-\sqrt{9n^2+2}}{3n-2+\sqrt{4n^2-3}}\frac{1/n}{1/n}=\underset{n\rightarrow\infty}{lim}\frac{\sqrt{n^2/n^2+1/n^2}-\sqrt{9n^2/n^2+2/n^2}}{3n/n-2/n+\sqrt{4n^2/n^2-3/n^2}}=\\\underset{n\rightarrow\infty}{lim}\frac{\sqrt{1+1/n^2}-\sqrt{9+2/n^2}}{3-2/n+\sqrt{4-3/n^2}}=\frac{\sqrt{1+0}-\sqrt{9+0}}{3-0+\sqrt{4-0}}=\boxed{-\frac25}\end{array}

Como comprobación calculamos algunos términos con hoja de cálculo, llamando L al límite:

n f(n) |L-f(n)|
1 -0,951206 0,551206
10 -0,416974 0,016974
100 -0,401609 0,001609
1000 -0,400160 0,000160
10000 -0,400016 0,000016
100000 -0,400002 0,000002

Vemos que la diferencia entre la expresión y el límite tiende progresivamente a cero.

separador2

2. ¿En qué puntos la gráfica de la función f(x)=x^3-x^2+2 tiene su recta tangente paralela al eje X?

Solución: La recta tangente a la gráfica de f(x) en un punto x_0 de su dominio tiene la ecuación y=mx+n donde la pendiente de la recta es m=f'(x_0); recordemos que la pendiente de la recta es la tangente del ángulo que forma con el eje X: m=\tan\left(\alpha\right). Si esa recta tangente es paralela al eje X, quiere decir que el ángulo \alpha es cero, o sea que \tan\left(\alpha\right)=\tan\left(0\right)=0, o sea que m=0=f'(x_0). Por tanto, tenemos que hallar los puntos x para los que la derivada es nula:

f'(x)=3x^2-2x=0\Rightarrow x\left(3x-2\right)=0\Rightarrow\left\{\begin{array}{l}x=0\\x=2/3\end{array}\right.

examen-2

Sustituyendo estos dos valores de x en f(x) obtenemos sus imágenes, que son y=2, y = 50/27, respectivamente, que son también las ecuaciones de las rectas tangentes, ya que para ellas y=mx + n = 0·x+n = n (rectas y = cte) como vemos en la gráfica.

separador23.  Estudiar el límite \underset{\left(x,y\right)\rightarrow\left(0,0\right)}{lim}\frac{x^2+y^3}{x^2+y^2}.

Solución: Es indeterminado del tipo 0/0. Siendo un límite de dos variables, procede el cambio de variables a coordenadas polares:

\begin{array}{l}\underset{\left(x,y\right)\rightarrow\left(0,0\right)}{lim}\frac{x^2+y^3}{x^2+y^2}=\underset{r\rightarrow0}{lim}\frac{r^2\cos^2\left(\theta\right)+r^3\sin^3\left(\theta\right)}{r^2cos^2\left(\theta\right)+r^2sin^2\left(\theta\right)}=\underset{r\rightarrow0}{lim}\frac{cos^2\left(\theta\right)+sin^3\left(\theta\right)}{cos^2\left(\theta\right)+sin^2\left(\theta\right)}=\\\underset{r\rightarrow0}{lim}\frac{cos^2\left(\theta\right)+sin^3\left(\theta\right)}1\end{array}

este límite no existe, pues a medida que el radio r se acerca a cero, el numerador no tiende a ningún valor en concreto, depende del ángulo.

separador24.  ¿Cuáles son los puntos críticos de la función f(x,y)=x^3y^3+xy?

Solución: Son aquellos en los que se anulan las derivadas parciales; la derivada parcial respecto a x la igualamos a cero:

\frac{\partial{}}{\partial x}\left(x^3y^3+xy\right)=3x^2y^3+y=0\Rightarrow\left\{\begin{array}{l}\boxed{y=0}\\3x^2y^2+1=0\end{array}\right.

la segunda opción no tiene solución, pues x^2y^2 siempre es positivo. Para la derivada parcial respecto a y tenemos un resultado parecido:

\frac{\partial{}}{\partial y}\left(x^3y^3+xy\right)=3x^3y^2+x=0\Rightarrow\left\{\begin{array}{l}\boxed{x=0}\\3x^2y^2+1=0\end{array}\right.

Así pues el único punto crítico es x=0, y=0.

separador2

Examen-1 resuelto de Cálculo

1. Estudiar la continuidad o en su caso, discontinuidad, en x=1, de la función real:

f\left(x\right)=\left\{\begin{array}{l}\sin\left(\mathrm\pi x\right)\right),\;x\leq1\\\frac{x-1}{x+1},\;x>1\end{array}\right.

Solución: Para que sea continua en el punto, ha de cumplir la condición de que el límite en ese punto coincida con el valor de la función en el punto:

\underset{x\rightarrow1}{lim}f\left(x\right)=f\left(1\right)=\sin\left(\mathrm\pi\right)=-1

El límite en x = 1 hay que calcularlo según las dos ramas de la función (límites laterales), ya que precisamente en ese punto se bifurca la función; límite por la derecha,

\underset{x\rightarrow1^+}{lim}\frac{x-1}{x+1}=\frac{0^+}{2^+}=0

límite por la izquierda,

\underset{x\rightarrow1^-}{lim}\sin\left(\mathrm{πx}\right)=\sin\left(\mathrm\pi\right)=-1

Vemos que los límites laterales no coinciden, luego no existe el límite en el punto x=1, y por tanto la función no puede ser continua. Además, al no coincidir los límites laterales, en x=1 hay una discontinuidad de salto (o no evitable), pero los dos límites son finitos, así pues el salto es finito: es una discontinuidad de 1a especie.

2. Dada la función 1-\frac1{x^2+2} realizar 5 iteraciones del método del punto fijo tomando como punto inicial x=0.

Solución: El método del punto fijo genera una sucesión de valores a partir de un valor inicial: {x_0, x_1=f(x_0), x_2=f(x_1), ...}, que converge a un punto x tal que f(x) = x. En nuestro caso esta sucesión es:

\begin{array}{l}x_1=f\left(0\right)=1-\frac1{0^2+2}=\frac12;\\x_2=f\left(\frac12\right)=1-\frac1{\left(\frac12\right)^2+2}=1-\frac1{\displaystyle\frac94}=\frac59;\\x_3=f\left(\frac59\right)=1-\frac1{\left(\frac59\right)^2+2}=\frac{106}{187}\approx0.5668;\\x_4=f\left(\frac{106}{187}\right)=1-\frac1{\left(\frac{106}{187}\right)^2+2}\approx0.5692;\\x_5=f\left(0.5692\right)=1-\frac1{\left(\frac{106}{187}\right)^2+2}=0.5697\end{array}

Vemos que un punto fijo de esta función está cerca de  x=0.5692 pues para este valor el punto y su imagen por f prácticamente coinciden: f\left(0.5692\right)=0.5697

3. Calcular \int_0^1\frac{3x}{\left(3x^2+1\right)^2}\operatorname dx

Solución: Primero calculamos la integral indefinida; es del tipo inmediato \int\frac{f'\left(x\right)}{\left[f\left(x\right)\right]^n}=\frac{\left[f\left(x\right)\right]^{n+1}}{n+1},\;n>1, pues la derivada del denominador, sin tener en cuenta la potencia, es casi igual al numerador, excepto por un factor constante que podemos añadir:

\int\frac{3x}{\left(3x^2+1\right)^2}\operatorname dx=\frac12\int\frac{6x}{\left(3x^2+1\right)^2}\operatorname dx=\frac12\frac{\left(3x^2+1\right)^3}3

Ahora aplicamos la regla de Barrow para calcular la integral definida:

\frac16\left[\left(3x^2+1\right)^3\right]_0^1=\frac16\left[4^3-1^3\right]=\frac{21}2.

4. Calcular los puntos extremos de la función f\left(x\right)=\frac{1-x^2}{x-3} en el intervalo [-1, 1].

Solución: Para encontrar los posibles extremos relativos calculamos la derivada de la función y la igualamos a cero:

\begin{array}{l}f'\left(x\right)=\frac{D\left(1-x^2\right)\cdot\left(x-3\right)-\left(1-x^2\right)D\left(x-3\right)}{\left(x-3\right)^2}=\frac{-2x\left(x-3\right)-\left(1-x^2\right)}{\left(x-3\right)^2}=\\\frac{-2x^2+6x-1+x^2}{\left(x-3\right)^2}=\frac{-x^2+6x-1}{\left(x-3\right)^2}=0;\\x=\frac{-6\pm\sqrt{36-4\left(-1\right)\left(-1\right)}}{-2}=\frac{-6\pm\sqrt{32}}{-2}=3\pm\sqrt8\approx\left\{\begin{array}{l}5.3\\0.17\end{array}\right.\end{array}

Tenemos dos posibles puntos extremos relativos, pero sólo uno de ellos cae en el intervalo [-1, 1], el punto x=0.17; para ver si es máximo o mínimo local, calculamos la derivada segunda y sustituimos:

\begin{array}{l}f'\left(x\right)=\frac{-x^2+6x-1}{\left(x-3\right)^2}\Rightarrow f''\left(x\right)=\frac{\left(-2x+6\right)\left(x-3\right)^2-2\left(x-3\right)\left(-x^2+6x-1\right)}{\left(x-3\right)^4};\\f''(0.17)=\frac{45.28}{64.14}>0\end{array}

como el signo es positivo, tenemos un mínimo relativo. Pasamos a estudiar los extremos absolutos: estudiamos los valores de la función en los extremos del intervalo [-1, 1]:  f(-1) = 0, f(1) = 0. Los comparamos con el valor de la función en el mínimo relativo, que es f(0.17) = -0.3. Como la función es continua en el intervalo [-1, 1], concluimos que en ese intervalo toma sus valores máximos en x = -1, x = 1, y su valor mínimo en x=0.17.

examen1

 

 5. Dada la función de dos variables

f\left(x,y\right)=\left\{\begin{array}{l}\frac{x^3}{x^2+y^2},\;\left(x,y\right)\neq\left(0,0\right)\\0,\;\left(x,y\right)=\left(0,0\right)\end{array}\right.

Calcular sus derivadas parciales en (0, 0)  y estudiar su diferenciabilidad en el origen.

Solución: En el punto (0, 0) la función se bifurca en dos ramas, así que no podemos usar las fórmulas de derivación usuales, hay que aplicar la definición de derivada parcial:

\frac{\partial f}{\partial x}=\underset{h\rightarrow0}{lim}\frac{f\left(x+h,y\right)-f\left(x,y\right)}h;\;\frac{\partial f}{\partial y}=\underset{h\rightarrow0}{lim}\frac{f\left(x,y+h\right)-f\left(x,y\right)}h

Las aplicamos a la función dada en el punto (0, 0):

\begin{array}{l}\frac{\partial f}{\partial x}=\underset{h\rightarrow0}{lim}\frac{\frac{\left(x+h\right)^3}{\left(x+h\right)^2+y^2}-0}h=\underset{h\rightarrow0}{lim}\frac{\left(x+h\right)^3}{h\left(x+h\right)^2+hy^2}\xrightarrow{}\frac{x^3}0=\infty\\\end{array}

La derivada parcial según x en (0, 0) no existe; vamos por la otra derivada parcial:

\begin{array}{l}\frac{\partial f}{\partial y}=\underset{h\rightarrow0}{lim}\frac{\frac{\left(x\right)^3}{\left(x\right)^2+\left(y+h\right)^2}-0}h=\underset{h\rightarrow0}{lim}\frac{x^3}{x^2+y^2+h^2+2yh}\xrightarrow{}\frac{x^3}{x^2+y^2}\\\end{array}

vemos que según la dirección y sí tenemos derivada en el origen. Vamos a ver si es diferenciable: no puede serlo, pues las funciones diferenciables tienen derivadas parciales en cualquier dirección, esto es, no solo han de existir las derivadas parciales, sino que además se exige que existan las derivadas direccionales en cualquier dirección. Si la función hubiera tenido derivadas parciales, entonces tendríamos que haber comprobado si también tenía derivadas direccionales. Otra posibilidad para ver que es diferenciable, es probar que tiene derivadas parciales que además sean continuas.

 

 

 

Problemas de probabilidades

1. En una red local hay las conexiones mostradas en la figura, donde los números indican las probabilidades de que cada rama esté abierta en un cierto intervalo de tiempo dado. Suponiendo que las probabilidades son independientes entre sí, calcular la probabilidad de que haya transmisión de datos entre A y D por cualquier camino. Suponiendo que hay transmisión de datos entre A y D, calcular la probabilidad de que se esté transmitiendo por la ruta ACD.

graf_probabilitats

 Para transmitir entre A y D hay tres caminos: ABD, AD, ACD; si cualquiera de ellos está abierto, hay comunicación entre A y D. ¿cuáles son las posibilidades?

  • ABD abierto, AD y ACD cerrados
  • AD abierto, ABD y ACD cerrados
  • ACD abierto, ABD y AD cerrados
  • ABD y AD abiertos, ACB cerrado
  • ...
  • ABD, AD y ACB abiertos

Vemos que hay bastantes posibilidades a considerar; en estos casos es conveniente pensar en el suceso contrario: ¿cuándo no habrá transmisión entre A y D? Sólo cuando ABD, AD y ACB estén todos cerrados. El camino ABD estará cerrado si AB lo está, o bien BD lo está; teniendo en cuenta que los sucesos son independientes, la probabilidad de "ABD cerrado" es:

\begin{array}{l}\text{P}\left(\text{ABD cerrado}\right)\;=\text{P}\left(\text{AC cerrado}\cup\text{CD cerrado}\right)\;=\text{P}\left(\text{AC cerrado}\right)+\text{P}\left(\text{CD cerrado}\right)\text{-P}\left(\text{AC cerrado}\cap\text{CD cerrado}\right)=\\0.1+0.2-0.1\cdot0.2=0.28\end{array}

ya que P(A cerrado) = 1 - P(A abierto) = 1 - 0.9, e idénticamente para B. La probabilidad de "ACD cerrado" es numéricamente la misma:

P(ACD \; cerrado) = P(AC \; cerrado \cup CD \; cerrado) = P(AC \; cerrado) + P(CD \; cerrado) - P(AC \; cerrado \cap  CD \; cerrado) = 0.2 + 0.1 - 0.2 = 0.28.

Entonces P(no se transmite entre A y D)=P(ABD, AD y ACB todos cerrados)  = P(ABD cerrado \cap AD cerrado \cap ACB cerrado) = P(ABD cerrado})·P(AD cerrado)·P(ACB cerrado) = 0.28·0.3·0.28 = 0.02352.

Por tanto P(se transmite entre A y D) = 1 - P(no se transmite entre A y D) = 1 - 0.02352 = 0.97648.

NOTA: puede ser didáctico realizar simulaciones de probabilidades con hoja de cálculo para verificar experimentalmente los cálculos. En este ejercicio es simple de hacer: usando la función aleatorio() que llevan todas las hojas de cálculo, y con la función lógica =SI(condición; valor_si_cierto;valor_si falso), se puede crear una hoja que presente el valor 1 siempre que el valor aleatorio esté en el intervalo [0,p] siendo p las probabilidades dadas de la red:

AB BD AD AC CD
1 1 1 0 1
1 1 1 1 1
0 0 0 0 1
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
1 1 1 1 1
0 1 0 1 1

Así, por ejemplo, la columna AB presenta un 1 siempre que en esa casilla se haya generado un valor aleatorio en el intervalo [0, 0.9]; cuando hay un 1 significa que la ruta AB está abierta, con un 0 está cerrada. Observad que los valores de esta tabla son binarios, con 1=cierto (hay transmisión), 0=falso (no hay transmisión).

Ampliamos ahora con más columnas:

AB y BD AC y CD (AB·BD)+AD+(AC·CD)
1 0 2
1 1 3
0 0 0
1 1 3
1 1 3
1 1 3
1 1 3
1 1 3
0 1 1

En "AB y AD" multiplicamos las columnas AB por AD, en "AC y AD" lo mismo, pero en la columna (AB·BD)+AD+(AC·CD) al sumar no obtenemos un número binario: si éste valor es cero significa que no hay transmisión entre A y D (todo cerrado) y con un valor superior a cero hay transmisión entre A y D (alguna ruta abierta). Contando el número de celdas superiores a cero de ésta última columna y dividiendo por el número de filas obtenemos una estimación de la probabilidad pedida, tanto mejor como más filas haya. Con 1000 filas se obtienen valores del orden de 0.98.

separador2

 2.  Se elige al azar un número de 3 bits x_1x_2x_3 donde x_i=0x_i=1. Definimos las variables aleatorias X: el número de ceros que tienen conjuntamente los dos primeros bits, Y: número total de unos entre los tres bits. Calcular la tabla de distribución conjunta de probabilidad de X,Y. ¿Cuál es la covarianza de X,Y?

 Para calcular las probabilidades conjuntas tenemos que saber primero las posibles combinaciones de valores, son: X puede valer {0, 1, 2}, Y puede valer {0, 1, 2, 3}. Por tanto tendremos 3·4 = 12 combinaciones de valores (X,Y), que son {(0,0), (0,1), (0,2), (0,3), ..., (2,2), (2,3)}.

Vamos por las probabilidades conjuntas: dado un suceso A de la variable X y un suceso B de la variable Y, la probabilidad conjunta de A y B es P\left(A\cap B\right)=P(A\vert B)\cdot P(B), que será igual a P(A)·P(B) sólo si A, B son sucesos independientes; en este caso, no podemos presuponer independencia entre X, Y, luego aplicamos la primera igualdad.

Veamos un ejemplo de cálculo: sea A el suceso X=1, B el suceso Y=2; la probabilidad condicionada P(X = 1 | Y = 2) se obtiene considerando todos los casos Y=2 y viendo en que proporción de ellos se cumple X=1.

Si Y=2 los bits x_1x_2x_3={(1,1,0), (1,0,1), (0,1,1)}, observando los dos primeros bits, vemos que en dos casos, {(1,0,1), (0,1,1)}, tenemos un cero en uno de los bits; luego la proporción de casos X=1 dentro de Y=2 es de 2/3.

Calculamos ahora la P(Y = 2) como la proporción de casos en que tenemos
2 unos respecto al total de combinaciones de los tres bits, que son 2³=8; la proporción es pues 3/8. Por tanto, P\left(A\cap B\right)=\frac23\cdot\frac38=\frac28=\frac14. Por otro lado, la P(X = 1) se obtiene con la proporción de casos en que tenemos 1 cero en los dos primeros bits respecto al total de casos en esos dos primeros bits: {(1,0),(0,1),(1,1),(0,0)}, por tanto es P(X = 1) = 3/4. La probabilidad P(X = 1)·P(Y = 2) = 3/4 · 3/8 = 9/32 que es distinta de la obtenida para P\left(A\cap B\right), luego los sucesos no son independientes.

Obviamente no vamos a hacer un cálculo tan largo para las otras 11 combinaciones (X,Y), lo abreviamos haciendo una discusión de casos simples:

  • Si el número de unos es de 3 (Y=3), entonces no hay ningún cero, luego X debe valer cero con seguridad (X=1 con probabilidad 100%).
  • Si el número de unos es de 0 (Y=0), entonces todos los bits son cero, luego X debe valer 2 con seguridad (X=2 con probabilidad 100%).
  • El caso X=0, Y=0 es imposible (sucesos incompatibles), ya que X=0 implica que hay dos unos en los dos primeros bits, luego Y tiene que valer al menos 2; por tanto el caso X=0, Y=1 también es imposible.
  • Si Y=2 hay un sólo cero en los tres bits, luego X no puede valer 2; tenemos que P(X = 2 | Y = 2) = 0.
  • Si Y=1, los bits han de ser {(1,0,0), (0,1,0), (0,0,1)}; luego P(X = 1|Y = 1) = 2/3, P(X = 2|Y = 1) = 1/3.

Resumimos todo lo que tenemos en una tabla de probabilidades condicionadas P(X | Y), marcamos las casillas que hemos visto que tienen probabilidad 0 (sucesos incompatibles):

Probabilidades condicionadas P(X | Y)
Probabilidades condicionadas P(X | Y)

Para obtener la tabla de probabilidades conjunta P\left(A\cap B\right) usaremos la fórmula P\left(A\cap B\right)=P(A\vert B)\cdot P(B) y algunas propiedades útiles:

  1. la suma de probabilidades por filas (distribución marginal de X) coincide con las probabilidades P(X),
  2. la suma de probabilidades por columnas (distribución marginal de Y) coincide con las probabilidades P(Y), y
  3. la suma total ha de ser 1.

Para aplicarlo, será útil tener la tabla de probabilidades para la variable Y:

Y 0 1 2 3
P(Y) 1/8 3/8 3/8 1/8

y también para la variable X:

X 0 1 2
P(X) ¼ ½ ¼

Obtenemos la tabla conjunta X,Y:

Probabilidades conjuntas
Probabilidades conjuntas

Las casillas en azul se han obtenido aplicando las propiedades 1 y 2, no ha sido necesario el cálculo de probabilidades.

Para calcular la covarianza usamos la fórmula:

Cov\left(X,Y\right)=\sum_x\sum_y\left(x-\mu_x\right)\left(y-\mu_y\right)P\left(x,y\right)

Necesitamos los valores medios de las variables:

\mu_x=\underset x{\sum x}\cdot P(x),\;\mu_y=\underset y{\sum y}\cdot P(y)

Los obtenemos de las tablas de probabilidades para X e Y:

Y 0 1 2 3
P(Y) 1/8 3/8 3/8 1/8
Y·P(Y) 0 0.375 0.75 0.375 suma=1.5
X 0 1 2
P(X) 1/4 1/2 1/4  
X·P(X) 0 0.5 0.5 suma=1

Los elementos que entran en el cálculo de la covarianza los disponemos también en forma de tabla:

Y
X 0 1 2 3
0 0 0 -0.0625 -0.1875
1 0 0 0 0
2 -0.1875 -0.0625 0 0

La suma de todos ellos es la covarianza: -0.5, un valor negativo indica dependencia inversa:  valores de X  grandes implican pequeños valores de Y.

separador2

Los números complejos

Motivación

Antes de escribir este artículo ha mirado qué hay sobre el tema en Internet, pues siempre que encuentro material de calidad sobre un tema, bien explicado, con buenos ejemplos, decido no añadir nada, pues no es necesario. En el caso de los números complejos y en castellano he encontrado apuntes de nivel bachillerato, bastante aceptables, y apuntes muy completos, incluso libros de 400 páginas en PDF a nivel alto, también con buena calidad; lo que no he encontrado es ninguna introducción que explique claramente para qué se utilizan los complejos, como mucho hay introducciones históricas que los relacionan con la resolución de ecuaciones. Es por esto que he decidido participar en el tema.

Este artículo es introductorio, a nivel de bachillerato - 1º curso universitario, pero mostrando las aplicaciones prácticas, que a menudo son de un nivel superior. Esta intenta ser mi aportación al tema: mostrar cómo funcionan los números complejos a nivel básico, y mostrar para qué se utilizan actualmente.

Los números imaginarios

Es bien sabido que no podemos calcular la raíz cuadrada de un número negativo, de forma que tenemos infinitos números reales sin raíz cuadrada, como \sqrt{-1},\sqrt{-2},\cdots, y por tanto hay infinitas ecuaciones cuadráticas ax² + bx + c = 0 sin solución, concretamente, todas las que tengan un discriminante b² - 4ac negativo. Esto no sucede con la operación inversa de la radicación, la exponenciación: el cuadrado de un número x existe para todo x. Así que tenemos tres obstáculos: hay ecuaciones cuadráticas sin solución, hay números sin raíz cuadrada, y existe una asimetría entre exponenciación y su operación inversa la radicación. Además, sucedía que en ciertos cálculos algebraicos se encontraban resultados intermedios como por ejemplo \left(\sqrt{-1}+\sqrt{-2}\right)\cdot\sqrt{-1}[1], que en principio parecía que obligaban a detenerse ahí, pues ninguna de esas raíces "existía"; no obstante, algo parecido sucedió históricamente con los números negativos, que parecían algo inexistente, pero al multiplicarlos entre sí resultaba un número "existente" positivo, como por ejemplo en (-1)·(-2) = +2. Quizá se podría hacer algo parecido con las raíces de números negativos...

Los historiadores nos dicen que fue Rafael Bombelli el que ideó el número imaginario i=\sqrt{-1}; de esta definición se deduce que i^2=\left(\sqrt{-1}\right)^2=-1, y por extensión, podemos representar cualquier raíz de un número negativo en función del imaginario i: \sqrt{-x}=\sqrt{-1\cdot x}=\sqrt{-1}\cdot\sqrt x=i\cdot x. Entonces, expresiones algebraicas como la [1] pueden simplificarse:

\left(\sqrt{-1}+\sqrt{-2}\right)\cdot\sqrt{-1}=\left(i+i\sqrt2\right)\cdot i=i^2+i^2\sqrt2=-1-\sqrt2,

vemos que el producto de imaginarios resulta ser, en este caso, un número real.

También gracias a los números imaginarios todas las ecuaciones cuadráticas (de hecho todas las ecuaciones algebraicas, de cualquier grado) tienen soluciones, pues si el discriminante b² - 4ac es negativo podemos expresarlo como (-1)·(-b² + 4ac) siendo (-b² + 4ac) positivo, y al hacer la raíz aparece el número i:

x=\frac{-b\pm\sqrt{b^2-4c}}{2a}=\frac{-b\pm\sqrt{\left(-1\right)\left(b^2-4c\right)}}{2a}=\frac{-b\pm\sqrt{\left(-1\right)\left(-b^2+4c\right)}}{2a}=\frac{-b\pm i\sqrt{\left(-b^2+4c\right)}}{2a}[2]

Así la introducción del número imaginario i parece que soluciona los problemas planteados; lo curioso del caso es que, posteriormente, se descubrió que eran muchísimo más útiles de lo que nadie podía sospechar.

Los números complejos

Un número complejo no es más que la combinación de un imaginario y un real que se suman o restan, formando una expresión que en aritmética se llama un binomio; así, son ejemplos de complejos las combinaciones 2 + 3i, -1 + i, 34 - 6i, etc. Las soluciones de ecuaciones cuadráticas con discriminante negativo conducen a números complejos.

Ejemplo 1: resolver x² + 4x + 5 = 0.

Aplicamos la fórmula [2]:

x=\frac{-b\pm\sqrt{b^2-4ac}}{2a}=\frac{-4\pm\sqrt{16-20}}2=-2\pm\frac{\sqrt{-4}}2=-2\pm\frac{i\sqrt4}2=-2\pm i

Hay dos soluciones complejas, -2 + i, -2 - i; a los complejos que tienen iguales sus partes reales pero el signo cambiado de sus partes imaginarias se les llama complejos conjugados.

En el ejemplo 1 se ha mostrado que las ecuaciones cuadráticas con discriminante negativo producen soluciones complejas a + bi, a - bi que son conjugadas; estos complejos tienen las siguientes propiedades interesantes:

Propiedad 1: la suma de complejos conjugados es un número real; (a + bi) + (a - bi) = 2a.

Propiedad 2: el producto de complejos conjugados es un número real (a + bi) · (a - bi) = a² + b² +abi + abi = a² + b²

La segunda propiedad se puede usar para simplificar fracciones de números complejos por el método de multiplicar el denominador por su conjugado.

Ejemplo 2: simplificar \frac{2-3i}{1+2i}

Multiplicando el denominador por su conjugado:

\frac{2-3i}{1+2i}\cdot\frac{1-2i}{1-2i}=\frac{\left(2-3i\right)\cdot\left(1-2i\right)}{1^2-\left(2i\right)^2}=\frac{2-4i-3i+6i^2}{1-4i^2}=\frac{2-7i-6}{1+4}=-\frac45-\frac{7i}5.

El plano complejo; forma polar de un complejo

El binomio a + bi se puede representar en un plano coordenado, tomando como eje horizontal la recta real, y como eje vertical la recta imaginaria; en la figura 1 vemos el plano, con varios complejos representados por cruces. Por ejemplo el complejo 2 + 2i se representa por el punto (2, 2) en el plano.

Plano complejo: reales en eje horizontal, imaginarios en eje vertical
fig. 1: Plano complejo: reales en eje horizontal, imaginarios en eje vertical, y algunos puntos en el plano

La representación de los complejos en el plano proporciona una forma alternativa de expresarlos, denominada forma polar del complejo: en la figura 2 vemos que para cualquier complejo (a, b) podemos trazar un segmento de recta desde el origen de coordenadas hasta el punto (a, b); este segmento tendrá una longitud r, llamada módulo del complejo,  y formará con ele eje de los números reales un ángulo α, llamado argumento del complejo. Estos dos números, (r, α), bastan para localizar el punto (a, b), y son la representación en forma polar del complejo a + bi.

Fig. 2: el número complejo 3 + 4i se representa en el plano complejo como el punto (3, 4), y puede localizarse como el punto que dista del origen una longitud r con un ángulo α respecto al eje horizontal
Fig. 2: el número complejo 3 + 4i se representa en el plano complejo como el punto (3, 4), y puede localizarse como el punto que dista del origen una longitud r con un ángulo α respecto al eje horizontal

Cálculo del módulo y del argumento de un complejo

Usando trigonometría en la figura 2 es evidente que:

r=\sqrt{a^2+b^2},\;\alpha=\tan^{-1}\left(\frac ba\right)[2]

En el ejemplo de la figura 2, r=\sqrt{3^2+4^2}=5,\;\alpha=\tan^{-1}\left(\frac43\right)\approx53^o\approx0.3\pi. La forma polar de un complejo a + bi suele representarse con la notación r_\alpha, en el caso del complejo de la figura 2, será 5_{0.3\pi}.

Si el punto que representa el complejo z está en el primer cuadrante del plano, el argumento \alpha viene dado directamente por [2], pero si está en otros cuadrantes, habrá que modificarlo según la siguiente tabla (en radianes):

Los cuatro cuadrantes y las respectivas correcciones al argumento del complejo
Fig. 3: Los cuatro cuadrantes y las respectivas correcciones (en radianes)  al argumento del complejo

En esos casos para usar la tabla de la figura 3 cogeremos los valores absolutos en el cálculo del argumento de la fórmula 2:

\alpha=\tan^{-1}\left(\frac{\left|b\right|}{\left|a\right|}\right)

Por ejemplo, el complejo (-1, -2) está en el cuadrante IV; su argumento en radianes será

2\pi-\tan^{-1}\left(\frac21\right)\approx2\pi-0.35\pi=1.65\pi.

La forma polar resulta tener ventaja respecto a la binomial a + bi o la del plano (a, b) cuando efectuamos las operaciones de producto, cociente, radiación o exponenciación de complejos; lo vemos en las siguientes propiedades.

Propiedad 3: el producto de dos complejos dados en forma polar r_\alpha, r'_{\alpha'} es:

r_\alpha\cdot r'_{\alpha'}={\left(r\cdot r'\right)}_{\alpha+\alpha'}[3]

Literalmente: "el producto de dos complejos tiene como módulo el producto de los módulos y como argumento la suma de los argumentos ".

Propiedad 4: el cociente de dos complejos dados en forma polar r_\alpha, r'_\alpha' es:

\frac{r_\alpha}{r'_{\alpha'}}={\left(\frac r{r'}\right)}_{\alpha-\alpha'}[4]

Literalmente: "el cociente de dos complejos tiene como módulo el cociente de los módulos y como argumento la diferéncia de los argumentos ".

Propiedad 5: La poténcia n-ésima de un complejo r_\alpha es:

\left(r_\alpha\right)^n={\left(r^n\right)}_{n\alpha}[5]

Literalmente: "la n-ésima potencia de un complejo  tiene como módulo la n-ésima potencia del módulo y como argumento el producto de n por el argumento ".

Ejemplo 3: Dados los complejos z_1=2 + i, z_2=-1 -2i, calcular z_1·z_2, z_1/z_2.

El producto lo podemos hacer directamente usando las expresiones binomiales:

z_1\cdot z_2=\left(2+i\right)\left(-1-2i\right)=-2-4i-i-2i^2=-5i.

Para el cociente podemos convertir el denominador en un número real usando su conjugado:

\frac{z_1}{z_2}=\frac{\left(2+i\right)}{\left(-1-2i\right)}=\frac{\left(2+i\right)}{\left(-1-2i\right)}\frac{\left(-1+2i\right)}{\left(-1+2i\right)}=\frac{-4+3i}5=-\frac45+\frac{3i}5

Pasemos ahora los complejos a su forma polar usando las fórmulas [2] y las correcciones necesarias de los cuadrantes (el complejo (-1, -2) está en el cuadrante III):

\begin{array}{l}z_1=\left(2,1\right)\Rightarrow r_1=\sqrt{2^2+1^2}=\sqrt5;\;\alpha_1=\tan^{-1}\left(\frac12\right)\approx0.15\pi;\\z_2=\left(-1,-2\right)\Rightarrow r_1=\sqrt{1^2+2^2}=\sqrt5;\;\alpha_2=\mathrm\pi+\tan^{-1}\left(\frac21\right)\approx1.35\pi\end{array}

Multiplicamos y dividimos los complejos usando su forma polar:

\begin{array}{l}z_1={\sqrt5}_{0.15\pi},\;z_2={\sqrt5}_{1.35\pi}\\z_1\cdot z_2={\left(\sqrt5\cdot\sqrt5\right)}_{0.15\pi+1.35\pi}=5_{1.5\pi}==5_{3\pi/2};\\\frac{z_1}{z_2}={\left(\frac{\sqrt5}{\sqrt5}\right)}_{0.15\pi-1.35\pi}=1_{-1.2\pi}=1_{0.8\pi}\end{array}

El producto y el cociente calculados de las dos formas deben de coincidir; en el caso del producto z_1·z_2 se ve a simple vista, pues su argumento 3π/2 nos dice que está sobre el eje imaginario negativo, y siendo su módulo 5 ha de ser  z_1·z_2=(0,-5)=-5i como esperábamos. Para el cociente convertiremos la forma polar r_\alpha a forma binomial a + bi usando que

\begin{array}{l}a=r\cos\left(\alpha\right)\\b=r\sin\left(\alpha\right)\end{array}, [6]

lo que resulta es:

\begin{array}{l}\frac{z_1}{z_2}=1_{0.8\pi}\Rightarrow r=1,\;\alpha=0.8\pi;\\a=1\cdot\cos\left(0.8\pi\right)\approx-0.8;\;b=1\cdot\sin\left(0.8\pi\right)\approx0.6\end{array}

que coincide con el resultado anterior, pues 4/5 = 0.8 y 3/5 = 0.6.

Ejemplo 4: Dado el complejo z = (3, -2), calcular z⁴.

Si lo hacemos usando la forma binomial o bien tenemos que calcular (3 -2i)·(3 -2i)·(3 -2i)·(3 -2i) o bien usamos la regla del binomio de Newton, pero usando la forma polar y la fórmula [5] los cálculos se acortan:

\begin{array}{l}z=3-2i\Rightarrow r=\sqrt{9+4}=\sqrt{13},\;\alpha=2\pi-\tan^{-1}\left(\frac23\right)\approx1.82\mathrm\pi;\\\mathrm z^4={\left(\sqrt{13}^4\right)}_{1.82\mathrm\pi\cdot4}={\left(13^2\right)}_{7.28\mathrm\pi}={169}_{1.28\mathrm\pi}\end{array}

Observar que los ángulos \alpha mayores de 2π los simplificamos tomando el resto de la división entera \alpha/2\pi (equivalentemente, para ángulos de más de 360⁰):

\begin{array}{l}7.28\mathrm\pi\;\;\;\left|\underline{2\mathrm\pi}\right.\\1.28\mathrm\pi\;\;\;\;\;3\end{array}

Los números complejos no son vectores

Una confusión que debe evitarse es la de tomar un complejo (a, b) como si fuera un vector, no lo es. Los vectores del plano real son también parejas de valores (a, b), pero ambos números son reales, mientras que en un complejo uno de ellos es real y el otro es imaginario. Además, aunque la suma y la resta de vectores y de complejos son formalmente iguales, (a, b) + (c, d) = (a +b, c + d), el resto de operaciones no lo son: para multiplicar dos vectores usamos o bien el producto escalar o bien el producto vectorial, que tienen reglas distintas al producto de dos complejos.

Por otra parte, sí que es verdad que pueden definirse vectores complejos: por ejemplo un vector complejo de dos componentes será una pareja (z_1,z_2) de dos complejos, teniendo cada complejo una componente real y otra imaginaria, por tanto el vector complejo tendrá un total de 4 componentes.

A la recta real (conjunto de todos los números reales) se la suele representar por \mathbb{R} mientras que al plano complejo se le representa por la letra \mathbb{C}. Los vectores de n componentes reales se representan por \mathbb{R}^n y los vectores de n componentes  complejos por \mathbb{C}^n.

Raíces de números complejos

Para hallar la raíz de un número complejo siempre lo haremos a partir de su expresión en forma polar. Para la raíz cuadrada del complejo \sqrt{r_\alpha} tenemos la fórmula:

\sqrt{r_\alpha}=\left\{\begin{array}{l}{\left(\sqrt r\right)}_\frac\alpha2\\{\left(\sqrt r\right)}_\frac{\alpha+\mathrm\pi}2\end{array}\right. [7]

La fórmula general para la raíz n-ésima es:

\sqrt[n]{r_\alpha}={\left(\sqrt[n]r\right)}_\frac{\alpha+k\mathrm\pi}n,\;k=0,1,\dots,n-1[8]

que nos proporciona n raíces.

Ejemplo 5: Calcular \sqrt[3]{27-9i}

Convertimos el complejo z = 27 - 9i a forma polar:

z=27-9i\Rightarrow r=\sqrt{27^2+9^2}=9\sqrt{10};\;\alpha=2\pi-\tan^{-1}\left(\frac9{27}\right)\approx1.9\pi

Aplicamos [8]:

\begin{array}{l}\sqrt[3]{9{\sqrt{10}}_{1.9\mathrm\pi}}={\left(\sqrt[3]{9\sqrt{10}}\right)}_\frac{1.9\mathrm\pi+k\mathrm\pi}3,\;k=0,1,2\;\Rightarrow\\3.{05}_\frac{1.9\mathrm\pi}3,\;3.{05}_\frac{2.9\mathrm\pi}3,\;3.{05}_\frac{3.9\mathrm\pi}3\end{array}

Ya sabemos que podemos recuperar la expresión binomial / punto del plano aplicando [6], por ejemplo para la primera raíz:

z=3.{05}_\frac{1.9\mathrm\pi}3\Rightarrow z=3.05\left(\cos\left(\frac{1.9\mathrm\pi}3\right)+i\sin\left(\frac{1.9\mathrm\pi}3\right)\right)\cong\left(-1.22,2.78\right)

Algunas aplicaciones prácticas de los números complejos

 Hemos visto que al multiplicar un complejo z=r_\alpha por otro z'=r'_{\alpha'} el resultado z·z' tiene un argumento que es la suma de los anteriores, \alpha+{\alpha'}; esto puede verse como si el complejo z' girara al complejo z un ángulo {\alpha'}. Así pues, el producto de complejos puede verse en parte como una rotación.

Sucede que en la ciencia y en la técnica nos encontramos con muchos sistemas que están en movimiento oscilatorio: la corriente alterna, vibraciones de máquinas, oscilaciones de estructuras (puentes, edificios, ...), ondas de todo tipo (sísmicas, electromagnéticas), moléculas en un sólido, etc. etc. Y el movimiento oscilatorio puede describirse usando composiciones de rotaciones, y las funciones trigonométricas.  Por ejemplo, la amplitud de las oscilaciones producidas por una onda simple puede expresarse por y(t)=A\sin\left(\omega t+\theta\right)[9]; pero en casos reales nos encontramos con cosas complicadas como superposición de ondas, ondas que se amortiguan debido a la resistencia del medio, ondas forzadas por un elemento impulsor, etc. Si usamos la expresión [9] para estos casos los cálculos algebraicos se vuelven largos y pesados; es aquí cuando los números complejos acuden en nuestra ayuda, simplificando las expresiones. En el caso de la onda simple, puede expresarse como una exponencial compleja, y(t)=Ae^{\left(\omega t+\theta\right)i}, más fácilmente manipulable que la expresión [9] con sus funciones seno y coseno.

Así pues, en toda aplicación práctica en que tengamos oscilaciones complicadas, los complejos serán de ayuda. Y esto sucede en estos casos, entre otros:

  • La impedancia, que es una medida de la oposición que presenta un circuito a una corriente eléctrica, de forma parecida a la resistencia eléctrica (la generaliza); cuando la corriente es alterna y variable con el tiempo, la impedancia se representa como una cantidad compleja.
  • En la resolución de ecuaciones diferenciales lineales, muy frecuente en ciencia y técnica, aparecen raíces complejas, que indican precisamente la existencia de soluciones oscilantes.
  • En Física Cuántica, la ecuación de Schrödinger nos proporciona la evolución en el tiempo y el espacio de la onda de probabilidad de una partícula, usando número complejos (observar que incluye el número imaginario i):
Ecuación de Schrödinger (fuente: Wikipedia)
Ecuación de Schrödinger (fuente: Wikipedia)
  • En la teoría de la Relatividad restringida, una de las formas de presentarla es a través del espacio-tiempo de Minkowski, en el cual el tiempo se toma como si fueran números imaginarios; también en Relatividad General, y en Cosmología, se usan tiempos que son números imaginarios, no por motivos "esotéricos", si no para simplificar las complicadas ecuaciones de la relatividad. Ver por ejemplo mi post La naturaleza del espacio y del tiempo (II).