NumPy, Álgebra Linear


Métodos de ordenamento

Um array do NumPy pode ser ordenado com o método array.sort(), que transforma o array inplace. Se o array que passa por ordenamento for uma seção (uma view ) de um array maior esse array original também será alterado. O método np.sort(array) retorna cópia ordenada, sem alterar o original. Não há um método ou parâmetro predefinido para fazer o ordenamento inverso. Para isso usamos a mesma sintaxe que retorna uma lista invertida, lista[::-1].

» # um array qualquer sem ordenamento
» arrOriginal = np.array([-1, 20, 13, -5, 1, 0, 9, 3, -3, 7])
» # uma cópia (não uma view)
» arr = arrOriginal.copy()

» # arr.sort ocorre inplace
» arr.sort()
» arr
↳ array([-5, -3, -1,  0,  1,  3,  7,  9, 13, 20])

» # para obter a lista ordenada invertida (sem alterar a original)
» arr[::-1]
↳ array([20, 13,  9,  7,  3,  1,  0, -1, -3, -5])

» # retorna para o array original (não ordenado)
» arr = arrOriginal.copy()
» np.sort(arr)
↳ array([-5, -3, -1,  0,  1,  3,  7,  9, 13, 20])

» # arr não foi alterado
» arr
↳ array([-1, 20, 13, -5,  1,  0,  9,  3, -3,  7])

» # o array ordenada em ordem inversa também pode ser obtido (inplace) da seguinte forma
» arr[::-1].sort()
» arr
↳ array([20, 13,  9,  7,  3,  1,  0, -1, -3, -5])

Para arrays como mais de um eixo podemos informar ao longo de qual deles queremos ordenar os valores. Em qualquer dos casos cada linha (ou cada coluna) será ordenada independentemente. Em qualquer dos casos, com o ordenamento das colunas, as linhas perdem seu alinhamento, caso exista. Por exemplo, se cada linha se referia à uma medida específica, no ordenamento os dados ficam desalinhados. Idem para ordenamento das linhas.

» # inicializamos um array 3 × 4
» lista = ([ [ 3,   2,  1,  -1],
             [-3,   4,  -6,  5],
             [ 3,   0,   -9,  15]
           ])
» arr = np.array(lista)
» arr
↳ array([[ 3,  2,  1, -1],
         [-3,  4, -6,  5],
         [ 3,  0, -9, 15]])

» # ordenamos ao longo das colunas
» arr.sort(0)
» arr
↳ array([[-3,  0, -9, -1],
         [ 3,  2, -6,  5],
         [ 3,  4,  1, 15]])

» # reconstituindo o array original
» arr = np.array(lista)

» # ordenamos ao longo das linhas
» arr.sort(1)
» arr
↳ array([[-1,  1,  2,  3],
         [-6, -3,  4,  5],
         [-9,  0,  3, 15]])

Gravação e leitura de arrays em arquivos


Em muitas situações é útil gravar resultados finais ou etapas intermediárias de cálculo para posterior finalização. NumPy permite a gravação de arquivos contendo os arrays em formato de texto ou binário. Os métodos principais são np.save() e np.load(). Por default um array é gravado em arquivo com extensão .npy em formato binário. Formatos mais sofisticados para textos e arrays tabulares são encontrados no pandas.

» # criando um array 
» arr = np.linspace(0, 22, 12).reshape(3,4)
» arr
↳ array([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.]])
» # esse array será gravado em arrGravado.npy.
» # a extensão será acrescentada se não fornecida
↳ np.save('arrGravado', arr)

» # apagamos o array e depois o recarregamos
» del arr
» arr = np.load('arrGravado.npy')
» arr
↳ array([[ 0.,  2.,  4.,  6.],
         [ 8., 10., 12., 14.],
         [16., 18., 20., 22.]])

Mais de um array podem ser gravados no mesmo arquivos arq.npz. Os arrays são passados como argumentos de keyword. Na recuperação dos arrays um objeto tipo dicionário é carregado, tendo os arrays associados às chaves que foram as keywords passadas.

A mesma operação de armazenar vários arrays em arquivo pode ser realizada compactando-se os dados para que ocupem menos espaço em disco. Isso é feito com np.savez_compressed('nomeDoArquivoaCompactado.npz', a=arr1, b=arr2, ...).

» # definimos 2 arrays
» arr1 = np.array([1,2,3])
» arr2 = np.array([4,5,6])
» # e os gravamos em disco
» np.savez('variosArrays.npz', a1=arr1, a2=arr2)

» # apagamos e recuperamos os arrays
» del arr1, arr2
» arrays = np.load('variosArrays.npz')

» # o load carrega um objeto tipo dicionário
» arr1, arr2 = arrays['a1'], arrays['a2']

» display(arr1, arr2)
↳ array([1, 2, 3])
↳ array([4, 5, 6])

» # a mesma operação, amazenando os arrays em arquivo compactado
» np.savez_compressed('arraysCompactados.npz', a=arr1, b=arr2)

Métodos de conjuntos

Algumas operações básica podem ser aplicadas sobre arrays, tratando seus elementos como um conjunto. Uma delas, usada com frequência, é a seleção de elementos únicos no array, feita com np.unique. O método np.in1d(array, valores), testa se elementos de um array estão também em outro, retornando um array booleano. O objeto valores pode ser uma lista, tupla ou outro array unidimensional.

» arr = np.array([1,2,3,4,4,3,2,1])
» # elementos de arr sem repetições
» np.unique(arr)
↳ array([1, 2, 3, 4])

» arrString = np.array(['Ana','Luiz','Paulo','Ana','Otto','Paulo','Otto','Paulo'])
» np.unique(arrString)
↳ array(['Ana', 'Luiz', 'Otto', 'Paulo'], dtype='<U5')

» # quais dos elementos de arr estão em (1,3,5)
» np.in1d(arr, (1,3,5))
↳ array([ True, False,  True, False, False,  True, False,  True])

» # o argumento pode ser uma tupla, lista ou array
» teste = np.array([1,3,5])
» np.in1d(arr, teste)
↳ array([ True, False,  True, False, False,  True, False,  True])

» # o mesmo com array de strings
» txt = np.array(['Otto','Luiz','Ana'])
» np.in1d(arrString, txt)
↳ array([ True,  True, False,  True,  True, False,  True, False])

» arrString = np.array(['A','F','D','A','O','P','C','D'])
» lista = np.in1d(arrString, ['A', 'B', 'C'])

» # os seguintes elementos estão na lista 
» arrString[lista]
↳ array(['A', 'A', 'C'], dtype='<U1')

» # os seguintes elementos não estão na lista 
» arrString[~lista]
↳ array(['F', 'D', 'O', 'P', 'D'], dtype='<U1')


O método np.intersect1d(x, y) retorna a interseção entre x e y.
O método np.setdiff1d(x, y) retorna x-y.
setxor1d(x, y): elementos em x ou y, mas não em ambos.

» # para verificar intersect1d
» # múltiplos de 23 até 1000
» arr1 = np.arange(0,1000,23)
» # múltiplos de 27 até 1000
» arr2 = np.arange(0,1000,27)

» # múltiplos de 23 e 27 até 1000 (é a interseção entre os dois conjuntos)
» np.intersect1d(arr1, arr2)
↳ array([  0, 621])

» # para verificar setdiff1d
» arr1 = np.array([5, 3, 1, 9, 7, 6])
» arr2 = np.array([5, 4, 1, 8, 2, 3])
» np.setdiff1d(arr1,arr2)
↳ array([6, 7, 9])

» # para verificar setxor1d
» np.setxor1d(arr1,arr2)
↳ array([2, 4, 6, 7, 8, 9])

Funções de conjuntos em NumPy:

Método descrição
unique(x) conjunto de elementos únicos em x,
intersect1d(x, y) elementos comuns em x e y, (ordenados),
union1d(x, y) união dos elementos em x e y, (ordenados),
in1d(x, y) array booleano indicando se cada elemento de x está em y,
setdiff1d(x, y) conjunto diferença: elementos em x que não estão em y,
setxor1d(x, y) conjunto diferença simétrica: elementos em x ou y, mas não em ambos.

Numpy: Álgebra linear


A Álgebra Linear é uma parte da matemática muito importante nas aplicações científicas e da engenharia. Para o cálculo simbólico o módulo Sympy (Matemática Simbólica em Python) oferece muitos métodos interessantes e úteis, inclusive para a álgebra linear.

É uma notação útil denotar os arrays da seguinte forma:
Um array unidimensional (um vetor) é uma coleção de elementos \(A_M = \{a_{i}\}\), onde \(i = 0, …,M-1\) para um array de rank = 1. Diferente da notação matemática usual os índices são contados a partir de 0. Seu shape = (M,).
Um array bidimensional (uma matriz) é uma coleção de elementos \(A_{MN} = \{a_{ij}\}\) onde \(i = 0, …,M-1; j = 0, …,N-1; \) para um array de rank = 2. Seu shape=(M,N) e rank=2.
Arrays de ranks superiores são generalizações, com mais eixos acresentados. Em arrays 3-dimensionais, digamos arr3D.shape = (r,m,n), temos r matrizes m × n.
Arrays de ranks superiores são generalizações, com mais eixos acresentados. Em arrays 3-dimensionais, digamos arr3D.shape = (r,m,n), temos r matrizes m × n.

Alguns dos métodos mais comuns usados na álgebra linear estão no módulo numpy.linalg, descrito abaixo.

Produto Matricial

O produto de matrizes, que é diferente da operação * definida previamente e que consiste na mera multiplicação dos termos e/e, está definido em numpy. As dimensões devem ser compatíveis. Por exemplo, o produto
Am,n × Bn,p = Cm,p. A sintaxe do produto de matrizes A por B é np.dot(A,B) ou A.dot(B).

» # produto matricial
» A = np.arange(0, 9).reshape(3, 3)
» B = np.arange(0, 3).reshape(3, 1)
» A
↳ array([[0, 1, 2],
         [3, 4, 5],
         [6, 7, 8]])

» B
↳ array([[0],
         [1],
         [2]])

» A * B
↳ array([[ 0,  0,  0],
         [ 3,  4,  5],
         [12, 14, 16]])

» A + B
↳ array([[ 0,  1,  2],
         [ 4,  5,  6],
         [ 8,  9, 10]])

» A.dot(B)      # o mesmo que np.dot(A,B)
↳ array([[ 5],
         [14],
         [23]])

» # 6 *0 + 7*1 + 8*2 = 23   # é o elemento da 3º linha do produto
» # B.dot(A) não está definida
» # O quadrado da matriz A, A2 = A.dot(A)
» A.dot(A)
↳ array([[ 15,  18,  21],
         [ 42,  54,  66],
         [ 69,  90, 111]])

Matemáticamente a operação acima para \(A \cdot B\) (A.dot(B)) é representada como:
$$
\left[ \begin{array}{ccc}
0 & 1 & 2\\
3 & 4 & 6\\
6 & 7 & 8
\end{array} \right] \left[ \begin{array}{c}
0\\
1\\
2
\end{array} \right] = \left[ \begin{array}{l}
5\\
14\\
23
\end{array} \right] .
$$

Transposta e inversões de eixos

A tansposta de uma matriz é a matriz obtida da original trocando-se suas linhas por colunas. Essa é uma operação comum na análise de dados e na álgebra linear e pode ser obtida com o método transposta = array.transpose() ou seu atalho transposta = array.T. Em notação matemática, se \(A_{MN} = \{a_{ij}\}\) sua transposta é \(A{^T}_{NM} = \{a_{ji}\}\).

» import numpy as np
» # uma matriz (2 ×3 ) qualquer para exemplo
» arr = np.arange(0,6).reshape(2,3)
» arr
↳ array([[0, 1, 2],
         [3, 4, 5]])
       
» # sua transposta é (3 × 2) 
» transp = arr.T
» transp
↳ array([[0, 3],
         [1, 4],
         [2, 5]])

» # o produto matricial (dot) é (2 × 2) 
» np.dot(arr,transp)
↳ array([[ 5, 14],
         [14, 50]])

» # observe que o produto não é comutativo
» # (a ordem é relevante) transp.arr é (3 × 3)
» np.dot(transp, arr)
↳ array([[ 9, 12, 15],
         [12, 17, 22],
         [15, 22, 29]])

Em matrizes de ordem superior a operação de transposição permite que se informe quais os eixos serão transpostos. Um array arr3D do exemplo abaixo, com shape = (2,3,4), que pode ser vista como 2 matrizes 3 × 4 se torna um array com 3 matrizes 2 × 4 através da operação arr3D.transpose(1,0,2), onde o 1º eixo é permutado com o 2º (o 3º fica inalterado).

» arr3D = np.arange(24).reshape((2, 3, 4))
» arr3D
↳ array([[[ 0,  1,  2,  3],
          [ 4,  5,  6,  7],
          [ 8,  9, 10, 11]],

         [[12, 13, 14, 15],
          [16, 17, 18, 19],
          [20, 21, 22, 23]]])

» # permutando 1º eixo com o 2º
» arr3D.transpose(1,0,2)
↳ array([[[ 0,  1,  2,  3],
          [12, 13, 14, 15]],

         [[ 4,  5,  6,  7],
          [16, 17, 18, 19]],

         [[ 8,  9, 10, 11],
          [20, 21, 22, 23]]])

» # temos 3 matrizes 2 × 4
» arr3D.transpose(1,0,2).shape
↳ (3, 2, 4)

» # se permutarmos 2º com 3º eixo
» arr3D.transpose(0,2,1)
↳ array([[[ 0,  4,  8],
          [ 1,  5,  9],
          [ 2,  6, 10],
          [ 3,  7, 11]],

         [[12, 16, 20],
          [13, 17, 21],
          [14, 18, 22],
          [15, 19, 23]]])

No último caso, permutando 2º com 3º eixo e mantendo o 1º temos as 2 matrizes original transpostas.

A transposição é um caso particular da inversão mais geral de eixos. Isso pode ser feito com array.swapaxes(i,j), que recebe um par de índices referentes aos eixos e os permuta.

» # ainda usando a matriz já definida
» arr3D
↳ array([[[ 0,  1,  2,  3],
          [ 4,  5,  6,  7],
          [ 8,  9, 10, 11]],

         [[12, 13, 14, 15],
          [16, 17, 18, 19],
          [20, 21, 22, 23]]])

» arr3D.swapaxes(0,2)
↳ array([[[ 0, 12],
          [ 4, 16],
          [ 8, 20]],

         [[ 1, 13],
          [ 5, 17],
          [ 9, 21]],

         [[ 2, 14],
          [ 6, 18],
          [10, 22]],

         [[ 3, 15],
          [ 7, 19],
          [11, 23]]])

arr3D.swapaxes(0,2) é idêntica à arr3D.transpose(2,1,0). Quando as dimensões são altas pode ficar difícil visualizar e manipular os arrays. Em alguns casos quebrar o array em blocos pode ser a melhor prática.

Biblioteca numpy.linalg

numpy.linalg é uma subbiblioteca de NumpPy contendo métodos matriciais usuais as operações comuns na álgebra linear, como o cálculo de determinantes e de matrizes inversas similares àquelas usadas no MATLAB e R.

Alguns dos métodos mais comuns usados na álgebra linear:

Método descrição
diag elementos da diagonal (ou fora da diagonal) de matriz quadrada,
diag Se o argumento for array 1-D retorna o array na diagonal e zeros fora da diagonal,
dot multiplicação de matrizes,
trace traço: soma dos elementos da diagonal,
det determinante da matriz,
eig autovalores e autovetores (eigenvalues e eigenvectors) de uma matriz quadrada,
inv a inversa de uma matriz quadrada,
pinv a pseudo inversa de Moore-Penrose de uma matriz,
qr cálculo da decomposição QR,
svd calcula a decomposição de valor singular (SVD),
solve resolve o sistema linear Ax = b para x, sendo A uma matriz quadrada,
lstsq calcula a solução de mínimos quadrados para Ax = b.

A solução de sistemas lineares é uma aplicação comum da álgebra linear. Um exemplo bem simples com equações e 2 incógnitas, cuja solução pode ser vista em matrizes, é:
$$
\left\{ \begin{array}{l}
2 x + y = 5\\
x – 3 y = 6
\end{array} \right.
$$
Ele corresponde a busca do array x (um vetor de 2 variáveis) satisfazendo A x = B onde A e B são listados abaixo.

» A = np.array([[2, 1], [1, -3]])
» B = np.array([5, 6])
» x = np.linalg.solve(A, B)
» # a solução é
» x
↳ array([ 3., -1.])

Portanto a solução (única, nessa caso) é o vetor \(x = (3., -1.)\).

Dada uma matriz \(A\), por definição sua matriz inversa é \(A^{-1}\), satisfazendo \(A.A^{-1} = A^{-1}.A = I\), onde \(I\) é a matriz identidade. Observe que um sistema do tipo \(A.x = B\) fica resolvido se existe a inversa, \(A^{-1}\). Nesse caso basta multiplicar todo o sistema à esquerda (ou à direita) pela inversa: \(A^{-1}.A.x = A^{-1}.B\) que resulta na solução procurada \(x = A^{-1}.B\).

Para o mesmo sistema acima:

» from numpy.linalg import inv
» A = np.array([[2, 1], [1, -3]])
» B = np.array([5, 6])

» # a inversa de A é
» inv(A)
↳ array([[ 0.42857143,  0.14285714],
         [ 0.14285714, -0.28571429]])
       
» # por definição A . inv(A) = identidade †
» # (verificamos que essa é de fato a inversa)
» np.dot(A, inv(A)).round(2)
↳ array([[1., 0.],
         [0., 1.]])

» # a solução do sistema é
» np.dot(inv(A), B)
↳ array([ 3., -1.])

(†): Não se pode esperar que de fato o cálculo de A.inv(A) resulte exatamente na identidade. Devido à aproximações numéricas essa matriz apresentará com frequência elementos pequenos mas não nulos fora da diagonal. Daí o uso de .round(2).

Algumas matrizes não possuem inversas, sendo chamadas de matrizes singular. Seu determinante é \(det(A)= 0\) e, nesse caso, o sistema não tem solução.

» # resolvendo o sistema
» A = np.array([[2, 1], [6, 3]])
» B = np.array([5, 10])
» x = np.linalg.solve(A, B)
↳ LinAlgError: Singular matrix

# ocorre que a matriz A é singular, e o sistema não tem solução
» det(A)
↳ 0.0

O determinante de uma matriz \(A\), denotada por \(det(A)\) está definido no artigo sobre determinantes, nesse site. O exemplo abaixo está resolvido nessa página. Como \(det(A)\ne 0\) ela possui uma inversa \(A^{-1}\), definida de forma que \(A.A^{-1} = \mathbb{I}\), onde \(\mathbb{I}\) é a matriz identidade.

» arr = np.array([[1, -2, 3],[2, 1, -1], [-2, -1, 2]])
» arr
↳ array([[ 1, -2,  3],
         [ 2,  1, -1],
         [-2, -1,  2]])

» np.linalg.det(arr).round(2)
↳ 5.0

» np.linalg.inv(arr)
↳ array([[ 0.2,  0.2, -0.2],
         [-0.4,  1.6,  1.4],
         [ 0. ,  1. ,  1. ]])

» # A A-1 é a identidade
» np.dot(arr,inv(arr))
↳ array([[1., 0., 0.],
         [0., 1., 0.],
         [0., 0., 1.]])

Outra operação importante é a de se encontrar autovetores e autovalores de uma matriz quadrada. Ele consiste em encontrar os valores de \(\lambda\) (os autovalores) e os autovetores \(x\) que satisfazem à equação \(A.x = \lambda x\). Se consideramos a matriz \(A\) como a matriz correspondente a uma transformação linear então os autovetores são aquelas direções mantidas invariantes pela transformação e \(\lambda\) (os autovalores) são os fatores de escala nestas direções.

Por exemplo, no plano uma reflexão no eixo \(Ox\) corresponde à transformação \(R_x(x,y)=(x, -y)\). Ela pode ser escrita em forma matricial como
$$
r_x \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{rr}
1 & 0\\
0 & – 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
x\\
– y
\end{array} \right].
$$
Portanto queremos encontrar os autovetores e autovalores do array reflex:

» # a reflexão em Ox é descrita por
» reflx = np.array([[1, 0],[0,-1]])
» reflx
↳ array([[ 1,  0],
         [ 0, -1]])
» # seus autovalores e autovetores são
» auto = eig(reflx)
» auto
↳ (array([ 1., -1.]),
↳ array([[1., 0.],
         [0., 1.]]))

» # eig retorna um tupla com 2 elementos
» # o primeiro contem outra tupla com os autovalores (1, -1)
» auto[0]
↳ array([ 1., -1.])

» # o segundo contém outra tupla com os dois autovetores
» auto[1]
↳ array([[1., 0.],
         [0., 1.]])

» auto[1][0]
↳ array([1., 0.])

» auto[1][1]
↳ array([0., 1.])

Isso significa que no plano, a reflexão em torno do eixo \(Ox\) só deixa 2 direções inalteradas: a direção de x, sendo que todos os vetores \((x,0)\) ficam iguais (autovalor = 1), e o eixo \(Oy\). Vetores \((0,y)\) permanecem na mesa direção com o sentido invertido (autovalor = -1).

Brodcasting


Broadcasting se refere ao comportamento de arrays de diferentes dimensões quando operados entre si. Quando uma ou mais dimensões estão ausentes em um dos arrays e as dimensões presentes são compatíveis o array menor e replicado para preencher as dimensões ausentes de forma a que ambas tenham as mesmas dimensões.

Na figura a operação de soma é mostrada. O mesmo comportamento se dá para qualquer outras operação.

Bibliografia

🔺Início do artigo
  • Harrison, Matt: Learning Pandas, Python Tools for Data Munging, Data Analysis, and Visualization,
    Treading on Python Series, Prentiss, 2016.
  • McKinney, Wes: Python for Data Analysis, O’Reilly Media, Sebastopol CA, 2018.
  • McKinney, Wes & Pandas Development Team: pandas: powerful Python data analysis toolkit Release 1.2.1,
  • Miller, Curtis: Hands-On Data Analysis with NumPy and pandas, Packt Publishing, Birmingham, 2018.
  • NumPy, docs.
  • NumPy, Learn.
  • NumPy, linalg.

Sobre Sympy: Matemática Simbólica em Python

Nesse site:

8. Autovalores e Autovetores

Introdução

Dada uma transformação linear \(T : V \rightarrow V\) buscamos descobrir quais são os vetores fixos de \(V\) sob esta transformação, ou seja, que vetores satisfazem a expressão \(T (v) = v\). Em seguida procuraremos quais são as direções fixas ou invariantes sob esta transformação, sendo estas as direções dos vetores \(v\) que satisfazem a expressão \(T (v) = \lambda v\), \(\lambda\) um escalar. No primeiro caso dizemos que \(v\) fica invariante sob \(T\) ; no segundo caso a direção de \(v\) é invariante.

Exemplo 1. Considere as transformações
$$
\begin{array}{r}
I : \mathbb{R}^2 \rightarrow \mathbb{R}^2\\
v \mapsto v
\end{array} \begin{array}{r}
N : \mathbb{R}^2 \rightarrow \mathbb{R}^2\\
(x, y) \mapsto (0, 0)
\end{array} \begin{array}{r}
r_x : \mathbb{R}^2 \rightarrow \mathbb{R}^2\\
(x, y) \mapsto (x, – y)
\end{array}
$$

A primeira delas é a identidade que deixa todos os vetores fixos. O plano \(\mathbb{R}^2\) é invariante sob esta transformação. A segunda é a aplicação nula, que só deixa invariante o próprio vetor nulo, a oriegm de de \(\mathbb{R}^2\). A terceira transformação consiste em uma reflexão em torno do eixo \(\mathcal{O}x\). Não é difícil perceber que todos os vetores da forma \((x, 0)\) são fixos pois \(r_x (x, 0) = (x, 0)\). Isto significa que o eixo \(\mathcal{O}x\) é refletido nele mesmo. Para verificar se existem outros vetores fixos vamos procurar soluções da equação \(r_x (x, y) = (x, y)\) ou, em forma matricial,
$$
\left. \left[ \begin{array}{rr}
1 & 0\\
0 & – 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
x\\
y
\end{array} \right] \Rightarrow \begin{array}{r}
x = x\\
y = – y
\end{array} \right\} \Rightarrow y = 0.
$$

Portanto os vetores \((x, 0)\) são os únicos deixados fixos por esta reflexão.

Queremos agora encontrar direções fixas. Sempre que não houver ambiguidade na notação entre transformações e vetores omitiremos os parênteses. Na expressão
$$ T \mathbf{v} = \lambda \mathbf{v} $$
dizemos que \(\mathbf{v}\) é um autovetor de \(T\), e \(\lambda \) é um autovalor de \(T\).

Observe que o vetor nulo \(\mathbf{0} \in V\) sempre é um autovetor de qualquer transformação linear correspondendo ao autovalor nulo. Procuramos autovetores não-nulos, também chamados de não triviais.

Exemplo 2. Vamos encontrar os autovetores e autovalores da reflexão em \(\mathbb{R}^2, r_x (x, y) = (x, – y)\). A equação de autovalores é
$$ r_x (x, y) = \lambda (x, y) \Rightarrow (x, – y) = \lambda (x, y) $$
que corresponde ao seguinte sistema e sua solução
$$
\left\{ \begin{array}{r}
x = \lambda x\\
– y = \lambda y
\end{array} \Rightarrow \left\{ \begin{array}{r}
\lambda = 1, y = 0 \;\;\text{ e }\;\; x \;\;\text{ qualquer, }\;\; \\
\lambda = – 1, x = 0 \;\;\text{ e } y \;\; \text{ qualquer.}
\end{array} \right. \right.
$$

Descobrimos portanto que, \(\lambda = 1\) é um autovalor, correspondente aos autovetores \((x, 0)\), enquanto \(\lambda = – 1\) é outro autovalor, correspondente aos autovetores \((0, y)\). Isto está correto pois, como podemos verificar diretamente,
$$ r_x (x, 0) = 1 (x, 0) ; r_x (0, y) = (0, – y) = – 1 (0, y). $$

O procedimento de busca de autovetores e autovalores é muito importante em diversas aplicações à engenharia, física, computação e outras áreas, e uma técnica mais eficaz foi desenvolvida para isto.

Para entender este procedimento vamos encontrar autovetores e autovalores da mesma reflexão em \(\mathbb{R}^2, r_x (x, y) = (x, – y)\). Escrevemos a transformação em forma matricial,
$$
r_x \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{rr}
1 & 0\\
0 & – 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
x\\
– y
\end{array} \right].
$$

Com isto a equação de autovetores fica
$$
\left[ \begin{array}{rr}
1 & 0\\
0 & – 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \lambda \left[ \begin{array}{r}
x\\
y
\end{array} \right] \Rightarrow \left( \left[ \begin{array}{rr}
1 & 0\\
0 & – 1
\end{array} \right] – \lambda \mathbb{I} \right) \left[ \begin{array}{r}
x\\
y
\end{array} \right] = 0,
$$

onde a identidade \(2 \times 2\) foi inserida para deixar o vetor das incógnitas em evidência. A operação dentro de parênteses pode ser efetuada e o sistema de devemos resolver é
$$
\left[ \begin{array}{rr}
1 – \lambda & 0\\
0 & – 1 – \lambda
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = 0.
$$
Para que exista uma solução não trivial para este sistema é necessário que o determinante da primeira matriz seja nulo (ou seja, que ela seja não invertível),
$$
\det \left[ \begin{array}{rr}
1 – \lambda & 0\\
0 & – 1 – \lambda
\end{array} \right] = 0 \Rightarrow (1 – \lambda) (- 1 – \lambda) = 0.
$$

A solução do polinômio acima fornece os autovalores procurados, \(\lambda = 1\) e \(\lambda = – 1\). De posse dos autovalores retornamos à equação (1) para encontrar os autovetores: Se \(\lambda = 1\) temos
$$
\left[ \begin{array}{rr}
0 & 0\\
0 & – 2
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = 0 \Rightarrow y = 0, x \;\; \text{qualquer} .
$$

Se \(\lambda = – 1\) temos
$$
\left[ \begin{array}{rr}
– 2 & 0\\
0 & 0
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = 0 \Rightarrow x = 0, y \;\; \text{qualquer} .
$$

Chegamos ao resultado já obtido: \(\lambda = 1\) é autovalor correspondente aos autovetores \((x, 0)\), enquanto \(\lambda = – 1\) é autovalor correspondente aos autovetores \((0, y)\).

Recapitulando a situação: Para toda matriz quadrada \(A\) a condição \(A \mathbf{v} = 0\) (eq. *) sempre pode ser conseguida com o vetor \(\mathbf{v} = 0\), a chamada solução trivial. Além disso, se \(A\) é invertível, multiplicamos a equação * por sua inversa para verificar que \(A^{-1} A \mathbf{v} = 0 \Rightarrow \mathbf{v} = 0\), o que significa que a solução trivial é a única solução. Portanto, para que existam outras soluções que não a trivial é necessário que \(\det A = 0\). No problema de autovetores e autovalores a exigência de que \(\det (A – \lambda \mathbb{I}) = 0\) resulta em um polinômio de grau \(n\) chamado de polinômio característico.

Generalizando este procedimento, para resolver a equação de autovetores \(T \mathbf{v} = \lambda \mathbf{v}\) fazemos o seguinte:

  1. encontramos a matriz \(A_{n \times n}\) associada à transformação \(T\),
  2. escrevemos \(A \mathbf{v} = \lambda \mathbf{v}\) como \((A – \lambda \mathbb{I}) \mathbf{v} = 0\),
  3. encontramos as raízes \(\lambda_1, \ldots, \lambda_n\) do polinômio característico \(det(A – \lambda \mathbb{I})=0\). \(\lambda_i\) são os autovalores.
  4. para cada autovalor \(\lambda_k\) encontramos o autovetor que satisfaz a expressão \((A – \lambda_k \mathbb{I}) \mathbf{v}_k = 0\).

Exemplo 3. Vamos encontrar autovetores e autovalores da transformação \(R : \mathbb{R}^2 \rightarrow \mathbb{R}^2\), dada por \((x, y) \mapsto (- y, x)\), que consiste em uma rotação de \(90^o\) em torno da origem, sentido antihorário. Em notação,
$$
R \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{rr}
0 & – 1\\
1 & 0
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
– y\\
x
\end{array} \right].
$$

A equação de autovetores é
$$
\left[ \begin{array}{rr}
0 & – 1\\
1 & 0
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \lambda \left[ \begin{array}{r}
x\\
y
\end{array} \right] \Rightarrow \left( \left[ \begin{array}{rr}
0 & – 1\\
1 & 0
\end{array} \right] – \lambda \mathbb{I} \right) \left[ \begin{array}{r}
x\\
y
\end{array} \right] = 0.
$$

A matriz entre parênteses tem determinante que não se anula para [/latex] \lambda[/latex] real, pois
$$
\det \left[ \begin{array}{rr}
– \lambda & – 1\\
1 & – \lambda
\end{array} \right] = 0 \Rightarrow \lambda^2 + 1 = 0.
$$
Portanto esta equação de autovetores não admite solução para autovalores reais. (Ela pode ser resolvida, no entanto, para autovalores complexos.)

Exemplo 4. Vamos encontrar autovetores e autovalores da matriz
$$
A = \left[ \begin{array}{rr}
2 & 2\\
0 & 1
\end{array} \right].
$$

A equação de autovetores é
$$
\left[ \begin{array}{rr}
2 & 2\\
0 & 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \lambda \left[ \begin{array}{r}
x\\
y
\end{array} \right] \Rightarrow \left( \left[ \begin{array}{rr}
2 & 2\\
0 & 1
\end{array} \right] – \lambda \left[ \begin{array}{rr}
1 & 0\\
0 & 1
\end{array} \right] \right) \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{rr}
2 – \lambda & 2\\
0 & 1 – \lambda
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = 0.
$$

Para que existam soluções não triviais é necessário que
$$
\det \left[ \begin{array}{rr}
2 – \lambda & 2\\
0 & 1 – \lambda
\end{array} \right] = 0,
$$

de onde obtemos o polinômio característico e suas raízes,
$$ (2 – \lambda) (1 – \lambda) = 0 \Rightarrow \lambda_1 = 1 ; \lambda_2 = 2. $$

Para \(\lambda_1 = 1\) temos
$$
\left[ \begin{array}{rr}
1 & 2\\
0 & 0
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = 0 \Rightarrow x + 2 y = 0 \Rightarrow y = –
\frac{x}{2},
$$

e os autovetores correspondentes são \(\mathbf{v}_1 = (x, – x / 2)\). Para
[/latex] \lambda_2 = 2[/latex] temos
$$
\left[ \begin{array}{rr}
0 & 2\\
0 & – 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = 0 \Rightarrow y = 0
$$
e os autovetores correspondentes são \(\mathbf{v}_2 = (x, 0)\). De fato, observamos que
$$
A \mathbf{v}_1 = \left[ \begin{array}{rr}
2 & 2\\
0 & 1
\end{array} \right] \left[ \begin{array}{r}
x\\
– x / 2
\end{array} \right] = \left[ \begin{array}{r}
x\\
– x / 2
\end{array} \right] = \lambda_1 \mathbf{v}_1,
$$

$$
A \mathbf{v}_2 = \left[ \begin{array}{rr}
2 & 2\\
0 & 1
\end{array} \right] \left[ \begin{array}{r}
x\\
0
\end{array} \right] = 2 \left[ \begin{array}{r}
x\\
0
\end{array} \right] = \lambda_2 \mathbf{v}_2 .
$$

Teorema: Se \(T : V \rightarrow V\) é uma transformação linear e \(\mathbf{v} \in V\) um autovetor associado ao autovalor \(\lambda\) então \(\mathbf{w} = \rho \mathbf{v}\) onde \(\rho \in \mathbb{R}\) (um escalar), também é um autovetor associado à mesmo autovalor \(\lambda\).

Demonstração: Se \(T (\mathbf{v}) = \lambda \mathbf{v}\) então

$$ T (\mathbf{w}) = T (\rho \mathbf{v}) = \rho T (\mathbf{v}) = \rho \lambda \mathbf{v} = \lambda (\rho \mathbf{v}) = \lambda \mathbf{w}. $$

Este teorema signica que a equação de autovetores permite, como proposto no início desta seção, encontrar apenas direções. Qualquer vetor com a mesma direção de um autovetor é também autovetor, correspondendo ao mesmo autovalor. Observe que em todos os exemplos resolvidos, para cada autovalor, encontramos infinitos autovetores correspondentes. Em algumas aplicações se busca encontrar autovetores \(v\) normalizadas (ou seja \(|v| = 1\) ). Com esta exigência encontramos um número finito de soluções, desde que \(V\) seja finito.

Definição: Dada a transformação linear \(T : V \rightarrow V\) o subespaço \(V_{\lambda} = \{ \mathbf{v} \in V ; T (\mathbf{v}) = \lambda \mathbf{v} \}\) é denominado subespaço associado ao autovalor \(\lambda . V_{\lambda} \) é, portanto, o conjunto dos autovetores de \(T\) correspondentes ao mesmo autovalor \(\lambda\).

Exercício: Lembrando que \(\mathbf{0} \in V_{\lambda}\), o vetor nulo, mostre que \(V_{\lambda}\) é um subespaço vetorial de \(V\).

7. Aplicações Lineares e Matrizes

Aplicações Lineares e Matrizes

Como vimos na seção anterior, toda matriz \(m \times n\) corresponde a uma aplicação linear \(T : \mathbb{R}^n \rightarrow \mathbb{R}^m .\) A afirmação recíproca também é verdadeira: fixadas as bases de \(V\) e \(W\), toda aplicação linear \(T : V \rightarrow W\) está associada à uma única matriz \(m \times n\), desde que se escolha as bases de ambos os espaços. Vamos começar revendo a primeira parte deste conceito através de um exemplo para depois generalizá-lo.

Dados dois espaços vetoriais \(V\) e \(W\), com bases \(\beta\) e \(\beta’\), respectivamente, e uma matriz \(A_{m \times n}\), sendo \(n = \dim V\) e \(m = \dim
W\), então esta matriz corresponde a uma única aplicação linear.

Exemplo 1. Tome \(V = W =\mathbb{R}^2,\;\; \beta = \{(1, 0), (0, 1)\}, \;\;\beta’ = \{(1, 1), (- 1, 1)\},\) e a matriz
$$
A = \left[ \begin{array}{rr}
2 & 0\\
0 & 1
\end{array} \right],
$$

buscamos \(T_A\), a aplicação associada a esta matriz, lembrando que \(T_A\) depende das bases \(\beta\) e \(\beta’\). Se \(\vec{v} \in V\), escrevemos \(\vec{v} = (x, y)\) e o escrevemos na base \(\beta\) (que é a base canônica) como
$$ [\vec{v}]_{\beta} = \left[ \begin{array}{r} x\\ y \end{array} \right]. $$

O efeito da transformação sobre sobre este vetor é
$$
A \vec{v} = \left[ \begin{array}{rr}
2 & 0\\
0 & 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
2 x\\
y
\end{array} \right] = \left[T_A (\vec{v})\right]_{\beta’},
$$

onde pretendemos que o vetor de chegada seja descrito na base \(\beta’\). Nesta base temos
$$ T_A (\vec{v}) = 2 x (1, 1) – y (- 1, 1) = (2 x – y, 2 x + y), $$

que é a aplicação procurada. Por exemplo, a imagem do vetor \(\vec{v} = (2, 3)\) é \(T_A (2, 3) = (1, 7)\).

Generalizando o procedimento acima, sejam \(V\) e \(W\) dois espaços vetoriais com suas respectivas bases, \(\beta = \{v_1, \ldots, v_n \}\) e \(\beta’ = \{w_1, \ldots, w_m \}\) e \(A\) uma matriz \(m \times n\),
$$
A = \left[ \begin{array}{llll}
a_{11} & a_{12} & \cdots & a_{1 n}\\
a_{21} & a_{22} & \cdots & a_{2 n}\\
\vdots & & & \\
a_{m 1} & a_{m 2} & \cdots & a_{m n}
\end{array} \right].
$$

Podemos então associar a esta matriz a aplicação \(T_A : V \rightarrow W\) da seguinte forma: escrevemos \(v\) na base \(\beta\),
$$ [v]_{\beta} = \vec{X} = \left[ \begin{array}{r} x_1 \\ x_2\\ \vdots\\ x_n \end{array} \right] $$

e a ação da aplicação sobre este vetor, \(T_A (v)\), descrita em termos da base \(\beta’\),
$$
[A \cdot \vec{X}]_{\beta’} = \left[ \begin{array}{r}
y_1\\
y_2\\
\vdots\\
y_n
\end{array} \right]_{\beta’} \;\; \text{ onde } \;\; \left[
\begin{array}{r}
y_1\\
y_2\\
\vdots\\
y_n
\end{array} \right] = \left[ \begin{array}{llll}
a_{11} & a_{12} & \cdots & a_{1 n}\\
a_{21} & a_{22} & \cdots & a_{2 n}\\
\vdots & & & \\
a_{m 1} & a_{m 2} & \cdots & a_{m n}
\end{array} \right] \left[ \begin{array}{r}
x_1\\
x_2\\
\vdots\\
x_n
\end{array} \right].
$$

Como queremos obter o vetor de chegada na base \(\beta’\) temos \(T_A (v) = y_{1} w_1 + y_{2} w_2 + \ldots + y_{m} w_m\). Se nenhuma base for explicitada usaremos, por convenção, as bases canônicas.

Exemplo 2. Queremos encontrar a transformação \(T_A : \mathbb{R}^3 \rightarrow \mathbb{R}^2\), associada à matriz
$$ A = \left[ \begin{array}{rrr} 1 & – 3 & 5 \\ 2 & 4 & – 1 \end{array} \right]. $$

Como as bases não são mencionadas, usamos as bases canônicas de \(\mathbb{R}^3\) e \(\mathbb{R}^2\), respectivamente
$$
\beta = \{(1, 0, 0), (0, 1, 0), (0, 0, 1)\} \;\; \text{ e } \;\; \beta’ = \{(1, 0),
(0, 1)\} .
$$

Tome \(\vec{v} = (x, y, z)\), ou, na base canônica
$$
[\vec{v}]_{\beta} = \vec{X} = \left[ \begin{array}{r}
x\\
y\\
z
\end{array} \right].
$$

A matriz \(A\) transforma este vetor em
$$
A \vec{X} = \left[ \begin{array}{rrr}
1 & – 3 & 5 \\
2 & 4 & – 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y\\
z
\end{array} \right] = \left[ \begin{array}{r}
x – 3 y + 5 z\\
2 x + 4 y – z
\end{array} \right].
$$

Como queremos a transformação descrita nas bases canônicas dos dois espaços, que é, portanto
$$ T_A (\vec{v}) = (x – 3 y + 5 z, 2 x + 4 y – z). $$

Exemplo 3. Vamos procurar pela transformação \(F_A : P_2 (t) \rightarrow P_1 (t)\) (lembrando que \(P_n\) é o espaço dos polinômios em \(t\) de grau menor ou igual a \(n\) ) com as respectivas bases \(\beta = \{1, t, t^2 \}\) e \(\beta’ = \{1, t + 1\}\), associada à matriz
$$
A = \left[ \begin{array}{lll}
1 & 0 & 1\\
2 & 1 & 2
\end{array} \right].
$$

Se \(f \in P_2 (t)\) então \(f = a + bt + ct^2\) e podemos escrever, na base \(\beta\)
$$
[f]_{\beta} = \vec{X} = \left[ \begin{array}{r}
a\\
b\\
c
\end{array} \right].
$$

Transformado pela matriz \(A\) este vetor se torna
$$
A \vec{X} = \left[ \begin{array}{lll}
1 & 0 & 1\\
2 & 1 & 2
\end{array} \right] \left[ \begin{array}{r}
a\\
b\\
c
\end{array} \right] = \left[ \begin{array}{c}
a + c\\
2 a + b + 2 c
\end{array} \right] = [F_A (f)]_{\beta’} .
$$

O vetor transformado aparece na base \(\beta’\) por definição. A transformação procurada é
$$
F_A (f) = (a + c) 1 + (2 a + b + 2 c) (t + 1) = 3 a + b + 3 c + (2 a + b +
2 c) t.
$$

Como foi afirmado antes, toda transformação linear corresponde a uma única matriz se as bases de ambos os espaços forem especificadas. Considere transformação linear \(T : V \rightarrow W\), com bases \(\beta = \{v_1, \ldots, v_n \}\) e \(\beta’ = \{w_1, \ldots, w_m \}\), respectivamente. Os vetores de \(\beta\) transformados por \(T\) são vetores de \(W\), ou seja \(T (v_k) \in W\) e, portanto, podem ser decompostos na base \(\beta’\)
$$\begin{array}{cc}
T (v_1) = & a_{11} w_1 + a_{21} w_1 + \ldots + a_{m 1} w_m, \\
\vdots & \vdots \\
T (v_n) = & a_{1 n} w_1 + a_{2 n} w_2 + \ldots + a_{mn} w_m,
\end{array}
$$

onde, mais uma vez, a escolha dos índices fica explicada a seguir. A transposta da matriz dos coeficientes é a matriz que corresponde a \(T\) nas bases escolhidas,
$$
\left[T\right]^{\beta}_{\beta’} = \left[ \begin{array}{llll}
a_{11} & a_{12} & \cdots & a_{1 n}\\
a_{21} & a_{22} & \cdots & a_{2 n}\\
\vdots & & & \\
a_{m 1} & a_{m 2} & \cdots & a_{m n}
\end{array} \right].
$$

Novamente, escreveremos apenas \(\left[T\right]\) quando as bases envolvidas forem ambas canônicas.

Formalizando a afirmação acima temos:

Teorema: Dados os espaços vetoriais \(V\) e \(W\), com bases \(\alpha\) e \(\beta\) respectivamente, toda transformação linear \(T : V \rightarrow W\) corresponde a uma matriz \(A_{m \times n}\), onde \(n\) é a dimensão de \(V\) e \(m\) a dimensão de \(W\). Além disto, denotando esta matriz \(A = \left[T\right]_{\beta}^{\alpha}\) vale a relação
$$
\left[T(v)\right]_{\beta} = \left[T\right]_{\beta}^{\alpha} [v]_{\alpha} .
$$

Demonstração: Considere que \(\beta = \{v_1, \ldots, v_n\}\) e \(\beta’ = \{w_1, \ldots, w_m \}\) são, respectivamente, bases de \(V\) e \(W\). Escrevemos \(v \in V\) na base \(\alpha\) e \(T (v) \in W\) na base \(\beta\),
$$
[v]_{\alpha} = \left[ \begin{array}{r}
x_1\\
\vdots\\
x_n
\end{array} \right], \left[T(v)\right]_{\beta} = \left[ \begin{array}{r}
y_1\\
\vdots\\
y_m
\end{array} \right].
$$

A matriz procurada, correspondente a \(T\), é tal que \(A [v]_{\alpha} = [T(v)]_{\beta}\), ou seja,
$$
\left[
\begin{array}{lll}
a_{11} & \cdots & a_{1 n} \\
\vdots & & \vdots \\
a_{m 1} & \cdots & a_{m n}
\end{array}
\right]
\left[
\begin{array}{r}
x_1 \\
\vdots \\
x_n
\end{array}
\right] =
\left[
\begin{array}{r}
y_1 \\
\vdots \\
y_m
\end{array}
\right],
$$

onde denotamos \(A = \{a_{ij} \}\). Resta apenas encontrar as entradas \(a_{ij}\) da matriz. Para fazer isto tomamos \(v_1 \in \alpha\), o primeiro vetor desta base. Sendo um vetor de \(V\) ele pode ser escrito na própria base \(\alpha\) como
$$
[v_1]_{\alpha} = \left[ \begin{array}{r}
1\\
\vdots\\
0
\end{array} \right].
$$

Por efeito da transformação acima ele é levado em um vetor \(T(v_1) \in W\), que pode, portanto, ser escrito na base \(\beta\) como
$$
\left[T (v_1)\right]_{\beta} = \left[ \begin{array}{r}
y_1\\
\vdots\\
y_m
\end{array} \right] = \left[ \begin{array}{lll}
a_{11} & \cdots & a_{1 n}\\
\vdots & & \vdots\\
a_{m 1} & \cdots & a_{m n}
\end{array} \right] \left[ \begin{array}{r}
1\\
\vdots\\
0
\end{array} \right] = \left[ \begin{array}{r}
a_{11}\\
\vdots\\
a_{m 1}
\end{array} \right].
$$

Dai podemos concluir que
$$
\left[ \begin{array}{c}
y_1\\
\vdots\\
y_m
\end{array} \right] = \left[ \begin{array}{c}
a_{11}\\
\vdots\\
a_{m 1}
\end{array} \right] \Rightarrow \left\{ \begin{array}{c}
y_1 = a_{11},\\
\vdots\\
y_m = a_{m 1} .
\end{array} \right.
$$

Isto equivale a escrever
$$ T(v_1) = y_1 w_1 + \ldots + y_m w_m = a_{11} w_1 + \ldots + a_{m 1} w_m .$$

Pelo mesmo procedimento podemos mostrar que para qualquer vetor \(v_k \in \beta\) temos
$$ T (v_k) = a_{1 k} w_1 + \ldots + a_{mk} w_m, k = 1, \ldots, n. $$

Observe que, denotando \(A = \left[T\right]_{\beta}^{\alpha}\), podemos escrever
$$
\left[T(v)\right]_{\beta} = \left[T\right]_{\beta}^{\alpha} [v]_{\beta},
$$

o que representa uma forma de fácil memorização para representar todo o processo adotado. O símbolo \(\left[T\right]_{\beta}^{\alpha}\) significa a matriz associada a transformação \(T\) que leva vetores de \(V\), escritos na base \(\alpha\) para vetores de \(W\) escritos na base \(\beta\).

Resumindo: para encontrar os coeficientes da matriz associada a \(T\) nas bases dadas procedemos da seguinte forma:

  1. Tomamos os vetores \(v_k \in \alpha\) e os escrevemos na base \(\beta\).
  2. A matriz \(\left[T\right]_{\beta}^{\alpha}\) tem como componentes os termos \(a_{ik}\) da decomposição \(T (v_k) = \sum a_{ik} w_i\).
Exemplo 4. Dada uma transformação \(T : \mathbb{R}^3 \rightarrow \mathbb{R}^2\) dada por
$$ T (x, y, z) = (2 x + y – z, 3 x – 2 y + 4 z) $$

e considerando as bases \(\beta = \{(1, 1, 1), (1, 1, 0), (1, 0, 0)\}\) e \(\beta’ = \{(1, 3), (1, 4)\}\) vamos encontrar a matriz \(\left[T\right]_{\beta’}^{\beta}\) associada a esta transformação.

Primeiro calculamos o efeito de \(T\) sobre as vetores de \(\beta\) e escrevemos as imagens na base \(\beta’\):
$$ \begin{array}{rl}
T (1, 1, 1) = & (2, 5) = a (1, 3) + b (1, 4) = 3 (1, 3) – 1 (1, 4), \\
T (1, 1, 0) = & (3, 1) = c (1, 3) + d (1, 4) = 11 (1, 3) – 8 (1, 4), \\
T (1, 0, 0) = & (2, 3) = e (1, 3) + f (1, 4) = 5 (1, 3) – 3 (1, 4).
\end{array}
$$

As constantes \(a, b, \ldots, f\) foram calculadas como solução de sistemas. Por exemplo, na primeira equação temos
$$
\left. \begin{array}{l} a + b = 2 \\ 3 a + 4 b = 5 \end{array} \right\} \Rightarrow a = 3, \;\; b = – 1.$$

A matriz procurada é a transposta da matriz dos coeficientes, ou seja,
$$
\left[T\right]^{\beta}_{\beta’} = \left[ \begin{array}{rrr}
a & c & e\\
b & d & f
\end{array} \right] = \left[ \begin{array}{rrr}
3 & 11 & 5\\
– 1 & – 8 & – 3
\end{array} \right].
$$

Exemplo 5. Dada a mesma transformação \(T : \mathbb{R}^3 \rightarrow \mathbb{R}^2\) do exemplo anterior
$$ T (x, y, z) = (2 x + y – z, 3 x – 2 y + 4 z) $$

com as bases canônicas \(\beta = \{(1, 0, 0), (0, 1, 0), (0, 0, 1)\}\) e \(\beta’ = \{(1, 0), (0, 1)\}\) veremos que a matriz \(\left[T\right]\) associada a esta transformação será diferente da anterior. Listamos a seguir a transformação sobre os vetores de \(\beta\) e escrevemos as imagens na base \(\beta’\) :
$$ \begin{array}{rl}
T (1, 0, 0) = & (2, 3) = a (1, 0) + b (0, 1) = 2 (1, 0) + 3 (01, 1), \\
T (0, 1, 0) = & (1, – 2) = c (1, 0) + d (0, 1) = 1 (1, 0) – 2 (0, 1),\\
T (0, 0, 1) = & (- 1, 4) = e (1, 0) + f (0, 1) = – 1 (1, 0) + 4 (0, 1) .
\end{array}
$$

A transposta da matriz dos coeficientes é a matriz procurada,
$$
\left[T\right] = \left[ \begin{array}{lll}
2 & 1 & – 1\\
3 & – 2 & 4
\end{array} \right].
$$

Exemplo 6. Considere a transformação identidade, \(T : V \rightarrow V\), \(T (v) = v\), realizada entre as bases \(\beta = \{v_1, \ldots, v_n \}\) de \(V\) e \(\beta’ = \{w_1, \ldots, w_m \}\) de \(W\). Repetimos o procedimento, encontrando a imagem dos vetores de \(\beta\) e os escrevendo em \(\beta’\),
$$ \begin{array}{cc}
T (v_1) = & v_1 = a_{11} w_1 + a_{21} w_1 + \ldots + a_{m 1} w_m, \\
\vdots & \vdots \\
T (v_n) = & v_n = a_{1 n} w_1 + a_{2 n} w_2 + \ldots + a_{mn} w_m.
\end{array} $$

A representação matricial desta transformação é
$$
\left[T\right]_{\beta’}^{\beta} = \left[ \begin{array}{ccc}
a_{11} & \cdots & a_{1 n}\\
\vdots & & \vdots\\
a_{m 1} & \cdots & a_{m n}
\end{array} \right] = I_{\beta’}^{\beta},
$$

que é, simplesmente, a matriz mudança de base, partindo da base \(\beta\) para \(\beta’\).

Exemplo 7. Dadas as bases \(\beta = \{(1, 1), (0, 1)\}\) \(\beta’ = \{(0, 3, 0), (- 1, 0, 0), (0, 1, 1) \}\), de \(\mathbb{R}^2\) e \(\mathbb{R}^3\) respectivamente, procuramos a transformação linear \(T : \mathbb{R}^2 \rightarrow \mathbb{R}^3\) correspondente à matriz associada
$$
\left[T\right]_{\beta’}^{\beta} = \left[ \begin{array}{rr}
0 & 2\\
– 1 & 0\\
– 1 & 3
\end{array} \right].
$$

Fazemos o processo inverso, pois os coeficientes da expansão de \(T (1, 1)\) e \(T (0, 1)\) na base \(\beta’\) são conhecidos,
$$ \begin{array}{rl}
T (1, 1) = & 0 (0, 3, 0) – 1 (- 1, 0, 0) – 1 (0, 1, 1) = (1, – 1, – 1), \\
T (0, 1) = & 2 (0, 3, 0) + 0 (- 1, 0, 0) + 3 (0, 1, 1) = (0, 9, 3).
\end{array} $$

Como conhecemos o efeito desta transformação sobre os vetores da base \(\beta\), sabemos seu efeito sobre qualquer vetor \((x, y) \in \mathbb{R}^2\). Nesta base
$$ (x, y) = x (1, 1) + (y – x) (0, 1) $$
e, portanto,
$$ \begin{array}{rl}
T (x, y) = & T [x (1, 1) + (y – x) (0, 1)] = xT (1, 1) + (y – x) T (0, 1) \\
= & x (1, – 1, – 1) + (y – x) (0, 9, 3) = (x, 9 y – 10 x, 3 y – 4 x).
\end{array}$$

Portanto a transformação procurada é \(T (x, y, z,) = (x, 9 y – 10 x, 3 y – 4 x)\).

6. Transformações Lineares

Dados dois espaços vetoriais, \(V\) e \(W\), uma transformação entre eles é uma função que associa vetores de \(V\) em vetores de \(W\). Ela pode ser uma rotação de \(\mathbb{R}^2\) como as que foram estudadas na seção anterior, que associa vetores do plano em outros vetores do plano, girados de um ângulo \(\theta\). Outro exemplo seria a associação de um vetor do espaço em um vetor do plano que corresponde a uma projeção do primeiro vetor neste plano. Esta última transformação poderia, por exemplo, ser usada em uma aplicação gráfica para desenhar a sombra de um objeto tridimensional. Denotaremos por \(F : V \rightarrow W\) uma transformação que leva vetores de \(V\) em vetores de \(W\). Os termos transformação, aplicação e função são equivalentes e serão usados livremente neste texto.

Definição: Se \(V\) e \(W\) são dois espaços vetoriais, uma transformação \(F : V \rightarrow W\) é uma regra que associa a vetores de \(V\) um único vetor de \(W\).

Definição: Dados os espaços vetoriais \(U, V\) e \(W\), se \(F : U \rightarrow V\) e \(G : V \rightarrow W\), a transformação composta \(G \circ F : U \rightarrow W\) é definida da seguinte forma: se \(u \in U\) então
$$ G \circ F (u) = w = G (F (u)) \in W, $$

desde que \(F (u)\) esteja no domínio de \(G\).

Definição: Dada uma transformação \(F : V \rightarrow W\) entre dois espaços vetoriais a transformação inversa, quando existir, é uma transformação \(F^{-1} : W \rightarrow V\) tal que se
$$ F (v) = w \Rightarrow F^{-1}(w) = v. $$

Observe que, se \(F^{-1}\) é a inversa de \(F\), então \(F^{-1} \circ F : V \rightarrow V\) é a aplicação identidade, \(F^{-1} \circ F (v) = v, \forall v \in V\) (ela deixa inalterado qualquer vetor \(v)\).

Figura *

Exemplo . A composição de funções é uma prática rotineira em aplicações da matemática desde os estágios iniciais de seu estudo. Por exemplo, se \(f : \mathbb{R} \rightarrow \mathbb{R}\) dada por \(f (x) = x + 1\) e \(g : \mathbb{R} \rightarrow \mathbb{R}\) dada por \(g (x) = \sqrt{x}\) então a composta \(g \circ f : \mathbb{R} \rightarrow \mathbb{R}\) é a função \(g (f(x)) = g (x + 1) = \sqrt{x + 1}\).

As transformações lineares representam um caso particular das transformações me geral, de grande importância no estudo da matemática e aplicações. Elas são importantes porque muitos objetos e fenômenos que se pretende descrever ocorrem de forma linear, entre eles o estudo de circuitos passivos (contendo apenas resistores), o cálculo de estruturas de concreto, a manipulação computadorizada de imagens, etc. Além disto, mesmo objetos e fenômenos que não ocorrem de forma linear admitem, em seu tratamento, uma primeira aproximação linear, a partir da qual se procura fazer correções e aperfeiçoamentos.

Definição: Dados dois espaços vetoriais, \(V\) e \(W\), uma transformação linear entre eles é uma função de \(V\) em \(W\), \(F : V \rightarrow W\), satisfazendo:

  1. \(F (u + v) = F (u) + F (v), \forall u, v \in V\),
  2. \(F (k u) = k F (u), \forall u \in V, k\) um escalar qualquer.

Exemplo . A transformação de \(\mathbb{R}^2\) em \(\mathbb{R}^2\)
$$ \begin{array}{rl}
F : \mathbb{R}^2 \mapsto & \mathbb{R}^2 \\
(x, y) \mapsto & (x+y, x-y)
\end{array} $$
é uma transformação linear. Antes de mostrar isto, como ilustração do significado de uma transformação, observe que \(F\) tem o seguinte efeito sobre os vetores abaixo:
$$ \begin{array}{rrr}
F (1, 1) = (2, 0), & F (1, 0) = (1, 1), &\\
F (0, 0) = (0, 0), & F (3, 2) = (5, 1), & \text{etc..}
\end{array}
$$

Dados dois vetores de \(\mathbb{R}^2\), \(\vec{u} = (u_x, u_y)\) e \(\vec{v} = (v_x, v_y)\) então
$$ \begin{array}{rl}
F (\vec{u} + \vec{v}) = & F[(u_x + v_x, u_y + v_y)]=(u_x + v_x + u_y + v_y, u_x + v_x – u_y – v_y) = \\
& (u_x + u_y, u_x – u_y) + (v_x + v_y, v_x – v_y) = F (\vec{u}) + F (\vec{v}).
\end{array}
$$

Além disto, se \(k\) é um escalar temos
$$ F (k \vec{u}) = F [(k u_x, k u_y)] = (k u_x + k u_y, k u_x – k u_y) = k(u_x + u_y, u_x – u_y) = k F (\vec{u}).$$

Portanto a aplicação \(F\) satisfaz as duas condições e é, portanto, uma transformação linear. Vale a pena notar que \(F (\vec{0}) = \vec{0}\), i. e. ela leva o vetor nulo no vetor nulo, o que é, como veremos em breve, uma característica de todas as transformações lineares.

Exemplo . A transformação \(G : \mathbb{R} \rightarrow \mathbb{R}\) dada por \(G (u) = \alpha u\), (a multiplicação de um vetor por um fator \(\alpha\) ) é linear, pois:
$$ \begin{array}{rl}
G(u+v)= & \alpha (u + v)=\alpha u + \alpha v = G(u)+G(v), \\
G(ku)= & \alpha (ku)=k(\alpha u) = k\,G(u).
\end{array}
$$

Observamos novamente que \(G (0) = 0\).

Exemplo . A transformação
$$ \begin{array}{r}
H : \mathbb{R} \rightarrow \mathbb{R}\\
x \mapsto x^2
\end{array}
$$
não é linear. Qualquer uma das duas propriedades (i) e (ii) não são satisfeitas pois
$$ \begin{array}{rl}
H (u + v) = & (u + v)^2 = u^2 + v^2 + 2 u v \neq H (u) + H (v) ; \\
H (k u + v) = & (k u)^2 = k^2 u^2 \neq k H (u).
\end{array}
$$

Embora esta não seja uma transformação linear é verdade que \(H (0) = 0\).

Exemplo . A transformação
$$ \begin{array}{r}
J : \mathbb{R}^2 \rightarrow \mathbb{R}^3\\
(x, y) \mapsto (2 x, 0, x + y)
\end{array}
$$
é linear. Dados o vetores de \(\mathbb{R}^2\), \(\vec{u} = (x_1, y_1)\) e \(\vec{v} = (x_2, y_2)\) então
$$ \begin{array}{rl}
J (\vec{u}+\vec{v})= & J [(x_1 + x_2, y_1 + y_2)] = (2 x_1 + 2 x_2, 0, x_1 + y_1 + x_2 + y_2) = \\
& (2 x_1, 0, x_1 + y_1) + (2 x_2, 0, x_2 + y_2) = F (\vec{u}) + F (\vec{v}).
\end{array}
$$

Sendo \(k\) um escalar
$$ J (k \vec{u}) = J [(k x_1, k y_1)] = (2 k x_1, 0, k x_1 + k y_1) = k (2x_1, 0, x_1 + y_1) = k J (\vec{u}) . $$

Afirmação: Se \(F : V \rightarrow W\) é uma transformação linear, então \(F (0_V) = 0_W,\) onde \(0_V \;\text{ e }\; 0_W\) são, respectivamente, os vetores nulos de \(V\) e de \(W\).

Demonstração: Podemos escrever o vetor nulo como \(W \ni 0 = u – u\). Se \(F\) é linear então,
$$ F (0) = F (u – u) = F (u) – F (u) = 0 \in W. $$

No último exemplo, \(J (x, y) = (2 x, 0, x + y)\) temos que \(J (0, 0) = (0, 0, 0)\), ou seja, \(J\) leva o vetor nulo de \(\mathbb{R}^2\) no vetor nulo de \( \mathbb{R}^3\). Vimos também que a transformação \(H : \mathbb{R} \rightarrow \mathbb{R}; H (x) = x^2\) não é linear mas \(H(0) = 0\). Esta é, portanto, uma condição necessária mas não suficiente para que a transformação seja linear.

Exemplo . A transformação \(L : \mathbb{R}^3 \rightarrow \mathbb{R}^3\), dada por
$$ \text{ } L (x, y, z) = (x + 1, y, z) $$

não é linear pois \(L (0, 0, 0) = (1, 0, 0) \neq 0\). As condições (i) e (ii) não precisam ser testadas, nesta caso.

Exemplo . A transformação \(M : \mathbb{R}^3 \rightarrow \mathbb{R}\), dada por
$$ \text{ } M (\vec{v}) = \vec{v} \cdot \vec{v} \;\;\; \text{(o produto escalar)} $$

não é linear, embora \(M (\vec{0})=0.\;\;\) Apesar disto, se \(\vec{u}\), \(\vec{v} \in \mathbb{R}^3\) então
$$ \begin{array}{rl}
M(\vec{u}+\vec{v})= & (\vec{u}+\vec{v})\cdot(\vec{u}+\vec{v})=\vec{u}\cdot\vec{u}+\vec{v}\cdot\vec{v}+2\vec{u}\cdot \vec{v}\neq M(\vec{u})+M(\vec{v}), \\
M(k\vec{u})= & (k \vec{u}) \cdot (k \vec{u}) = k^2 \vec{u} \cdot \vec{u}\neq k M (\vec{u}).
\end{array}$$

Naturalmente, se uma das condições não é satisfeita já sabemos que a transformação não é linear. Nos exemplos sempre testamos as duas condições, para efeito de exercício.

Exemplo . A operação derivada \(D : P_n \rightarrow P_n\) (que leva polinômios em polinômios, ambos de grau menor ou igual a \(n\) ) é uma transformação linear. Se \(f, g \in P_n\) (são polinômios), e \(k\) é um escalar então
$$ \begin{array}{l} D (f + g) = D (f) + D (g), \\ D (k f) = k D (f). \end{array} $$

Exemplo . \(N : V \rightarrow W\), \(N (u) = 0, \forall u \in V\), é uma transformação linear pois
$$ \begin{array}{l} N (u + v) = 0 = N (u) + N (v); \\ N (k u) = k N (u) = 0. \end{array} $$

Exemplo . Toda matriz \(m \times n\) esta associada a uma transformação linear \(A : \mathbb{R}^n \rightarrow \mathbb{R}^m\):
$$
\left[ \begin{array}{rrrr}
a_{11} & a_{12} & \cdots & a_{1 n} \\
a_{21} & a_{22} & \cdots & a_{2 n} \\
\vdots & & & \vdots \\
a_{m1} & a_{m 2} & \cdots & a_{m n}
\end{array} \right]
\left[ \begin{array}{r} x_1\\ x_2\\ \vdots\\ x_n \end{array} \right] =
\left[ \begin{array}{r} y_1\\ y_2\\ \vdots\\ y_m\end{array} \right].
$$

Denotando a operação acima por \(A \vec{x} = \vec{y}\), sabemos da álgebra das matrizes que
$$ \begin{array}{l}
A (\overrightarrow{x_1} + \overrightarrow{x_2}) = A (\overrightarrow{x_1}) + A (\overrightarrow{x_2}); \\
A (k \vec{x}) = k A (\vec{x}).
\end{array}
$$

Veremos mais tarde que a afirmação inversa também é verdadeira, ou seja, que toda a transformação linear \(T : V \rightarrow W\) (dois espaços vetorais) pode ser representada por uma matriz \(m \times n\) onde \(n\) é a dimensão de \(V\) e \(m\) a dimensão de \(W\).

Exemplo . Dada a matriz \(3 \times 2\)
$$
A = \left[ \begin{array}{rr}
2 & 0\\
0 & 0\\
1 & 1
\end{array} \right]
$$

existe a aplicação linear \(L_A : \mathbb{R}^2 \rightarrow \mathbb{R}^3\),
$$ \left[ \begin{array}{r}
x\\
y
\end{array} \right] \mapsto \left[ \begin{array}{rr}
2 & 0\\
0 & 0\\
1 & 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{c}
x \\ 0 \\ x + y
\end{array} \right] .
$$

Esta transformação é idêntica à \(J (x, y) = (2 x, 0, x + y)\), usada anteriormente em um exemplo.

Afirmação: Se \(F : V \rightarrow W\) é uma transformação linear, então \(F\) leva retas de \(V\) em retas de \(W\).

Demonstração: Uma reta de \(V\) é um espaço gerado por um único vetor. Vamos aqui denotar esta reta por \(\alpha = [v] = \{t v\},\) onde \(v \in V\) é um vetor fixo, \(t\) uma variável. A imagem desta reta, sob a acão de \(F\) é \(F \{tv\} = \{tF (v)\} = [F (v)]\), que é uma reta de \(W\).

Observação: Esta é, aliás, o motivo do nome, transformação linear.

Figura *

Transformações do plano no plano

De particular importância entre as transformações lineares entre espaços vetoriais estão as transformações \(T : \mathbb{R}^2 \rightarrow \mathbb{R}^2\). Grande parte das operações em computação gráfica pertencem a este tipo de transformações, em particular as expansões e contrações (para aumentar ou diminuir o tamanho de uma figura na tela do computador), as reflexões, projeções e rotações.

Expansão e contração uniforme

Uma transformação
$$ \begin{array}{lll}
T : & \mathbb{R}^2 \rightarrow \mathbb{R}^2 & \\
& \vec{v} \mapsto \alpha \vec{v}, & \alpha \in \mathbb{R}
\end{array}
$$

é uma expansão ou dilatação se \(\alpha \gt 1\), ou uma contração se \(\alpha \lt 1\). Vale aqui nos lembrarmos de que a multiplicação de um vetor por um escalar \(\alpha\) tem o efeito de multiplicar seu comprimento por \(| \alpha |\) pois
$$ |T (\vec{v}) | = | \alpha \vec{v} | = \sqrt[]{\alpha^2 \vec{v} . \vec{v} } = | \alpha | | \vec{v} |. $$

Exemplo . A seguinte transformação é uma dilatação,
$$ \begin{array}{rr}
T : & \mathbb{R}^2 \rightarrow \mathbb{R}^2\\
& \vec{v} \mapsto 2 \vec{v},
\end{array}
$$
que dobra o comprimento do vetor, conforme a figura *a. Em termos matriciais ela pode ser expressa por
$$ T \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{rr}
2 & 0\\
0 & 2
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
2 x\\
2 y
\end{array} \right] .
$$

Por outro lado a aplicação \(F (x, y) = \frac{1}{2} (x, y)\) é uma contração, mostrada na figura *b.

figura

Reflexão em torno do eixo \(\mathcal{O}x\)

A transformação
$$ \begin{array}{rl}
R_x : & \mathbb{R}^2 \rightarrow \mathbb{R}^2 \\
& (x, y) \mapsto (x,- y),
\end{array} $$
representa uma reflexão em torno do eixo \(\mathcal{O}x\), ilustrada na figura *. Em notação matricial
$$ \left[ \begin{array}{r}
x’\\
y’
\end{array} \right] = \left[ \begin{array}{rr}
1 & 0\\
0 & – 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
x\\
– y
\end{array} \right], \;\;\;\text{ onde }\;\;\; \left[ \begin{array}{r}
x’\\
y’
\end{array} \right] = T \left[ \begin{array}{r}
x\\
y
\end{array} \right] .
$$

Rotação de um ângulo \(\theta\)

Dado um vetor \(\vec{v} \in \mathbb{R}^2\) queremos conhecer a transformação \(R_{\theta} : \mathbb{R}^2 \rightarrow \mathbb{R}^2\) tal que \(\vec{v}’ = R_{\theta} (\vec{v})\) tem o mesmo comprimento que \(\vec{v}\) mas está girado de um ângulo \(\theta\) no sentido antihorário, como mostrado na figura *. Vamos começar denotando por \(r = | \vec{v} |\) o módulo deste vetor, e \(\alpha\) o ângulo que ele faz com o eixo \(\mathcal{O}x\). Nesta notação, se \(\vec{v} = (x, y)\) temos
$$ \left. \begin{array}{r} x = r \cos \theta \\ y = r \text{sen } \theta\end{array} \right\} \Rightarrow \vec{v} = r (\cos \theta, \text{sen }\theta). $$

O novo vetor \(\vec{v}’\) obtido de \(\vec{v}\) por meio de um giro de ângulo \(\theta\) será escrito por
$$ \begin{array}{r} x’ = r \cos (\alpha + \theta),\\ y’ = r \text{sen } (\alpha + \theta). \end{array} $$

Podemos aqui usar as identidades trigonométricas para a soma de ângulos,
$$ \begin{array}
\cos (\alpha + \theta) = \cos \alpha \cos \theta – \text{sen } \alpha \text{sen } \theta, \\
\text{sen } (\alpha + \theta) = \text{sen } \alpha \cos \theta + \cos \alpha \text{sen } \theta.
\end{array} $$

Por conseguinte as coordenadas de \(\vec{v}’\) serão
$$ \begin{array} {l}
x’ = r \cos \alpha \cos \theta – r \text{sen } \alpha \text{sen } \theta = x \cos \theta – y \text{sen } \theta, \\
y’ = r \text{sen } \alpha \cos \theta + r \cos \alpha \text{sen } \theta = x \text{sen } \theta + y \text{sen } \theta.
\end{array} $$

Temos portanto, a transformação procurada,
$$ R_{\theta} \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
x’\\
y’
\end{array} \right] = \left[ \begin{array}{rr}
\cos \theta & – \text{sen } \theta\\
\text{sen } \theta & \cos \theta
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] .
$$

Exemplo . No caso particular de uma rotação de \(\theta = \pi / 2\) temos
$$ R_{\pi / 2} \left[ \begin{array}{r}
x\\ y
\end{array} \right] = \left[ \begin{array}{rr}
0 & – 1\\ 1 & 0
\end{array} \right] \left[ \begin{array}{r}
x\\ y
\end{array} \right] = \left[ \begin{array}{r}
– y\\ x
\end{array} \right].
$$

Exercício: Denotando por \(R_{\theta}\) a rotação antihorário de um ângulo \(\theta\) mostre que
$$ R_{\theta 1} \cdot R_{\theta_2} = R_{(\theta_1 + \theta_2)}.$$

Extra: Um conceito importante em álgebra moderna é o de um grupo. Um grupo é um conjunto \(G \neq \emptyset\), dotado de uma operação binária \(\ast\), satisfazendo as seguintes propriedades:

  1. Se \(a,\, b,\, c \in G \Rightarrow (a \ast b) \ast c = a \ast (b \ast c)\) (associatividade).
  2. \(\exists \, e \, \in G\) tal que \(e \ast a = a \ast e = a, \forall a \in G\) (existência do elemento neutro).
  3. \(\forall a \in G \; \exists b \; \in G\) tal que \(a \ast b = b \ast a = e\) (existência do elemento inverso).

Estas propriedades significam que um grupo é um conjunto com uma operação \(\ast\) associativa, onde existe um elemento neutro \(e\) (com relação àquela operação) e que para cada elemento \(a\) de \(G\) existe um inverso \(b\) (algumas vezes denotado por \(a^{-1}\)).

Mostre que o conjunto \(G = (R_{\theta}, \ast)\) onde \( \ast\) é a multiplição usual de matrizes, é um grupo. Quem são, neste grupo, os elementos \(e\) (a identidade) e \( [R_{\theta}]^{-1}\), o inverso de \(R_{\theta}\)?

Translações

Exemplos de transformações importantes no plano são as translações
$$ T (x, y) = (x + a, y + b) $$

ou
$$ T \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
x’\\
y’
\end{array} \right] = \left[ \begin{array}{rr}
1 & 0\\
0 & 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] + \left[ \begin{array}{r}
a\\
b
\end{array} \right] .
$$

Estas não são, no entanto, transformações lineares, como se pode mostrar facilmente.

O teorema seguinte seguinte mostra que, para conhecer o efeito de uma transformação linear sobre os vetores de um espaço vetorial, basta conhecer o efeito desta transformação sobre todos os vetores de uma de suas bases.

Teorema: Uma transformação linear \(T : V \rightarrow W\) fica inteiramente determinada por sua ação sobre os vetores de uma base de \(V\).

Demonstração: Seja \(\beta = \{v_1, \ldots, v_n \}\) uma base de \(V\) e suponha conhecidos \(T (v_1) = w_1, \ldots, T (v_n) = w_n\). Então, qualquer \(v \in V\) e sua transformação \(T(v)\) podem ser escritos respectivamente como
$$ \begin{array}{rl}
v = & a_1 v_1 + \ldots + a_n v_n \;\;\; \text{e} \\
T(v)= & T(a_1 v_1+\ldots +a_n v_n)=a_1 T(v_1)+ \ldots + a_n T(v_n) \\
= & a_1 w_1 + \ldots + a_n w_n,
\end{array} $$
como foi afirmado.

Exemplo . Qual é a transformação linear \(T : \mathbb{R}^2 \rightarrow \mathbb{R}^3\) satisfazendo
$$ T (1, 0) = (2, – 1, 0) \text{ e } T (0, 1) = (0, 0, 1) ? $$

Qualquer vetor \(\vec{v} \in \mathbb{R}^2\) pode ser escrito na base canônica
$$ \vec{v} = (x, y) = x (1, 0) + y (0, 1) . $$
Então
$$ T (\vec{v}) = xT (1, 0) + yT (0, 1) = x (2, – 1, 0) + y (0, 0, 1) = (2 x, – x, y) . $$
Em termos matriciais
$$ T \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{rr}
2 & 0\\
– 1 & 0\\
0 & 1
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{r}
2 x\\
– x\\
y
\end{array} \right] .
$$

Relembramos aqui que uma matriz \(3 \times 2\) corresponde a uma transformação de \(\mathbb{R}^2\) em \(\mathbb{R}^3\).

Exemplo . Queremos encontrar a transformação linear \(T : \mathbb{R}^2 \rightarrow \mathbb{R}^3\) satisfazendo
$$ T (1, 1) = (3, 2, 1) \text{ e } T (0, – 2) = (0, 1, 0) . $$

Neste caso, \(\{(1, 1), (0, – 2)\}\) não é a base canônica de \(\mathbb{R}^2\). Temos então que encontrar a decomposição de um vetor qualquer nesta base. O \(\vec{v} = (x, y) \in \mathbb{R}^2\) pode ser escrito nesta base como
$$
\vec{v} = (x, y) = a (1, 1) + b (0, – 2) \Rightarrow \left\{
\begin{array}{r}
(a, a – 2 b) = (x, y), \\
a = x, \\
b = \frac{1}{2} (x – y).
\end{array} \right.
$$

Dai
$$ (x, y) = x (1, 1) + \frac{1}{2} (x – y) (0, – 2) $$
e o vetor transformado é
$$ T (x, y) = xT (1, 1) + \frac{1}{2} (x – y) T (0, – 2) = $$

$$ = x (3, 2, 1)+\frac{1}{2}(x-y)(0, 1, 0)=\left(3x,\frac{5 x-y}{2},x\right).$$

Em termos matriciais
$$ T \left[ \begin{array}{r}
x\\
y
\end{array} \right] = \left[ \begin{array}{rr}
3 & 0\\
5 / 2 & – 1 / 2\\
1 & 0
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] .
$$

Vimos que uma transformação linear \(T : V \rightarrow W\) transforma vetores de um espaço vetorial \(V\) em vetores de outro, \(W\). Algumas definições serão necessárias para prosseguirmos.

Definição: Seja \(T : V \rightarrow W\) uma transformação linear. A imagem de \(T\) é o conjunto
$$ \text{Im} (T) = \{w \in W ; T (v) = w \text{ para algum } v \in V\} . $$

A imagem é, portanto, o conjunto de todos os vetores de \(W\) que são imagem de algum vetor de \(V\) pela transformação \(T\). Podemos denotar a imagem por \(\text{Im} (T)\) ou por \(T (V)\).

Definição: Seja \(T : V \rightarrow W\) uma transformação linear. O núcleo da transformação \(T\) é o conjunto
$$ \text{Nuc } (T) = \{v \in V ; T (v) = 0\} . $$

O núcleo é, portanto, o conjunto de todos os vetores de \(V\) que são levados no vetor nulo de \(W\). Observe que \(\text{Nuc } (T) \neq \emptyset\) pois se \(0_V\) é o vetor nulo de \(V\) então \(T (0_V) = 0_W\) (i.e. pelo menos o vetor nulo de \(V\) está no núcleo).

Obs. Em alguns textos o núcleo é denotado por \(\text{Ker} (T)\) (do inglês, kernel).

Exercício importante: Mostre que \(T (V)\) é um subespaço vetorial de \(W\) e \(\text{Nuc }(V)\) é um subespaço vetorial de \(V\).

Figura: Imagem e núcleo (feita)

Exemplo . Considere a transformação linear
$$ \begin{array}{rl}
T : & \mathbb{R}^2 \mapsto \mathbb{R} \\
& (x, y) \mapsto x + y.
\end{array}
$$

O núcleo desta transformação é \(\text{Nuc } (T) = \{(x, y) \in \mathbb{R}^2 ; x + y = 0\}\). Portanto o núcleo desta transformação é a reta \(y = – x\), exibida na figura *. A imagem de \(T\) é \(\text{Im} (T) =\mathbb{R}\), (toda a reta real) pois qualquer ponto \(r\) desta reta pode ser obtido pela expressão \(r = x + y\), escolhndo-se \(x, y\) adequadamente.

figura *

Exemplo . A transformação linear \(T : \mathbb{R}^3 \rightarrow \mathbb{R}^3\) dada por \(T (x, y, z) = (x, 2 y, 0)\) tem como imagem o conjunto
$$ \text{Im} (T) = \{(x, 2 y, 0) | x, y \in \mathbb{R}\} . $$

Observe que esta imagem é o plano \([(1, 0, 0), (0, 1, 0)]\), isto é, o plano gerado por \(\hat{\imath}\) e \(\hat{\jmath}\) ou ainda o plano \(x\mathcal{O}y\) \((z = 0)\). A dimensão da imagem é \(\dim \text{Im} (T) = 2\), pois existem 2 vetores em sua base. O núcleo desta transformação é
$$ \text{Nuc } (T) = \{(x, y, z) \in \mathbb{R}^3 ; (x, 2 y, 0) = 0\}, $$

ou seja, \(x = 0, y = 0\). Não há qualquer restrição sobre o valor de \(z\), portanto
$$ \text{Nuc } (T) = \{(0, 0, z) ; z \in \mathbb{R}\} . $$

Isto significa que \(\text{Nuc } (T) = [(0, 0, 1)]\), o eixo \(\mathcal{O}z\) e \(\dim \text{Nuc } (T) = 1\). Observe que
$$ \dim \text{Im} (T) + \dim \text{Nuc } (T) = 3 = \dim V. $$

Este resultado será explorado em breve.

Definição: Uma aplicação \(T : V \rightarrow W\) é injetora se, dados \(u, v \in V\), com \(T (u) = T (v)\), então \(u = v\). Equivalentemente, se \(u \neq v\) então \(T (u) \neq T (v)\).

figura

Uma aplicação injetora é aquela que tem imagens distintas para vetores distintos.

Definição: Uma aplicação \(T : V \rightarrow W\) é sobrejetora se \(T (V) = W\), ou seja, a imagem de \(V\) por \(T\) é todo o espaço \(W\). Isto significa que todo vetor de \(W\) é imagem de algum vetor de \(V\) por \(T\).

figura *

Definição: Uma aplicação que é simultaneamente injetora e sobrejetora é uma aplicação bijetora (ou uma bijeção).

Exemplo . A aplicação \(T : \mathbb{R} \rightarrow \mathbb{R}^2\), dada por \(T (x) = (x, 0)\) é injetora pois, se \(x \neq y\) temos \(T (x) \neq T (y)\). No entanto ela não é sobrejetora pois sua imagem é apenas o eixo \(\mathcal{O}x\) de \(\mathbb{R}^2\).

Teorema: Uma aplicação linear \(T : V \rightarrow W\) é injetora se, e somente se, \(\text{Nuc } (T) = \{0\}\).

Demonstração: Suponha que \(\text{Nuc } (T) = \{ \vec{0} \}\). Tome dois vetores \(u, v \in V\) tal que \(T (u) = T (v)\). Então \(T (u) – T (v) = 0 \Rightarrow T (u – v) = 0\), já que a aplicação é linear. Isto indica que \(u – v \in \text{Nuc } (T)\) logo \(u – v = 0\) (pois o núcleo contém apenas o vetor nulo). Resumindo, se \(T (u) = T (v)\) temos, obrigatoriamente que \(u = v\), logo \(T\) é injetora.

Por outro lado, suponha \(T\) injetora e tome um vetor \(v \in \text{Nuc } (T) \Rightarrow\) \(T (v) = 0\). Mas \(T (0) = 0\) para qualquer aplicação linear logo \(T (v) = T (0)\) ou seja \(v = 0\) (pois \(T\) é injetora) de onde se conclui que \(\text{Nuc } (T) = \{0\}\).

Exemplo . Queremos descobrir se a aplicação
$$ \begin{array}{rl}
T : & \mathbb{R}^2 \rightarrow \mathbb{R}^3 \\
& (x, y) \mapsto (x + y, x, x – y),
\end{array}
$$
é injetora. Sem usar a definição do que é uma aplicação injetora procuramos por núcleo,
$$ \begin{array}{r}
\text{Nuc }(T)=\{(x, y) \in \mathbb{R}^2 ; T (x, y) = 0 \} \Rightarrow \\
(x + y, x, x – y) = 0 \Rightarrow x = 0, y = 0.
\end{array}
$$
portanto \(\text{Nuc } (T) = \{0\}\), logo \(T\) é injetora.

Teorema: Seja \(T : V \rightarrow W\) uma aplicação linear. Então
$$ \dim \text{Nuc } (T) + \dim \text{Im} (T) = \dim V. $$

Demonstração: Considere que \(\beta_N = \{v_1, \ldots, v_n \}\) é uma base de \(\text{Nuc } (T)\) à qual adicionamos o conjunto de vetores \(w_k\) necessários para que \(\beta_V = \{v_1, \ldots, v_n, w_1, \ldots, w_m \}\) seja uma base de \(V\). Com estas definições temos que \(\dim \text{Nuc } (T) = n\) e \(\dim V = n + m\). Qualquer vetor \(v \in V\) pode ser decomposto na base \(\beta_V \) como
$$ v = a_1 v_1 + \ldots + a_n v_n + b_1 w_1 + \ldots + b_m w_m . $$

O efeito da transformação \(T\) sobre este vetor é dada por
$$ \begin{array}{rl}
T(v) = & a_1 T (v_1) + \ldots + a_n T (v_n) + b_1 T (w_1) + \ldots + b_m T(w_m) = \\ & b_1 T (w_1) + \ldots + b_m T (w_m),
\end{array} $$

onde a última igualdade se deve a que os vetores \(v_k, k = 1, \ldots, n\) estão no núcleo, logo \(T (v_k) = 0\). A imagem de \(T\) é, portanto
$$ \text{Im} (T) = \{b_1 T (w_1) + \ldots + b_m T (w_m) ; b_k \in \mathbb{R}, k = 1, \ldots, m\} $$

ou ainda
$$ \text{Im} (T) = [T (w_1), \ldots, T (w_m)]. $$

Resta mostrar que os vetores \(T (w_i)\) são l.i.. Procedemos, como de costume, verificando se a combinação linear
$$ c_1 T (w_1) + \ldots + c_m T (w_m) = 0 $$

só pode ser obtida com todos os coeficientes \(c_k = 0\). Como \(T\) é linear podemos escrever
$$ T (c_1 w_1 + \ldots + c_m w_m) = 0, $$

concluindo que o vetor entre parênteses está no núcleo e pode, portanto, ser decomposto na base \(\beta_N\) como
$$ c_1 w_1 + \ldots + c_m w_m = d_1 u_1 + \ldots + d_n u_n . $$

A seguinte combinação linear é, por isto, nula,
$$ c_1 w_1 + \ldots + c_m w_m – d_1 u_1 – \ldots – d_n u_n = 0, $$

o que só pode ser conseguido com todos os coeficientes constantes nulos, \(c_k = 0\) e \(d_l = 0\), pois esta é uma combinação linear entre os vetores da base \(\beta_V\) de \(V\) (que são, por definição, l.i.). Isto mostra que o conjunto \(\beta_I = \{T (w_1), \ldots, T (w_m)\}\) é l.i. e gera \(\text{Im} (V)\), portanto é uma base da imagem. Dai se conclui que \(\dim \text{Im} (V) = m\) e o teorema fica provado.

Corolário: Se \(T : V \rightarrow W\) é uma aplicação linear e injetora, e \(\dim V = \dim W\) então \(T\) transforma bases de \(V\) em bases de \(W\).

Observação: Em outras palavras, o corolário afirma que, se \(\beta_V = \{v_1, \ldots, v_n \}\) é uma base de \(V\) então \(\beta_W = \{T (v_1), \ldots, T (v_n)\}\) é uma base de \(W\).

Demonstração: Tome \(\beta_V = \{v_1, \ldots, v_n \}\),uma base de \(V\). Queremos saber se \(\beta_W = \{T (v_1), \ldots, T (v_n)\}\) é l.i.. Para isto tornamos nula a combinação linear
$$ k_1 T (v_1) + \ldots + k_n T (v_n) = 0 \Rightarrow T (k_1 v_1 + \ldots + k_n v_n) = 0, $$

a última afirmação decorrendo de ser \(T\) linear. Como \(T\) é injetora então \(\text{Nuc } (T) = \{0\}\) e, portanto, \(k_1 v_1 + \ldots + k_n v_n = 0\), o que só pode ser obtido se todos os coeficientes constantes forem nulos, \(k_i = 0, i = 1, \ldots, n\). Dai se conclui que \(\beta_W\) é um conjunto de vetores l.i.. Como \(\dim V = \dim W = n\) então, como queríamos mostrar, \(\beta_W\) é uma base de \(W\).

Definição (isomorfismo): Se a aplicação linear \(T : V \rightarrow W\) é simultaneamente injetora e sobrejetora então dizemos que ela é um isomorfismo. Dizemos que os espaços vetoriais \(V\) e \(W\) são isomorfos.

Convém aqui enfatizar, apesar da repetição, alguns pontos importantes. Espaços isomorfos tem a mesma dimensão: como \(T\) é injetora temos que \(\dim \text{Nuc } (T) = 0\) e \(\dim \text{Im} (T) = \dim V\). Mas \(T\) é também sobrejetora, o que significa que sua imagem cobre todo o espaço \(W\), \(\text{Im} (T) = W\) logo \(\dim W = \dim V\). Além disto um isomorfismo leva bases de \(V\) em bases de \(W\). Como existe uma correspondência biunívoca entre vetores dos dois espaços e todos os vetores de \(W\) correspondem a algum vetor de \(V\), então é possível encontrar a aplicação inversa \(T^{-1} : W \rightarrow V\) e ela é também um isomorfismo.

Exemplo . Seja \(T : \mathbb{R}^3 \rightarrow \mathbb{R}^3\) dada por \(T (x, y, z) = (x – 2 y, z, x + y)\). Vamos mostrar que \(T\) é um isomorfismo e encontrar sua inversa, \(T^{-1}\).

Pelo corolário, como a dimensão do espaço de partida e de chegada são as mesmas (pois são o mesmo espaço) se \(T\) é injetora então \(\dim \text{Nuc }(T)=0\) e \(\dim \text{Im}(T)=3\), o que significa que a imagem é o próprio \(\mathbb{R}^3\) (\( T\) é sobrejetora). Basta portanto verificar que a transformação é injetora. Para isto procuramos pelo núcleo de \(T\),
$$ \text{Nuc } (T) = \{(x, y, z) ; T (x, y, z) = 0\}$$
o que significa que vetores do núcleo devem satisfazer
$$ (x – 2 y, z, x + y) = 0 \Rightarrow \left\{ \begin{array}{r}
x – 2 y = 0\\
z = 0\\
x + y = 0
\end{array} \Rightarrow (x, y, z) = (0, 0, 0) . \right. $$

Como \(\text{Nuc } (T) = \{0\}\), \(T\) é injetora e, sendo sobrejetora, é um isomorfismo e existe a transformação inversa. Para achar a transformação inversa encontramos sua ação sobre 3 vetores l.i. de \(\mathbb{R}^3\). Em geral é mais simples usar a base canônica, embora qualquer base possa ser usada. Listamos abaixo a ação da transformação sobre a base canonônica e a ação de sua inversa sobre os vetores:
$$ \left\{ \begin{array}{rr}
T (1, 0, 0) = & (1, 0, 1) \\
T (0, 1, 0) = & (- 2, 0, 1) \\
T (0, 0, 1) = & (0, 1, 0)
\end{array} \right. \Rightarrow \left\{ \begin{array}{rr}
T^{-1} (1, 0, 1) = & (1, 0, 0), \\
T^{-1} (- 2, 0, 1) = & (0, 1, 0), \\
T^{-1} (0, 1, 0) = & (0, 0, 1).
\end{array} \right.
$$

Sabemos que \(\{(1, 0, 1), (- 2, 0, 1), (0, 1, 0) \}\) é uma base de \(\mathbb{R}^3\) pois isomorfismos transformam bases em bases. Qualquer vetor deste espaço pode ser escrito nesta base como
$$ (x, y, z) = a (1, 0, 1) + b (- 2, 0, 1) + c (0, 1, 0) $$

o que representa o sistema listado abaixo, com sua solução,
$$ \left. \begin{array}{r}
x = a – 2 b\\
y = c\\
z = a + b
\end{array} \;\;\right\} \Rightarrow \begin{array}{l}
a = \frac{1}{3} (x + 2 z),\\
b = \frac{1}{3} (z – x),\\
c = y.
\end{array}
$$

Podemos escrever qualquer vetor de \(\mathbb{R}^3\) nesta base como
$$(x,y,z)=\frac{1}{3} (x + 2 z) (1, 0, 1) + \frac{1}{3} (z – x) (- 2, 0, 1) + y (0, 1, 0) $$

enquanto a ação de \(T^{-1}\) sobre este vetor arbitrário é
$$ T^{-1} (x, y, z) = \frac{1}{3} (x + 2 z) T^{-1} (1, 0, 1) + \frac{1}{3} (z – x) T^{-1} (- 2, 0, 1) + yT^{-1} (0, 1, 0), $$

onde usamos o fato de que \(T\) é linear. Já conhecemos o efeito de \( T^{-1}\) sobre os vetores envolvidos, portanto encontramos **
$$ \begin{array}{rl}
T^{-1}(x, y, z)= & \frac{1}{3}(x + 2 z)(1, 0, 0)+\frac{1}{3}(z-x) (0, 1, 0)+y (0, 0, 1)= \\
& \left(\frac{x + 2 z}{3},\frac{z – x}{3}, y \right).
\end{array} $$

Esta é a transformação inversa procurada.

Segue um resumo dos resultados sobre as transformações lineares

• Uma transformação \(T : V \rightarrow W\) é linear se \(T (\alpha u + \beta v) = \alpha T (u) + \beta T (v)\)

• A transformação fica totalmente determinada por meio de sua ação sobre uma base de \(V\).

• Def.: \(\text{Im} (T) = T (V) ; \text{Nuc } (T) = \{v \in V ; T (v) = 0_W \}\).

• \(T\) é injetora se \(T (u) = T (v) \Rightarrow u = v\), ou, se \(u \neq v \Rightarrow T (u) \neq T (v)\).

• \(T\) é sobrejetora se \(\text{Im} (T) = W\). Se \(T\) é injetora e sobre então é um isomorfismo.

• \(T\) linear é injetora \( \Leftrightarrow \text{Nuc } (T) = \{0_V \}\).

• \(\dim \text{Nuc } (T) + \dim \text{Im} (T) = \dim V\).

• Se \(\dim V = \dim W\), T é injetora \(\Leftrightarrow T\) é sobrejetora.

• \(T\) injetora: Se \(\dim V = \dim W\) então \(T\) leva bases de \(V\) em bases de \(W\).

• Se \(T\) é um isomorfismo então \(\exists \; T^{-1} : W \rightarrow V\), (existe a inversa de \(T\) ).

5. Mudanças de Bases

Vimos que uma base de um espaço vetorial \(V\) é um conjunto de vetores de \(V\) que são linearmente independentes que geram este espaço vetorial. Vimos ainda que, escolhida uma base \(\alpha = \{v_1, v_2, \ldots, v_n \}\) então todo vetor de \(V\) pode ser escrito de forma única como combinação linear dos vetores desta base, \(v = a_1 v_1 + a_2 v_2 + \ldots + a_n v_n\).

Em muitas situações pode ser interessante descrever um vetor, ou outro objeto formado por vetores, em mais de uma base, lembrando que, alterada a base alteram-se também os coeficientes do vetor naquela base. é possível, em muitos casos, que a descrição se torne muito simplificada com a escolha mais adequada da base a ser usada. Um exemplo ilustrará a importância desta operação de mudança de bases.

Exemplo: A relação \(x^2 + x y + y^2 – 3 = 0\) descreve uma elipse no plano, como está ilustrado na figura 1.

Figura 1: Rotação de eixos

Em um novo sistema de coordenadas \((x’, y’)\) obtido por rotação dos eixos de coordenadas de um ângulo de \(45^0\) antihorário. Por meio de uma mudança adequada de base, que pode ser vista como a introdução de um novo sistema de coordenadas, a mesma elipse fica expressa como \(3 x^{\prime 2} + 2 y^{\prime 2}\) =6, onde os sistemas \((x, y)\) e \((x’, y’)\) se relacionam de uma forma que ficará clara em breve.

Considere que em um dado espaço vetorial \(V\) temos duas bases, \(\beta = \{u_1, \ldots, u_n \}\) e \(\beta’ = \{w_1, \ldots, w_n \}\). Então, se \(v\) é um vetor deste espaço, podemos escrevê-lo nas duas bases, respectivamente como
$$ v = x_1 u_1 + \ldots + x_n u_n, $$
$$ v = y_1 w_1 + \ldots + y_n w_n. $$

Queremos relacionar os dois grupos de coordenadas
$$
[v]_{\beta} = \left[ \begin{array}{r}
x_1\\
\ldots\\
x_n
\end{array} \right], [v]_{\beta’} = \left[ \begin{array}{r}
y_1\\
\ldots\\
y_n
\end{array} \right] .
$$

é importante observar que \(v\) é um objeto geométrico, independente do sistema de coordenadas usado ou, o que é equivalente, independente da base usada para este espaço vetorial. A transformação pode ser conseguida da seguinte forma: cada um dos vetores da base \(\beta’\) pode ser escrito como combinação dos vetores da base \(\beta\), uma vez que também são vetores de \(V\), portanto
$$
\begin{array}{lr}
w_1 = & a_{11} u_1 + \ldots + a_{n 1} u_n,\\
w_2 = & a_{12} u_1 + \ldots + a_{n 2} u_n,\\
\vdots & \vdots\\
w_n = & a_{1 n} u_1 + \ldots + a_{n n} u_n .
\end{array}
$$

A escolha de índices das constantes \(a_{i j}\) acima ficará clara a seguir. Substituindo os vetores acima em \(v = y_1 w_1 + \ldots + y_n w_n\) temos
$$
\begin{array}{rll}
v = & y_1 (a_{11} u_1 + \ldots + a_{n 1} u_n) + & \ldots & + y_n (a_{1n} u_1 + \ldots + a_{n n} u_n) = \\
& (a_{11} y_1 + \ldots + a_{1 n} y_n) u_1 + & \ldots & + (a_{n 1} y_1+ \ldots + a_{n n} y_n) u_n .
\end{array}
$$

Na última linha foram colocados em evidência os vetores \(u_k\). Como podemos escrever \(v = x_1 u_1 + \ldots + x_n u_n\) (usando a base \(\beta\) ) e, lembrando que existe uma única combinação linear para descrever um vetor em cada base, podemos identificar os termos
$$ \begin{array}{r}
x_1 = a_{11} y_1 + \ldots + a_{1 n} y_n, \\
\vdots \\
x_n = a_{n 1} y_1 + \ldots + a_{n n} y_n,
\end{array} $$
que é exatamente a regra de transformação entre as coordenadas \(\{y_k \}\) na base \(\beta’\) para as coordenadas \(\{x_k \}\) na base \(\beta\). Podemos escrever a mesma expressão acima em forma matricial como
$$
\left[ \begin{array}{r}
x_1\\
\vdots\\
x_n
\end{array} \right] = \left[ \begin{array}{lll}
a_{11} & \ldots & a_{1 n}\\
\vdots & & \vdots\\
a_{n 1} & \ldots & a_{n n}
\end{array} \right] \left[ \begin{array}{r}
y_1\\
\vdots\\
y_n
\end{array} \right],
$$
onde se observa que a escolha dos índices, citada acima, leva a uma disposição natural dos elementos formadores da matriz de transformação. Denotaremos por
$$
I^{\beta’}_{\beta} = \left[ \begin{array}{rrr}
a_{11} & \ldots & a_{1 n}\\
\vdots & & \vdots\\
a_{n 1} & \ldots & a_{n \, n}
\end{array} \right]
$$

esta matriz, a chamada matriz mudança de base de \(\beta’\) para \(\beta\), onde os coeficientes \(a_{i j}\) são as coordenadas dos vetores \(w_k\) (os elementos do base \(\beta’\) ) na base \(\beta\). Com esta notação a transformação entre uma base e outra fica descrita por
$$ [v]_{\beta} = I^{\beta’}_{\beta} [v]_{\beta’}, $$
lembrando que os coeficientes de \(I^{\beta’}_{\beta} = \{a_{i j} \} \) são as coordenadas dos vetores da base \(\beta’\) \((w_j)\) desenvolvidos na base \(\beta = \{u_j \}\).

Repetindo de forma compacta: Considere que em um dado espaço vetorial \(V\) temos duas bases, \(\beta = \{u_i \}\) e \(\beta’ = \{w_j \}\). Se \(v \in V\), podemos escrevê-lo nas duas bases, como
$$ v = \sum_{i = 1}^n x_i u_i, \;\; \text{e} \;\; v = \sum_{j = 1}^n y_j w_j.$$
Queremos relacionar os dois conjuntos de coordenadas \(\{x_i \}\) e \(\{y_j \}\). Lembrando que cada um dos \(w_j \in V\) temos que
$$ w_i = \sum_{k = 1}^n a_{k i} u_k, i = 1, \ldots, n.$$
Substituindo na expressão para \(v\)
$$ v = \sum_{i = 1}^n y_i w_i = \sum_{i = 1}^n y_i \left( \sum_{k = 1}^n a_{k i} u_k \right) = $$
$$ = \sum_{k = 1}^n \left( \sum_{i = 1}^n a_{k i} y_i \right) u_k = \sum_{k = 1}^n x_k u_k.$$
Como os dois termos na expressão acima correspondem à decomposição do vetor \(v\) na base \(\beta\), e esta decomposição é única, podemos identificar
$$ x_k = \sum_{i = 1}^n a_{k i} y_i $$
ou seja
$$ [v]_{\beta} = I^{\beta’}_{\beta} [v]_{\beta’}, $$
onde os coeficientes de \(I^{\beta’}_{\beta} = \{a_{i j} \} \) são as coordenadas dos vetores da base \(\beta’\) \((w_j)\) desenvolvidos na base \(\beta
= \{u_j \}\).

Exemplo: Dadas duas bases de \(\mathbb{R}^2,\;\; \beta = \{(2, – 1), (3, 4)\}\) e \(\beta’ = \{(1, 0) (0, 1)\}\) procuramos a matriz \(I_{\beta}^{\beta’}\), a matriz de mudança de base de \(\beta’\) para \(\beta\). Primeiro encontramos a decomposição dos vetores de \(\beta’\) na base \(\beta\) (dos vetores da base de partida descritos na base de chegada):
$$
(1, 0) = a_{11} (2, – 1) + a_{21} (0, 1),
$$

$$
(0, 1) = a_{12} (2, – 1) + a_{22} (0, 1),
$$

o que nos leva a dois sistemas, e suas respectivas soluções
$$
\left\{ \begin{array}{r}
2 a_{11} + 3 a_{21} = 1\\
– a_{11} + 4 a_{21} = 0
\end{array} \Rightarrow \left\{ \begin{array}{r}
a_{11} = 4 / 11,\\
a_{21} = 1 / 11,
\end{array} \right. \right.
$$

$$
\left\{ \begin{array}{r}
2 a_{12} + 3 a_{22} = 0\\
– a_{12} + 4 a_{22} = 1
\end{array} \Rightarrow \left\{ \begin{array}{r}
a_{12} = – 3 / 11,\\
a_{22} = 2 / 11.
\end{array} \right. \right.
$$

Portanto, a matriz mudança de base de \(\beta’\) para \(\beta\) é
$$
I_{\beta}^{\beta’} = \left[ \begin{array}{rr}
4 / 11 & – 3 / 11\\
1 / 11 & 2 / 11
\end{array} \right] = \frac{1}{11} \left[ \begin{array}{rr}
4 & – 3\\
1 & 2
\end{array} \right] .
$$

Vamos prosseguir um pouco mais com este mesmo exemplo para compreender como se dá esta mudança de base. Dado o vetor \(v = (5, – 8)\) ele pode ser imediatamente escrito na base \(\beta’\) (que é a base canônica) como
$$
[v]_{\beta’} = \left[ \begin{array}{r}
5\\
– 8
\end{array} \right] .
$$

As coordenadas deste vetor na base \(\beta’\) são
$$
[v]_{\beta} = \frac{1}{11} \left[ \begin{array}{rr}
4 & – 3\\
1 & 2
\end{array} \right] \left[ \begin{array}{r}
5\\
– 8
\end{array} \right] = \left[ \begin{array}{r}
4\\
– 1
\end{array} \right] .
$$
Podemos verificar diretamente que isto está correto pois \((5, – 8) = 4 (2, – 1) – 1 (3, 4)\).

Além de converter um vetor de uma base para outra, é interessante conhecer um procedimento para obter a operação inversa, ou seja, retornar da base nova para a base antiga. Isto nos leva a considerar a inversa da matriz mudança de base.

Vimos que a mudança de base de \(\beta’\) para \(\beta\) pode ser realizada por meio da operação
$$
[v]_{\beta} = I^{\beta’}_{\beta} [v]_{\beta’} .
$$

Denotamos por \( [I^{\beta’}_{\beta}]^{- 1}\) a inversa da matriz acima, e multiplicando à esquerda temos
$$ [I^{\beta’}_{\beta}]^{- 1} [v]_{\beta} = [I^{\beta’}_{\beta}]^{- 1} I^{\beta’}_{\beta} [v]_{\beta’} = [v]_{\beta’}. $$
Isto significa que
$$ [v]_{\beta’} = I^{\beta}_{\beta’} [v]_{\beta} = [I^{\beta’}_{\beta}]^{- 1} [v]_{\beta}, $$
ou seja, a matriz \(I_{\beta’}^{\beta}\) (a mudança de base de \(\beta\) para \( \beta’\) ) é a inversa de \(I_{\beta}^{\beta’}\),
$$ I^{\beta}_{\beta’} = [I^{\beta’}_{\beta}]^{- 1}. $$

Exemplo: No exemplo anterior, vamos procurar a matriz mudança de base de \(\beta\) para \(\beta’\), onde \(\beta = \{(2, – 1), (3, 4)\}\) e \(\beta’ = \{(1, 0) (0, 1)\}\). Os vetores de \(\beta\) na base \(\beta’\) tem coordenadas
$$ (2, – 1) = 2 (1, 0) – 1 (0, 1), $$
$$ (3, 4) = 3 (1, 0) + 4 (0, 1), $$

e, portanto
$$
I_{\beta’}^{\beta} = \left[ \begin{array}{rr}
2 & 3\\
– 1 & 4
\end{array} \right]
$$

Podemos verificar que esta é, de fato, a inversa de \(I_{\beta}^{\beta’}\) obtida acima, pois
$$
I_{\beta’}^{\beta} I_{\beta}^{\beta’} = \frac{1}{11} \left[
\begin{array}{rr}
2 & 3\\
– 1 & 4
\end{array} \right] \left[ \begin{array}{rr}
4 & – 3\\
1 & 2
\end{array} \right] = \left[ \begin{array}{rr}
1 & 0\\
0 & 1
\end{array} \right] .
$$

Exemplo: Uma mudança de base importante está associada a uma rotação dos eixos de coordenadas. Em \(\mathbb{R}^2\) considere que \(\beta = (\hat{e}_1, \hat{e}_2)\) é a base canônica e \(\beta’ = (\hat{f}_1, \hat{f}_2)\) a base obtida de \(\beta\) por meio de uma rotação antihorária de um ângulo \(\theta\), como indicado na figura 2.

Figura 2: Rotaçao dos Eixos

Analisando a figura podemos ver que
$$ \hat{e}_1 = \cos \theta \hat{f}_1 – \text{sen } \theta \hat{f}_2, $$

$$ \hat{e}_2 = \text{sen } \theta \hat{f}_1 + \cos \theta \hat{f}_2, $$

e, portanto, temos a matriz mudança de base,
$$
I_{\beta’}^{\beta} = \left[ \begin{array}{rr}
\cos \theta & \text{sen } \theta\\
– \text{sen } \theta & \cos \theta
\end{array} \right] .
$$

Se descrevermos um vetor (pode ser, por exemplo, uma posição) com relação ao sistema de eixos originais por meio de suas coordenadas usuais \((x, y)\) podemos obter as coordenadas \((x’, y’)\) no sistema após a rotação como
$$
\left[ \begin{array}{r}
x’\\
y’
\end{array} \right] = \left[ \begin{array}{rr}
\cos \theta & \text{sen } \theta\\
– \text{sen } \theta & \cos \theta
\end{array} \right] \left[ \begin{array}{r}
x\\
y
\end{array} \right] .
$$

Como um caso particular, se \(\theta = \pi / 3\) temos \(\text{sen } (\pi / 3) =\sqrt{3} / 2\) e \(\cos (\pi / 3) = 1 / 2\) e
$$
I_{\beta’}^{\beta} = \frac{1}{2} \left[ \begin{array}{rr}
1 & \sqrt{3}\\
– \sqrt{3} & 1
\end{array} \right] .
$$

Um vetor \(\vec{v} = (- 2, 3)\) tem coordenadas
$$
[\vec{v}]_{\beta’} = \frac{1}{2} \left[ \begin{array}{rr}
1 & \sqrt{3}\\
– \sqrt{3} & 1
\end{array} \right] \left[ \begin{array}{r}
– 2\\
3
\end{array} \right] = \frac{1}{2} \left[ \begin{array}{r}
– 2 + 3 \sqrt{3}\\
2 \sqrt{3} + 3
\end{array} \right],
$$

ou seja,
$$
\vec{v} = \left( \frac{- 2 + 3 \sqrt{3}}{2} \right) \widehat{f_1} + \left(
\frac{2 \sqrt{3} + 3}{2} \right) \widehat{f_2} .
$$

Por outro lado, escrevendo os vetores de \(\beta’\) na base \(\beta\) temos
$$
\hat{f}_1 = \cos \theta \hat{e}_1 + \text{sen } \theta \hat{e}_2,
$$

$$
\hat{f}_2 = – \text{sen } \theta \hat{e}_1 + \cos \theta \hat{e}_2,
$$

e a matriz mudança de base \(\beta’ \rightarrow \beta\) é
$$
I_{\beta}^{\beta’} = \left[ \begin{array}{rr}
\cos \theta & – \text{sen } \theta\\
\text{sen } \theta & \cos \theta
\end{array} \right],
$$

que consiste na matriz de rotação de um ângulo de \(– \theta\) (ou \(\theta\), no sentido horário). Se fizermos uma rotação de um ângulo \(\theta\), seguida de uma rotação de ângulo \(– \theta\), voltaremos à posição original, equivalente a fazer uma rotação de ângulo nulo ou deixar inalterado o vetor a ser girado,
$$
\left[ \begin{array}{rr}
\cos \theta & – \text{sen } \theta \\
\text{sen } \theta & \cos \theta
\end{array} \right]
\left[ \begin{array}{rr}
\cos \theta & \text{sen } \theta\\
– \text{sen } \theta & \cos \theta
\end{array}\right] = \left[ \begin{array}{rr}
1 & 0\\
0 & 1
\end{array} \right].
$$

Combinações Lineares

Definição: Sejam \(V\) um espaço vetorial, \(v_1, v_2, \ldots, v_n \in V\) (n vetores de \(V\) ) e \(a_1, a_2, \ldots, a_n \in \mathbb{R}\) (n escalares). Então
$$ v = a_1 v_1 + a_2 v_2 + \ldots + a_n v_n \in V $$
é uma combinação linear dos vetores \(v_1, v_2, \ldots, v_n\).

Definição: O conjunto \(W\) formado por todos os vetores que são combinações lineares de \(v_1, v_2, \ldots, v_n\) é chamado de subespaço gerado por estes vetores. Denotamos este subespaço por
$$
W = [v_1, v_2, \ldots, v_n] = \{ a_1 v_1 + a_2 v_2 + \ldots + a_n v_n ;\;\; a_i
\in \mathbb{R} \} .
$$

Exercício: Mostre que \(W\) é um subespaço vetorial de \(V\).

Quanto ao subespaço gerado por \(v_1, v_2, \ldots, v_n\) notamos que \(W = [v_1, v_2, \ldots, v_n]\) é o menor subespaço de \(V\) que contém todos os vetores \(v_1, v_2, \ldots, v_n\).

Reta gerada por um vetor

Exemplo: Se \(V =\mathbb{R}^3\) e \(\vec{v} \in \mathbb{R}^3\), \(\vec{v} \neq 0\) então \([\vec{v}] = \{\alpha \vec{v} ; \alpha \in \mathbb{R}\}\) é uma reta de \(\mathbb{R}^3\) passando pela origem.

Exemplo: Se denotarmos por \(\hat{\imath},\; \hat{\jmath},\; \hat{k} \) os três vetores unitários (de módulo unitário), na direção dos eixos \(O x,\; O y\) e \(O z\) então
$$[\hat{\imath}, \hat{\jmath}] \;\; \text{é o plano} \;\; x O y,$$
$$[\hat{\imath}, \hat{\jmath}, \hat{k}] =\mathbb{R}^3.$$

Exemplo: Tomando dois vetores não colineares \(\vec{u}, \vec{v} \in \mathbb{R}^3\) então \([\vec{u}, \vec{v}]\) é o plano pela origem que contém \(\vec{u}\) e \(\vec{v}\). Uma observação importante, que será mais elaborada a seguir, é a seguinte: qualquer outro vetor neste plano, por definição, é uma combinação linear de \(\vec{u}\) e \(\vec{v}\).

Exemplo: Dados \(v_1, v_2 \in M (2, 2)\) abaixo
$$
v_1 = \left[ \begin{array}{rr}
1 & 0\\
0 & 0
\end{array} \right], \;\; v_2 = \left[ \begin{array}{rr}
0 & 1\\
0 & 0
\end{array} \right]
$$
então o espaço gerado por eles é
$$ \left[ v_1, v_2 \right] = \left\{ \left[ \begin{array}{rr} a & b\\ 0 & 0 \end{array} \right];\;\; a, b \in \mathbb{R} \right\},$$
um subespaço vetorial de \(M (2, 2)\).

Dependência e Independência Linear

Em muitas situações é importante saber se um vetor é ou não uma combinação linear de outros vetores dados. Como foi mencionado acima, se \(\vec{w}\) é combinação linear de \(\vec{u}\) e \(\vec{v}\) podemos escrever (e é importante que o leitor compreenda esta afirmação),
$$ \vec{w} \in [\vec{u}, \vec{v}] \Rightarrow [\vec{u}, \vec{v}, \vec{w}] = [\vec{u}, \vec{v}].$$

Exercício: Mostre que a afirmação acima está correta.

Alternativamente, queremos saber se, em \(n\) vetores, \(v_1, v_2, \ldots, v_n\), alguns deles são combinações lineares dos demais.

Definição: Sejam \(V\) um espaço vetorial e \(v_1, v_2, \ldots, v_n\) vetores de \(V\). Dizemos que o conjunto \(\{v_1, v_2, \ldots, v_n \}\) é linearmente independente (abreviado por l.i.) se a expressão
$$ a_1 v_1 + a_2 v_2 + \ldots + a_n v_n = 0 $$
implica necessariamente que todas as constantes são nulas: \(a_1 = 0, a_2 = 0, \ldots, a_n = 0\). Caso contrário, se existe alguma outra forma de se obter o anulamento sem que todos os \(a_i\) sejam nulos, dizemos que os vetores são linearmente dependentes. Alternativamente temos o teorema abaixo:

Teorema: O conjunto \(\{v_1, v_2, \ldots, v_n \}\) é linarmente dependente se, e somente se, um, ou mais, dos vetores é combinação linear dos demais.

Demonstração: \(\Rightarrow)\) Supondo \(\{v_1, v_2, \ldots, v_n \}\) l.d. temos que a expressão (*) pode ser obtida com algum dos coeficientes não nulos. Tome \(a_j \neq 0\). Neste caso
$$ – a_j v_j = a_1 v_1 + \ldots + a_n v_n \Rightarrow v_j =-\frac{a_1}{a_j} v_1 – \ldots – \frac{a_n}{a_j} v_n, $$
o que mostra que \(v_j\) é uma combinação linear dos demais.

\( \Leftarrow)\) Por outro lado, se \(v_j\) é uma combinação linear dos demais, podemos escrever
$$ v_j = b_1 v_1 + \ldots + b_n v_n \Rightarrow b_1 v_1 + \ldots – v_j + \ldots + b_n v_n = 0, $$
que é uma combinação linear nula dos vetores com \(b_j = – 1\), portanto não nulo. Dai se conclui que \(\{v_1, v_2, \ldots, v_n \}\) é l.d..

Resumindo estes resultados, dizemos o conjunto \(\{v_i \}\) é l.i. se nenhum de seus vetores é uma combinação linear dos demais.

Exemplo: Se \(V =\mathbb{R}^3, \overrightarrow{v_1}\), \(\overrightarrow{v_2} \in V\). Então \(\{ \overrightarrow{v_1} \text{, } \overrightarrow{v_2} \}\) é l.d. \(\Leftrightarrow \overrightarrow{v_1} = \alpha \overrightarrow{v_2}\), onde \(\alpha\) é um escalar. Iso significa que dois vetores do espaço só podem ser l.d. se forem colineares. Três vetores de \(\mathbb{R}^3\) somente serão l.d. se estiverem sobre o mesmo plano. Quatro ou mais vetores de \(\mathbb{R}^3\) são necessariamente l.d., uma vez que existem apenas três direções independentes no espaço.

Exemplo: Em \(\mathbb{R}^2\) os vetores \(\hat{\imath} = (1, 0)\) e \(\hat{\jmath} = (0, 1)\) são l.i. pois
$$ a \hat{\imath} + b \hat{\jmath} = 0 \Rightarrow (a, b) = 0 \Rightarrow a = 0, b = 0.$$
Igualmente, os vetores \(\hat{\imath} = (1, 0, 0)\), \(\hat{\jmath} = (0, 1, 0)\) e \(\hat{k} = (0, 0, 1)\) em \(\mathbb{R}^3\) são l.i..

Base de um espaço vetorial

Dado \(V\), um espaço vetorial, procuramos por um conjunto mínimo de vetores \(\beta = \{v_1, \ldots, v_n \}\) tal que qualquer um dos vetores de \(V\) seja uma combinação linear dos vetores em \(\beta\). Neste caso temos que \(V = \{a_1 v_1 + \ldots + a_n v_n ; a_i \in \mathbb{R}\}\) ou seja \(V = [v_1, \ldots, v_n]\) (\(V\) é gerado pelos vetores de \(\beta\)).

Definição: Um conjunto \(\beta = \{v_1, \ldots, v_n \}\) é uma base do espaço vetorial \(V\) se:

  1. \(\{v_1, \ldots, v_n \}\) é l.i.,
  2. \(V = [v_1, \ldots, v_n]\).
Base de R³

Exemplo: (\( \hat{\imath}, \hat{\jmath}\) ) é uma base de \(\mathbb{R}^2\). (\( \hat{\imath}, \hat{\jmath}, \hat{k}\) ) é uma base de \(\mathbb{R}^3\). Estas são as chamadas bases canônicas de cada um destes espaços. Deve estar claro que nos dois casos o significado de cada um destes vetores é diferente. Por exemplo, em \(\mathbb{R}^3\), \(\hat{\imath} = (1, 0, 0)\); em \(\mathbb{R}^2\) temos que \(\hat{\imath} = (1, 0)\).

Exemplo: \(\{(1, 1), (0, 1)\}\) é uma base de \(\mathbb{R}^2\). Para mostrar isto devemos verificar as duas condições da definição. (i) O conjunto é l.i. pois a expressão
$$ a (1, 1) + b (0, 1) = 0 $$

só pode ser satisfeita se
$$ (a, a + b) = 0 \Rightarrow a = 0, b = 0. $$

(ii) Além disto o conjunto gera \(\mathbb{R}^2\), pois qualquer vetor \(\vec{v} = (\alpha, \beta) \in \mathbb{R}^2\) pode ser escrito como combinação linear destes vetores
$$
(\alpha, \beta) = a (1, 1) + b (0, 1) \Rightarrow
\left\{ \begin{array}{r} a = \alpha, \\ b = \beta – \alpha. \end{array} \right.
$$

Dizemos também que, nesta base, o vetor \(\vec{v} = (\alpha, \beta)\) tem componentes \(\alpha\) e \(\beta – \alpha\), ou seja
$$ (\alpha, \beta) = \alpha (1, 1) + (\beta – \alpha) (0, 1). $$

Exemplo: \(\{(0, 1), (0, 2)\}\) não é uma base de \(\mathbb{R}^2\) pois os vetores não são l.i. e nem geram o plano.

Exemplo: \(\{(1, 0, 0), (0, 1, 0)\}\) não é uma base de \(\mathbb{R}^3\). Estes vetores são l.i. mas não geram \(\mathbb{R}^3\), ou seja, a condição (ii) não é satisfeita.

Exemplo: O conjunto de matrizes
$$
\left\{
\left[\begin{array}{rr} 1 & 0 \\ 0 & 0\end{array} \right],
\left[\begin{array}{rr} 0 & 1 \\ 0 & 0 \end{array} \right],
\left[\begin{array}{rr} 0 & 0 \\ 1 & 0 \end{array} \right],
\left[\begin{array}{rr} 0 & 0\\ 0 & 1\end{array} \right]
\right\}
$$
é uma base de \(M (2, 2)\).

Exemplo: Considerando \(P_n (t)\) o conjunto dos polinômios em \(t\) de grau menor ou igual a \(n\) temos que o conjunto
$$
\{ 1, t, t^2, \ldots, t^n \}
$$

é uma de suas bases. O conjunto é l.i. e todo elemento do espaço vetorial \(P_n (t)\) é uma combinação linear destes vetores,
$$
u \in P_n (t) \Rightarrow u = a_0 + a_1 t + a_2 t^2 + \ldots + a_n t^n,
$$
onde os termos \(a_i\) são escalares. É importante observar que o vetor \(1\) é o polinômio de grau zero, sem o qual o conjunto acima não geraria \(P_n (t)\).

Observação: Dizemos que o conjunto \(\beta = \{v_1, \ldots, v_n \}\) é linearmente independente (l.i.) ou que os vetores \(v_1, \ldots, v_n\) são linearmente independentes. Igualmente dizemos que o conjunto \(\beta\) gera um espaço, ou que seus vetores, \(v_1, \ldots, v_n\), geram este espaço.

Teorema: Sejam \(V\) um espaço vetorial e \(v_1, \ldots, v_n\) vetores deste espaço. Se o conjunto \(\{v_1, \ldots, v_n \}\) gera este espaço vetorial então é possível extrair deles uma base para \(V\).

Demonstração: Se o conjunto \(\beta = \{v_1, \ldots, v_n \}\) é l.i. então \(\beta\) já é uma base de \(V\). Caso contrário é possível encontrar constantes \(a_i\) tal que \(a_1 v_1 + a_2 v_2 + \ldots + a_n v_n = 0\) com alguma destas constantes não nula. Suponha que \(a_k\) seja uma destas constantes não nula, \(a_k \neq 0\). O vetor \(v_k\) correspondente é
$$ v_k=-\frac{a_1}{a_k} v_1 – \ldots – \frac{a_n}{a_k} v_n,$$
uma combinação linear dos demais. Retiramos este vetor do conjunto e repetimos o processo de verificação até restarem \(r\) (\( r \lt n\)) vetores l.i. que geram \(V\). Estes vetores restantes formam uma base de \(V\).

Observação: Para fixar este conceito note que, no conjunto \(\{v_1, \ldots, v_r, u_1, \ldots, u_{n – r} \}\), se os vetores \(u_k \) forem combinação linear dos vetores \(v_i\) então
$$ [v_1, \ldots, v_r, u_1, \ldots, u_{n – r}] = [v_1, \ldots, v_r]. $$

Resta ainda notar que a escolha dos vetores restantes não é única e, portanto, não existe uma única base para um espaço vetorial.

Teorema: Seja \(V\) o espaço vetorial gerado por \(v_1, v_2, \ldots, v_n\). Então, qualquer conjunto com mais de \(n\) vetores de \(V\) é l.d..

Demonstração: Suponha que existam \(r\) vetores l.i. em entre os vetores \(v_1, v_2, \ldots, v_n\). Então temos que \(V = [v_1, v_2, \ldots, v_r], r \leq n\), onde os vetores podem ter sido renomeados de modo a tornar os \(r\) primeiros vetores l.i.. Tome um conjunto com \(m\) elementos \(\{w_1, w_2, \ldots, w_m; \;\; w_i \in V\}\), cada um deles uma combinação linear dos vetores da base,
$$ w_k \in V \Rightarrow w_k = \sum_{i = 1}^r a_{k i} v_i . $$

Para testar a independência linear (ou não) destes vetores fazemos, como de costume,
$$ 0 = \sum_{k = 1}^m x_k w_k = \sum_{k = 1}^m x_k \left( \sum_{i=1}^r a_{k i} v_i \right) = $$

$$ = \sum_{k = 1}^m \sum_{i = 1}^r x_k a_{k i} v_i = \sum_{i = 1}^r \left(\sum_{k = 1}^m x_k a_{k i} \right) v_i = 0,$$

e procuramos descobrir se existem soluções onde os coeficientes \(x_k\) sejam não nulos. Se existirem, estes vetores são l.d.. Na primeira linha os vetores \(w_k\) foram substituídos por sua decomposição na base \(\beta\). Na segunda os somatórios foram realizados em ordem invertida, o que é possível uma vez que estamos lidando com somas finitas. Retomando, como na última expressão os vetores \(v_i\) são l.i., decorre que os termos entre parênteses devem ser nulo para cada \(i =1, \ldots, r\),
$$ \sum_{k = 1}^m x_k a_{k i} = 0, $$
o que representa \(r\) equações com \(m\) incógnitas \(x_k\) onde \(r \leq n \lt m\) (um número de incógnitas maior que o número de equações no sistema linear). Logo existem soluções não triviais para o sistema, \(x_k \neq 0\) para algum \(k\), de onde concluimos que conjunto \(\{w_k\}\) de \(m\) vetores é l.d..

Definição: A dimensão de um espaço vetorial \(V\), que denotaremos por \(\dim V\), é igual ao número de vetores de uma de suas bases.

Exemplo: \(\dim \mathbb{R}^3 = 3, \dim \mathbb{R}^n = n\). Em \(\mathbb{R}^n\) a base formada pelos \(n\) vetores \(\{\hat{\text{e}}_i\}\) dados por
$$
\hat{\text{e}}_1 = (1, 0, \ldots, 0), \hat{\text{e}}_2 = (0, 1, \ldots, 0), \hat{\text{e}}_n = (0, 0, \ldots, 1),
$$
é denominada base canônica. Esta é uma base ortonormal, ou seja, todos os vetores são perpendicalares entre si (ortogonais) e todos são unitários ou normalizados, possuem módulo igual a 1. Em outros termos,
vale o produto interno ou escalar $$
\hat{\text{e}}_i \cdot \hat{\text{e}}_j = \delta_{i j.}
$$

Exemplo: \(\dim M (2, 2) = 4, \dim M (m, n) = m \times n\).

Exemplo: \(\dim P_n (t) = n + 1\).

Consulte os exemplos dados anteriormente para confirmar estas afirmações.

Teorema: Se \(V\) é um espaço vetorial, qualquer conjunto \(\beta = \{v_1, \ldots, v_r;\;\; v_i \in V\}\), de vetores l.i., pode ser completado para formar uma base de \(V\).

Demonstração: Se \([v_1, \ldots, v_r] = V\) então \(\beta\) já é uma base de \(V\). Caso contrário procuramos um vetor \(v_{r + 1} \not\in [v_1, \ldots, v_r]\) e reiniciamos o procedimento de verificação até que tenhamos \(n\) vetores l.i. de forma que \([v_1, \ldots, v_n] = V\).

Corolário: Se a dimensão de um espaço vetorial \(V\) é \(\dim V = n\), então qualquer conjunto de \(n\) vetores l.i. deste espaço é uma base de \(V\).

Teorema: Se \(U\) e \(W\) são dois subespaços vetoriais do espaço vetorial \(V\), de dimensão finita, então \(\dim U \leq \dim V, \;\; \dim W \leq \dim V\). Além disto
$$\dim (U + W) = \dim U + \dim W – \dim (U \cap W).$$

Demonstração: A demonstração é deixada como um exercício.

Teorema: Dada uma base \(\beta\) do espaço vetorial \(V\), então cada vetor \(v \in V\) é escrito de maneira única como combinação linear dos vetores desta base.

Demonstração: Se \(\beta = \{v_1, \ldots, v_n \}\) é esta base e \(v\) um vetor deste espaço, então
$$ v = a_1 v_1 + \ldots + a_n v_n = \sum a_i v_i, $$
pois \(V = [v_1, \ldots, v_n]\). Suponha que seja possível escrever de outra forma esta mesma combinação linear, \(v = \sum b_i v_i\). Neste caso
$$ 0 = v – v = \sum a_i v_i – \sum b_i v_i = \sum (a_i – b_i) v_i .$$
Como \(\beta\) é um conjunto de vetores l.i. se conclui que \(a_i = b_i\), para \(i = 1, \ldots, n\).

Definição: Dada uma base \(\beta = \{v_1, \ldots, v_n \}\) do espaço vetorial \(V\), os coeficientes \(a_i\) da expansão \(v = a_1 v_1 + \ldots + a_n v_n = \sum a_i v_i\) são chamados de coordenadas do vetor \(v\) na base \(\beta\). Usaremos a seguinte notação:
$$
[v]_{\beta} = \left[ \begin{array}{r}
a_1\\
a_2\\
\cdots\\
a_n
\end{array} \right].
$$

Exemplo: Seja \(V =\mathbb{R}^2\), \(\beta = \{(1, 0), (0, 1)\}\) e \(\beta’ = \{(1, 1), (0, 1)\}\) duas de suas bases. O vetor \(\vec{v} = (4, 3)\) é
escrito, na base canônica, como
$$ \left[\vec{v}\right]_{\beta} = \left[ \begin{array}{r} 4 \\ 3 \end{array} \right].$$

Na base \(\beta’\) temos \((4, 3) = a (1, 1) + b (0, 1) = 4 (1, 1) + (- 1) (0, 1)\). Portanto
$$ [\vec{v}]_{\beta’} = \left[ \begin{array}{r} 4\\ – 1 \end{array} \right]. $$

3. Espaços Vetoriais

Na tentativa de descrever rigorosamente os objetos e fenômenos da natureza alguns deles podem ser descritos com um número simples, um escalar, enquanto outros necessitam de uma complexidade adicional, sendo descritos por meio de vetores. Existem ainda objetos de maior comlexidade, os tensores que não são objetos de tratamento deste texto. Vale apenas mencionar que vetores são casos especiais de tensores, enquanto escalares são casos especiais de vetores.

Faremos uma breve revisão de vetores do plano (que denotaremos por \(\mathbb{R}^2\) ) e do espaço (que denotaremos por \(\mathbb{R}^3\) ).

Exemplo: Deslocamentos no espaço são exemplos típicos de vetores. Suponha que uma partícula se desloca do ponto \((1, 2, 1)\) até o ponto \((3, 3, 3)\) . O deslocamento é um vetor
$$
\vec{d} = (3, 3, 3) – (1, 2, 1) = (2, 1, 2) .
$$

Como veremos também as posições inicial e final, que são pontos de \(\mathbb{R}^3\) , são vetores. Representaremos os vetores por uma seta superscrita, como em \(\vec{d}\) , ou em negrito, como \(\mathbb{d}\) , dependendo da conveniência da notação em cada situação.

Exemplo: Podemos descrever a temperatura de pontos em uma sala por meio de um escalar, \(T (x, y, z)\) . A temperatura varia com o ponto onde é avaliada mas, escolhido o ponto, ela pode ser inteiramente dada por meio de um único número. Este é um exemplo de um campo escalar.

Outros exemplos de vetores na física e na matemática são: força, momento, velocidade, vetores tangentes à uma curva, normais a superfícies. Temperatura, intervalos de tempo, comprimentos e número de indivíduos em uma população são exemplos de quantidades escalares.

Definição: Um vetor de \(\mathbb{R}^2\) (do plano) é uma dupla ordenada que pode ser representada por uma matriz linha ou coluna,
$$
\vec{u} = (a, b) \;\; \text{ou} \;\; \vec{v} = \left[ \begin{array}{l} a\\ b\end{array} \right] .
$$

Um vetor do espaço, \(\mathbb{R}^3\) , é uma tripla ordenada que pode ser representada igualmente das duas maneiras acima. Não existe nenhuma razão para nos limitarmos a três dimensões e o formalismo matemático para isto não acrescenta grandes dificuldades adicionais.

Definição: Um vetor de \(\mathbb{R}^n\) é uma \(n\)-upla ordenada que pode ser representada por uma matriz linha ou coluna,
$$
\vec{u} = (x_1, x_2, \ldots, x_n) \text{ou} \vec{v} = \left[
\begin{array}{l}
x_1\\
x_2\\
\vdots\\
x_n
\end{array} \right] .
$$

Observe que existe uma correspondência biunívoca entre pontos e vetores de \(\mathbb{R}^n\) e por isto identificamos os dois conceitos.

Figura
Alguns exemplos de uso do \(\mathbb{R}^n\) .

  • A posição de uma partícula pode ser completamente dada por meio de suas coordenadas cartesianas, \(\vec{r} = (x, y, z)\) . Se esta partícula se move cada um das coordenadas é uma função do tempo, \(\vec{r} (t) = (x (t), y (t), z (t))\) e sua velocidade é a derivada primeira deste vetor em relação ao tempo, \(\vec{v} (t) = (\dot{x} (t), \dot{y} (t), \dot{z} (t))\) onde o ponto sobrescrito representa derivação em relação à variável livre, \(t\) . Todos estes são vetores de \(\mathbb{R}^{3.}\)
  • A posição de uma barra fina no espaço pode ser dada por meio das coordenadas cartesianas de cada uma de suas pontas, \(A = (a_1, a_2,
    a_3), B = (b_1, b_2, b_3)\) . A posição da barra pode ser descrita pelo vetor \(X = (a_1, a_2, a_3, b_1, b_2, b_3),\) um vetor do \(\mathbb{R}^6\) .
  • A posição de \(n\) partículas no espaço pode ser dada por meio de \(3 n\) coordenadas, \(\vec{X} = (x_{11}, x_{12}, x_{13}, \ldots, x_{n 1}, x_{n 2}, x_{n 3})\) , um vetor do \(\mathbb{R}^{3 n}\) . Aqui foi adotada a convenção: \(x_{k 1}\) é a coordenada \(x\) da \(k\)-ésima partícula, e assim por adiante. Em muitas situações é necessário descrever os momentos das partículas, além de suas posições. O chamado espaço de fase é um espaço de \(6 n\) dimensões, \(\mathbb{R}^{6 n}\) , onde cada ponto contém a informação sobre a posição e o momento de todas as partículas do sistema.

Operações entre vetores

As seguintes operações podem ser definidas com vetores e entre vetores.

  1. Multiplicação por escalar: Se \(\alpha \in \mathbb{R}\) e \(\vec{v} \in \mathbb{R}^3 \) definimos a multiplicação por escalar
    $$ \alpha \vec{v} = \alpha (x_1, x_2, x_3) = (\alpha x_1, \alpha x_2, \alpha x_3). $$

    Para um vetor \(\vec{v} \in \mathbb{R}^3 \)definimos
    $$ \alpha \vec{v} = \alpha (x_1, x_2, \ldots, x_n) = (\alpha x_1, \alpha x_2, \ldots, \alpha x_n) . $$

    O resultado é um vetor.

  2. Soma de vetores: Se \(\vec{u}, \vec{v} \in \mathbb{R}^3,\;\; \vec{u} =(u_1, u_2, u_3),\;\; \vec{v} = (v_1, v_2, v_3)\), definimos a soma de dois vetores por
    $$ \vec{u} + \vec{v} = (u_1, u_2, u_3) + (v_1, v_2, v_3) = (u_1 + v_1, u_2 + v_2, u_3 + v_3) .$$

    Se \(\vec{u}, \vec{v} \in \mathbb{R}^n, \vec{u} = (u_1, u_2, \ldots, u_n), \vec{v} = (v_1, v_2, \ldots, v_n)\)
    $$ \vec{u} + \vec{v} = (u_1, u_2, \ldots, u_n) + (v_1, v_2, \ldots, v_n) = (u_1 + v_1, u_2 + v_2, \ldots, u_n + v_n) .$$

    O resultado é um vetor.

  3. Produto escalar: Se \(\vec{u}, \vec{v} \in \mathbb{R}^3, \vec{u} = (u_1, u_2, u_3), \vec{v} = (v_1, v_2, v_3)\) definimos o produto escalar entre eles como
    $$ \vec{u} \cdot \vec{v} = (u_1, u_2, u_3) \cdot (v_1, v_2, v_3) = u_1 v_1 + u_2 v_2 + u_3 v_3 .$$

    Se \(\vec{u}, \vec{v} \in \mathbb{R}^n, \vec{u} = (u_1, u_2, \ldots, u_n), \vec{v} = (v_1, v_2, \ldots, v_n)\) o produto escalar entre eles é
    $$ \vec{u} \cdot \vec{v} = (u_1, u_2, \ldots, u_n) \cdot (v_1, v_2, \ldots, v_n) = u_1 v_1 + u_2 v_2 + \ldots + u_n v_n = \sum_{i = 1}^n u_i v_i.$$

    O produto escalar entre dois vetores é um escalar.

    imagem soma de vetores e u-u=0

    É útil, nesse ponto, discutir algumas propriedades do produto escalar:

    • em termos matriciais, podemos escrever
      $$
      \vec{u} \cdot \vec{v} = (u_1, u_2, \ldots, u_n) \left[
      \begin{array}{l}
      v_1\\
      v_2\\
      \vdots\\
      v_n
      \end{array} \right] = \sum_{i = 1}^n u_i v_i .
      $$

    • se \(\theta\) é o ângulo entre \(\vec{u}\) e \(\vec{v}\) então
      $$\vec{u} \cdot \vec{v} = \left| \vec{u} \right| \left| \vec{v} \right| \cos \theta, $$
      onde \(\left| \vec{u} \right| = \sqrt{u_1^2 + \ldots + u_n^2 } = \sqrt{\sum u_i^2 }\) é o módulo (o comprimento) do vetor. Observe ainda que, com estas definições
      $$ \left| \vec{u} \right| = \sqrt{\vec{u} \cdot \vec{u} } .
      $$

Os vetores do \(\mathbb{R}^n\) , dotados das operações descritas, satisfazem as seguintes propriedades:

  1. \((\vec{u} + \vec{v}) + \vec{w} = \vec{u} + (\vec{v} + \vec{w})\) , (a adição é associativa);
  2. \(\vec{u} + \vec{v} = \vec{v} + \vec{u},\) (a adição é comutativa);
  3. \(\exists \vec{0} \in \mathbb{R}^n\) tal que \(\vec{u} + \vec{0} = \vec{u}\) , (existência do elemento neutro da adição);
  4. \(\exists – \vec{v} \in \mathbb{R}^n\) tal que \(\vec{v} + (- \vec{v}) = \vec{0}, \forall \vec{v}\) , (existência do elemento inverso da adição);
  5. \(\alpha (\vec{u} + \vec{v}) = \alpha \vec{u} + \alpha \vec{v}\) ;
  6. \((\alpha + \beta) \vec{v} = \alpha \vec{v} + \beta \vec{v}\) ;
  7. \((\alpha \beta) \vec{v} = \alpha (\beta \vec{v})\) ;
  8. \(1 \vec{v} = \vec{v}\) ;

Muitos outros conjuntos partilham destas mesmas propriedades, o que motiva a definição de espaço vetorial, dada a seguir.

Espaços vetoriais

Definição: Um conjunto \(V\) não vazio, dotado de duas operações: soma, \(V \times V \rightarrow V\) , e multiplicação por escalar, \(\mathbb{R} \times V \rightarrow V\) , satisfazendo as condições acima (de i até viii) é denominado um espaço vetorial.

Vamos apresentar uma definição posta em outros termos, buscando clarificar este conceito:

Definição: Um espaço vetorial é um conjunto \(V \neq \emptyset\), dotado de duas operações \(\oplus\) e \(\odot\) , satisfazendo as seguintes propriedades:

  1. Se \(u,\, v \in V\) então \(u \oplus v \in V\) , (\( V\) é fechado sob a operação \(\oplus\));
    • \(u \oplus v = v \oplus u \forall u, v \in V,\;\; V\) é comutativo em relação à operação \(\oplus\) );
    • \(u \oplus (v \oplus w) = (v \oplus u) \oplus w, \forall u, v, w \in V\) , (associatividade);
    • Existe um único elemento \(0 \in V\) tal que \(0 \oplus u = u \oplus 0 = u, \forall u \in V\) ;
    • Para cada \(\forall u \in V\) existe um único elemento \( – u \in V\) tal que \(u \oplus (- u) = 0\) ;
  2. Se \(u \in V\) e \(\alpha \in \mathbb{R}\) então \(\alpha \odot v \in V\) ;
    • \(\alpha \odot (u \oplus v) = \alpha \odot v \oplus \alpha \odot u\) ;
    • \((\alpha + \beta) \odot u = \alpha \odot u + \beta \odot u\) ;
    • \(\alpha \odot (\beta \odot u) = (\alpha \beta) \odot u\) ;
    • \(1 \odot u = u\) .

Observe que o primeiro grupo de propriedades se refere à operação \(\oplus\) enquanto o segundo se refere à operação \(\odot\) . No caso de \(V =\mathbb{R}^n\) a operação \(\oplus\) se refere à adição de vetores, enquanto a operação \(\odot\) se refere à multiplicação por um escalar. Para outros exemplos de espaços vetoriais estas operações podem ser totalmente diferentes destas, como veremos. No presente texto consideraremos em quase todos os casos que a multiplicação por escalar é feita com um número real mas ela pode, igualmente, ser realizada com complexos. Os elementos de \(V\) são chamados de vetores e nem sempre são designados por meio de setas sobrescritas ou letras em negrito, como é costume fazer para os vetores de \(\mathbb{R}^3\) . Estes vetores, algumas vezes, guardam semelhança muito remota com os familiares vetores de deslocamento no plano ou no espaço.

Exemplo: \(V =\mathbb{R}^n\) é um espaço vetorial. Embora isto seja verdadeiro por definição, uma vez que as propriedades satisfeitas por estes espaços tenham sido exatamente motivadas pelas propriedades de \(\mathbb{R}^n\) , vamos mostrar isto como um exercício.

\( V =\mathbb{R}^n = \{(x_1, x_2, \ldots, x_n) ; x_i \in \mathbb{R}\}\).
Tome \(u, v \in V, u = (x_1, x_2, \ldots, x_n) \) e \(v = (y_1, y_2, \ldots, y_n)\) .
Então
$$
u + v = (x_1, x_2, \ldots, x_n) + (y_1, y_2, \ldots, y_n) = (x_1 + y_1, x_2
+ y_2, \ldots, x_n + y_n) \in V,
$$

o que verifica a propriedade (i). O elemento neutro da soma e o inverso são, respectivamente
$$
0 = (0, 0, \ldots, 0),\;\; u = (- x_1, – x_2, \ldots, – x_n) .
$$

Se \(\alpha\) é um escalar então
$$
\alpha u = \alpha (x_1, x_2, \ldots, x_n) = (\alpha x_1, \alpha x_2, \ldots, \alpha x_n) \in V,
$$

o que mostra a propriedade (ii). As demais subpropriedades não mostradas aqui serão deixadas como exercícios.

Exemplo: Denote por \(M(2,2)\) o espaço das matrizes \(2 \times 2\) , sendo \(\oplus\) a soma de matrizes e \(\odot\) a multiplicação de uma matriz por um escalar,
$$
V = M (2, 2) = \left\{ \left[ \begin{array}{ll}
a & b\\
c & d
\end{array} \right];\;\; a, b, c, d \in \mathbb{R} \right\} \text{.}
$$

Dois vetores deste espaço são
$$
u = \left[ \begin{array}{ll}
a & b\\
c & d
\end{array} \right];\;\; v = \left[ \begin{array}{ll}
e & f\\
g & h
\end{array} \right] .
$$

A soma destes vetores é um novo elemento de \(V\) ,
$$
u + v = \left[ \begin{array}{ll}
a & b\\
c & d
\end{array} \right] + \left[ \begin{array}{ll}
e & f\\
g & h
\end{array} \right] = \left[ \begin{array}{ll}
a + e & b + f\\
c + g & d + h
\end{array} \right] \in V,
$$

e, se \(\alpha\) é um escalar, então
$$
\alpha u = \alpha \left[ \begin{array}{ll}
a & b\\
c & d
\end{array} \right] = \left[ \begin{array}{ll}
\alpha a & \alpha b\\
\alpha c & \alpha d
\end{array} \right] \in V,
$$

o que mostra que as propriedades (i) e (ii) são satisfeitas. O vetor nulo e o oposto de u são, respectivamente,
$$
\tilde{0} = \left[ \begin{array}{ll}
0 & 0\\
0 & 0
\end{array} \right], \;\;\; – u = \left[ \begin{array}{ll}
– a & – b\\
– c & – d
\end{array} \right] .
$$

Pelo mesmo procedimento se pode mostrar que \(M (m, n)\) , o espaço das matrizes \(m \times n\) , é um espaço vetorial.

Exemplo: Considere \(P_n\) o conjunto dos polinômios de grau menor ou igual a \(n, \oplus\) a soma de polinômios e \(\odot\) a multiplicação de um polinômio por um escalar. Então
$$ V = P_n = \{ a_0 + a_1 x + \ldots + a_n x^n ;\;\; a_i \in \mathbb{R} \} $$

é um espaço vetorial. Para ver isto tomamos dois elementos de \(P_n\) ,
$$
u = a_0 + a_1 x + \ldots + a_n x^n ; v = b_0 + b_1 x + \ldots + b_n x^n
$$

e encontramos sua soma
$$ u + v = (a_0 + a_1 x + \ldots + a_n x^n) + (b_0 + b_1 x + \ldots + b_n x^n) = $$
$$ (a_0 + b_0) + (a_1 + b_1) x + \ldots + (a_n + b_n) x^n $$

que é, também um elemento de \(P_n\) . A multiplicação de um polinômio por um escalar é
$$ \alpha u = \alpha (a_0 + a_1 x + \ldots + a_n x^n) = (\alpha a_0 + \alpha a_1 x + \ldots + \alpha a_n x^n) $$

que, novamente, é um elemento de \(P_n\) . O elemento nulo da soma é 0 (o polinômio com todos os \(a_i = 0\)) e o elemento oposto à \(u\)   é   \(– u = – a_0 – a_1 x – \ldots – a_n x^n\).

Para que um conjunto, escolhidas as duas operações particulares, seja um espaço vetorial é necessário que satisfaça todas as condições listadas na definição. Esta é uma característica especial, não satisfeita por grande número de conjuntos. Com frequência o espaço que se deseja testar é subconjunto de um conjunto previamente conhecido como sendo um espaço vetorial. Isto nos leva à consideração dos subespaços vetoriais.

Subespaços Vetoriais

Observe que uma reta de \(\mathbb{R}^2\) passando pela origem é um espaço vetorial. Denotando por \(W\) esta reta $$
W = \{ \vec{v} \in \mathbb{R}^2 ; \vec{v} = \alpha \vec{u} \}
$$
e notando que esta é a reta composta por todos os vetores do plano na direção de \(\vec{u}\) (dizemos que ela é gerada por \(\vec{u}\) ), verificamos que se \(\vec{v}\) , \(\vec{w} \in W\) então \(\vec{v} + \vec{w} \in W\) e \(a \vec{v} \in W\) , onde \(a\) é um escalar qualquer.

No entanto, se \(W’\) for outra reta qualquer que não passe pela origem este não seria um espaço vetorial. Para concluir isto basta notar que, se \(\vec{v} \in W’\) , \(\vec{v} – \vec{v} = \vec{0}\) , que não está em \(W’\) .

Definição: Dado um espaço vetorial \(V\) , um subconjunto não vazio \(W\) de \(V\) é um subespaço vetorial de \(V\) se

  1. Se \(u, v \in W \Rightarrow u + v \in W\) ,
  2. Se \(u \in W\) e \(\alpha \in \mathbb{R} \Rightarrow \alpha u \in
    W\) .

Resumidamente um subespaço vetorial é um subconjunto de um espaço vetorial que é, também, um espaço vetorial. As subpropriedades da definição de espaço vetorial estão garantidas pelo fato de ser \(V\) um espaço vetorial. Basta, portanto, testar as propriedades (i) e (ii). Vale observar que

  • todo subespaço vetorial \(W\) deve conter o vetor nulo (o elemento neutro da soma) pois, se \(v \in W\) , então \(v – v = 0\) também deve estar em \(W\) ;
  • todo espaço vetorial \(V\) admite pelo menos dois subespaços vetoriais: \(\{ 0 \}\) e \(V\) . Estes são os chamados subespaços vetoriais triviais.

Exemplo: Se \(V =\mathbb{R}^3\) então \(W \subset V\) , onde \(W\) é um plano qualquer passando pela origem, é um subespaço vetorial de \(V\) .

imagem

Exemplo: Tome \(V =\mathbb{R}^5\) e \(W = \{ (0, x_2, x_3, x_4, x_5) ; \;\; x_i \in \mathbb{R} \}\) . Então \(W \subset V\) e

  1. \(u = (0, x_2, x_3, x_4, x_5), v = (0, y_2, y_3, y_4, y_5), u, v \in W\) então \(u + v = (0, x_2 + y_2, x_3 + y_3, x_4 + y_4, x_5 + y_5) \in W\) ;
  2. Se \(k \in \mathbb{R}\) então \(k u = (0, k x_2, k x_3, k x_4, k x_5) \in W\) .

Logo \(W\) é subespaço vetorial de \(V\) .

Exemplo: Se \(V = M (m, n)\) e \(W\) o conjunto das matrizes triangulares superiores (onde apenas elementos acima da diagonal principal são não nulos) então \(W\) é subespaço vetorial de \(V\) .

Exemplo: Sejam \(V = M (n, n)\) e \(W\) o subconjunto das matrizes \(n \times n\) com \(a_{11} \lt 0\) . Então \(W\) não é um subconjunto vetorial de \(V\).

Exemplo: Um sistema de equações lineares homogêneo é um sistema com a matriz dos termos constantes nula, na forma de \(A \vec{X} = 0\) . Considere, por exemplo, o seguinte sistema homogêneo
$$
\begin{array}{l}
2 x + 4 y + z = 0\\
x + y + 2 z = 0\\
x + 3 y – z = 0
\end{array}
$$
ou, em termos matriciais,
$$
\left[ \begin{array}{lll} 2 & 4 & 1 \\ 1 & 1 & 2\\ 1 & 3 & – 1\end{array} \right]
\left[ \begin{array}{l} x \\ y\\ z \end{array} \right] = 0.
$$

O conjunto de todas as soluções deste sistema, \(W\) , é um subespaço vetorial de \(M (3, 1)\) . Podemos concluir isto mesmo sem resolver explicitamente o sistema. Suponha que \(\vec{X}_1\) e \(\overrightarrow{X_2} \) sejam soluções, então, \(\vec{X}_1 + \overrightarrow{X_2} \in W\) pois
$$
A (\vec{X}_1 + \overrightarrow{X_2}) = A \vec{X}_1 + A \overrightarrow{X_2} = 0
$$
pois cada um dos dois vetores são solução do sistema. Além disto, para \(\alpha\) um escalar qualquer, \(\alpha \vec{X}_1 \in W\) pois
$$
A (\alpha \vec{X}_1) = \alpha A \vec{X}_1 = 0.
$$

A exata relação entre estes espaços será objeto de nosso estudo em breve.

Algumas considerações adicionais sobre sistemas lineares homogêneos serão úteis. Podemos identificar \(M (1, 3)\) com o espaço \(\mathbb{R}^3\) . Cada uma das equações do sistema acima descreve os pontos de um plano no espaço. \(W\) , a solução deste sistema, é a interseção entre estes três planos, se esta interseção existir. Para que \(W\) seja um espaço vetorial é necessário que esta interseção contenha a origem, ou seja, o ponto \((0, 0, 0)\) . O conjunto de soluções de um sistema não homogêneo, \(A \vec{X} = \vec{B}\) , com \(\vec{B} \neq 0\) , não é um subespaço vetorial.

Ainda sobre o sistema homogêneo \(A \vec{X} = 0\) , observe que \(\vec{X} = 0\) sempre será uma solução (que chamamos de solução trivial). Se a matriz \(A\) é invertível, multiplicamos à esquerda o sistema por sua inversa $$
A^{- 1} A \vec{X} = 0 \Rightarrow \vec{X} = 0,
$$
ou seja, só existe a solução trivial. Para que exista outra solução, além da trivial, é necessário que \(A\) seja não invertível, isto é, \(\det A = 0\) .

Teorema: Se \(W_1\) e \(W_2\) são subespaços vetoriais de \(V\) então a interseção entre eles, \(W_1 \cap W_2\) , também é subespaço vetorial de \(V\) .

Demonstração: Sabemos que \(W_1 \neq \emptyset\) e \(W_2 \neq \emptyset\) pois ambos são subespaços vetoriais de \(V\). Além disto \(W_1 \cap W_2 \neq \emptyset\) pois ambos contém pelo menos o vetor nulo. Então

  1. Se \(x, y \in W_1 \cap W_2\) temos
    $$
    \left. \begin{array}{l}
    x, y \in W_1 \Rightarrow x + y \in W_1\\
    x, y \in W_2 \Rightarrow x + y \in W_2
    \end{array} \right\} \Rightarrow \text{ } x + y \in W_1 \cap W_2 ;
    $$
  2. Se \(x \in W_1 \cap W_2\) e \(\alpha\) é um escalar, então

$$
\left. \begin{array}{l}
x \in W_1 \Rightarrow \alpha x \in W_1\\
x \in W_2 \Rightarrow \alpha x \in W_2
\end{array} \right\} \Rightarrow \alpha x \in W_1 \cap W_2,
$$
e isto conclui a demonstração.

Exemplo: \(V =\mathbb{R}^3, W_1\) e \(W_2\) são planos do espaço que contém a origem. Então \(W_1 \cap W_2\) é uma reta pela origem ou um plano, caso \(W_1\) e \(W_2\) sejam coincidentes. Em ambos os casos a interseção é um subespaço vetorial de \(V\) .

Exemplo: \(V = M (n, n)\) , \(W_1\) composto pelas matrizes triangulares superiores \((a_{i j} = 0,\) se \(j > i)\) e \(W_2\) matrizes triangulares inferiores \((a_{i j} = 0,\) se \(i > j)\) . A interseção, \(W_1 \cap W_2\) , é o conjunto das matrizes diagonais, \((a_{i j} = 0,\) se \(i \neq j)\) , um subespaço vetorial de \(V\) .

Exemplo: \(V =\mathbb{R}^3\) , \(W_1\) e \(W_2\) retas não coincidentes pela origem. Neste caso a interseção contém apenas a origem, \( W_1 \cap W_2 = \{ 0 \}\) . Observe que, se \(\vec{u} \in W_1\) e \(\vec{v} \in W_2\) , então \(\vec{u} + \vec{v} \not\in W_1 \cap W_2\) , exceto se ambos os vetores forem nulos. Dai se conclui que \(W_1 \cap W_2\) não é um subespaço vetorial de \(V\) .

Imagem

É possível, no entanto, definir a soma de dois subespaços vetoriais, \(W = W_1 + W_2\) , de forma a que \(W\) seja um subespaço vetorial de \(V\) .

Teorema: Sejam \(W_1\) e \(W_2\) dois subespaços vetoriais de \(V\) . Então
$$
W=W_1+W_2=\{\vec{v}\in V;\;\vec{v}=\overrightarrow{w_1}+\overrightarrow{w_2};\;\;\overrightarrow{w_1} \in W_1, \overrightarrow{w_2}\in W_2\}
$$

é um subespaço vetorial de \(V\) .

A demonstração fica como um exercício para o leitor.

Exemplo: Se \(V =\mathbb{R}^3\) , \(W_1\) o eixo \(Ox\) e \(W_2\) o eixo \(Oy\) , então \(W_1 + W_2\) é o plano \(x\,y\) .

Exemplo: Sejam \(W_1\) e \(W_2\) dois subespaços vetoriais de \(M (2, 2)\), dados por
$$
W_1 = \left\{\left[
\begin{array}{ll} a & b\\ 0 & 0 \end{array}
\right];\;\; a, b \in \mathbb{R}
\right\},
W_2 = \left\{\left[
\begin{array}{ll} 0 & 0\\ c & d \end{array}
\right];\;\; c, d \in \mathbb{R}
\right\},
$$

então \(W_1 + W_2 = M (2, 2)\) .

Quando \( W_1 \cap W_2 = \{ \vec{0} \}\) então a soma \(W_1 + W_2\) é chamada de soma direta, denotada em muitos textos por \(W_1 \oplus W_2\) .

Exemplo: \(\mathbb{R}^3 =\mathbb{R} \oplus \mathbb{R} \oplus \mathbb{R}\) .

Álgebra Linear



O que é Álgebra Linear

A álgebra linear1 é o ramo da matemática que estuda os espaços vetoriais, ou espaços lineares, além de funções (ou aplicações, ou transformações) lineares que associam vetores entre dois espaços vetoriais. Espaços vetoriais são uma generalização do espaço \(\mathbb{R}^3\) cotidiano e de senso comum onde vivemos, com dimensões tais como largura, altura e profundidade. Os pontos de \(\mathbb{R}^3\) podem ser associados a vetores, visualizados nos cursos básicos como setas que tem a base na origem, o ponto \((0,\,0,\,0)\), e extremo oposto no ponto em questão. Sob diversos aspectos diferentes é equivalente dizer que o próprio espaço \(\mathbb{R}^3\) é um conjunto de pontos, ou de vetores. Estes vetores e sua álgebra (o conjunto de operações que podem ser realizadas sobre eles) são uma ferramenta importante em diversas áreas da ciência, notadamente na física. Além disto é possível mostrar, como faremos neste texto, que vários outros espaços possuem propriedades semelhantes ao \(\mathbb{R}^3\). Estes espaços, chamados de forma generalizada de espaços vetoriais, podem ser profundamente diferentes dos espaços que consistem de “setas”. Por isto a noção primária de uma seta, assim como a notação usual de uma seta desenhada sobre o nome do vetor, deve ser abandonada.

(1) Muitos dos tópicos descritos aqui são estudados no decorrer do curso. Recomendo uma primeira leitura rápida e um retorno a esta seção, depois que os conceitos forem aprendidos.

Provavelmente o curso de álgebra linear é o curso, dentro das disciplinas da matemática, de maior importância para estudantes e profissionais de diversas áreas fora da própria matemática. Ele é essencial nas engenharias e, particularmente, na ciência da computação. Por outro lado, para alunos de matemática, ele significa a primeira grande incursão no terreno da abstração, onde conceitos bastantes concretos, válidos para os vetores de três dimensões, são aplicados em outros espaços de dimensões arbitrárias e de natureza diversa e muitas vezes surpreendente. Nem sempre é trivial a passagem entre tópicos tais como a solução de sistemas de n equações lineares com m incógnitas para outro como núcleos de transformações lineares, homomorfismos e isomorfismos.

O campo de aplicação da disciplina é muito vasto. A computação gráfica, por exemplo, a manipulação de imagens, rotação, redimensionamento, alteração de cores são operações lienares. Por outro lado, evidentemente nem todos os processos da natureza podem ser descritos por meio de sistemas ou equações lineares. No entanto muitos sistemas e aplicações importantes são lineares, o que por si já justificaria seu estudo. Além disto a matemática envolvida na solução de sistemas não lineares é complicada e ainda está sendo desenvolvida na atualidade. Por isto sua solução passa muitas vezes pela solução de um sistema linear que melhor representa o sistema em estudo. A partir das soluções aproximadas existem métodos para se obter soluções mais próximas do sistema real.

Um bom entendimento da geometria analítica contribui muito para o estudo da álgebra linear. Para aqueles que não tem este entendimento se recomenda uma revisão de alguns tópicos, notadamente dos vetores e suas operações. Em particular considerar a definição de um vetor, soma e subtração, módulo e produto interno e vetorial. Por outro lado, um aluno de matemática com pouca familiaridade com a álgebra linear terá dificuldade em seus cursos posteriores.

História resumida

Leibniz
Leibniz

O conceito de matriz e determinantes, básicos na álgebra linear, surgiu da necessidade de se resolver sistemas de equações lineares com coeficientes constantes. Leibnitz utilizava o determinante já em 1693, enquanto as matrizes foram pimeiramente utilizadas por Lagrange no final dos anos 1700. Lagrange buscava um método para determinar máximos e mínimos de funções com várias variáveis. Para isso ele exigiu que as derivadas parciais de primeira ordem fossem nulas e que uma matriz, construida com as derivadas de segunda ordem obedecesse uma determinada condição. Lagrange, no entanto não mencionou explicitamente a palavra ou conceito de matriz. Em 1772 Laplace discutiu a solução de sistemas lineares associados ao estudo de órbitas planetárias e apresentou seu método de cálculo usando cofatores e “matrizes menores”. Cramer apresentou sua fórmula em 1750, a que hoje chamamos de Regra de Cramer.

Apesar da existência de manuscritos chineses muito antigos mostrando a solução de sistemas de três equações em três incógnitas por “eliminação”, o método de Gauss só foi apresentado em 1800. Este método foi usado inicialmente apenas em aplicações e sua importância teórica ignorada. A introdução definitiva de método de Gauss na matemática se deu com a contribuição de Wilhelm Jordan que aplicou o método de Gauss na solução de problemas associados à medição e representação da superfície terrestre, a geodesia. O método é citado em seu livro Textbook of Geodesy, 1888.

Arthur Cayley

(2) Não consegui verificar se, de fato, Cayley provou o teorema do determinante de produto de matrizes.

Sylvester, em 1848, usou pela primeira vez o termo matriz (uma palavra com origem no latim, significando útero, como sendo a base de onde surgem os números), apresentou a notação moderna para designá-las. A álgebra das matrizes foi elaborada por Arthur Cayley em 1855, em seu estudo de transformações lineares e suas composições. Cayley mostrou que, se duas transformações podem ser representadas pelas matrizes S e P, a transformação composta será representada pela matriz produto ST, desde que este produto seja devidamente definido. Cayley estudos ainda a álgebra dessas composições e, como decorrência, as matriz inversas, e mostrou2 que, dadas as matrizes A e B de dimensões apropriadas o determinate de seu produto é \(\det\,(AB) = \det\,(A)\det\,(B)\).

Progresso e Aplicações Modernas

Os principais passos posteriores estão além do que é descrito neste texto, e são citados aqui muito resumidamente. O estudo das matrizes continuou associado d perto ao das transformações lineares. A definição de espaço vetorial moderna foi introduzido por Peano em 1888. Ele também estudos espaços vetoriais abstratos, por exemplo aqueles constituídos por funções. Grassmann apresentou em 1844 o primeiro produto de vetores não comutativos (onde a ordem dos fatores é relevante no cálculo). Com o desenvolvimento dos computadores houve um ressurgimento no interesse em matrizes, particularmente no cálculo numérico.

A álgebra abstrata representa uma generalização moderna, introduzida na metade do século XX. Tensores, como generalização de vetores, surgiram no final do século XIX. Todo essas ferramentas são amplamente utilizadas na mecânica quântica, relatividade, e estatística, o que contribuiu para que o estudo da álgebra linear se tornasse generalizado para estudantes de ciências exatas. Ela é, ainda, uma importante base para o desenvolvimentos de tópicos teóricos avançados modernos.

2. Determinantes

Dado um sistema de duas equações e duas incógnitas
$$
\left\{ \begin{array}{r}
a_{11} x_1 + a_{12} x_2 = b_1\\
a_{21} x_1 + a_{22} x_2 = b_2
\end{array} \right.
$$

é possível resolvê-lo, por exemplo, por substituição e sua solução será
$$
x_1 = \frac{a_{11} b_1 – a_{12} b_2}{a_{11} a_{22} – a_{12} a_{21}} ; x_2 =
\frac{a_{11} b_2 – a_{21} b_1}{a_{11} a_{22} – a_{12} a_{21}} .
$$

Nas duas frações acima aparece o mesmo denominador, uma expressão que surge em diversos contextos dentro da álgebra linear. Por este motivo ele recebeu um nome e é objeto de estudo pormenorizado.

Definição: O determinante da matriz
$$
A = \left[ \begin{array}{rr}
a_{11} & a_{12}\\
a_{21} & a_{22}
\end{array} \right]
$$

é denotado por qualquer uma das formas abaixo
$$
\det A = \left| A \right| = \left|
\begin{array}{rr}
a_{11} & a_{12} \\
a_{21} & a_{22}
\end{array} \right|
= a_{11} a_{22} – a_{12} a_{21}.
$$

O determinante de uma matriz \(3 \times 3\)
$$
A = \left[ \begin{array}{rrr}
a_{11} & a_{12} & a_{13}\\
a_{21} & a_{22} & a_{23}\\
a_{31} & a_{32} & a_{33}
\end{array} \right].
$$
é definido como
$$
\det A = a_{11} a_{22} a_{33} + a_{13} a_{21} a_{32} + a_{12} a_{23} a_{31}
– a_{11} a_{23} a_{32} – a_{12} a_{21} a_{33} – a_{13} a_{22} a_{31}.
$$

Exemplo: O determinante da matriz
$$
A = \left[ \begin{array}{rrr}
1 & 4 & 7\\
2 & 5 & 8\\
3 & 6 & 9
\end{array} \right].
$$
é
$$
\left| \begin{array}{rrr}
1 & 4 & 7\\
2 & 5 & 8\\
3 & 6 & 9
\end{array} \right| = 1.5.9 + 2.6.7 + 4.8.3 – 3.5.7 – 6.8.1 – 2.4.9 = 0.
$$

O cálculo de determinantes de matrizes de dimensões maiores diretamente pode ficar longo e tedioso. No entanto algumas propriedades simplificam esta operação. Antes de mostrarmos estas propriedades e até mesmo antes de descrever uma definição mais geral do determinante é útil apresentar algumas definições.

Definição: Dada uma fila de elementos (ou seja, um conjunto de elementos ordenados, por exemplo por meio de sua posição), uma transposição destes elementos é a troca de posição entre dois deles. Uma permutação é o resultado de uma transformação entre elementos de um conjunto ordenado obtida por meio de um número finito de transposições.

Exemplos: (1 2 3 4) \(\rightarrow\) (3 2 1 4) representa uma transposição dos elementos 3 e 1.

(1 2 3 4) \(\rightarrow\) (3 1 2 4) representa uma permutação obtida por meio da transposição anterior, seguida de nova transposição dos elementos 1 e 2.

\( n\) objetos podem ser permutados de \(n\) ! maneiras diferentes pois, temos \(n\) escolhas para a primeira posição, \(n – 1\) para a segunda, e consecutivamente,
$$
n (n – 1) (n – 2) \ldots 1 = n!
$$

Observe que, para a contagem acima, a permutação identidade, que consiste em deixar a fila inalterada, foi considerada.

Uma permutação é par (ímpar) se envolve um número par (ímpar) de transposições.

Exemplo:
$$
\begin{array}{ccccc}
(1 2 3 4 5) & \rightarrow & (1 2 5 4 3) \rightarrow & (1 5 2 4 3) \\
& & \text{par} & \text{impar} .
\end{array}
$$

Definição: o símbolo totalmente antissimétrico de Levi-Civita é
$$
\,\varepsilon_{i j k} \ldots = \left\{ \begin{array}{rl}
0, & \text{se dos índices está repetido,}\\
1, & \text{se \(i, j, k, \ldots\) aparecem como permutação par de
(1 2 3 \(\ldots\) )},\\
– 1, & \text{se \(i, j, k, \ldots\) aparecem como permutação impar
de (1 2 3 \(\ldots\) ).}
\end{array} \right.
$$

O símbolo pode ter qualquer número de índices, mas nosso propósito será suficiente usar 3 índices.

Exemplos:
$$
\begin{array}{rrr}
\,\varepsilon_{123} = 1, & \,\varepsilon_{231} = 1, & \,\varepsilon_{312} =
1,\\
\,\varepsilon_{132} = – 1, & \,\varepsilon_{213} = 1, & \,\varepsilon_{321} = –
1,\\
\,\varepsilon_{111} = 0, & \,\varepsilon_{112} = 0, & \text{etc} .
\end{array}
$$

De posse destas definições podemos apresentar uma definição para o determinante de uma matriz de qualquer dimensão, desde que seja uma matriz quadrada.

Definição: O determinante de uma matriz \(A_{3 \times 3}, A = \{a_{ij} \}\) é
$$
\det A = \sum^3_{i j k} a_{1 i} a_{2 j} a_{3 k} \,\varepsilon_{i j k} .
$$

O determinante de uma matriz \(A_{n \times n}, A = \{a_{i j} \}\) é
$$
\det A = \sum^n_{i_1 i_2 \ldots i_n} a_{1 i_1} a_{2 i_2} \ldots a_{n
i_n} \,\varepsilon_{i_1 i_2 \ldots i_n} .
$$

Usaremos esta definição, na maioria das vezes, apenas para mostrar resultados gerais sobre o determinante. Na prática, para matrizes com entradas numéricas, usaremos as propriedades para este cálculo. No entanto compreender esta notação é útil e facilita muito o desenvolvimento a seguir.

Exemplo: Para uma matriz \(2 \times 2\) , cujo determinante já escrevemos acima, temos
\begin{eqnarray*}
\left| \begin{array}{rr}
a_{11} & a_{12}\\
a_{21} & a_{22}
\end{array} \right| = \sum_{i, j} a_{1 i} a_{2 j} \,\varepsilon_{i j} = & &
\end{eqnarray*}
$$
= a_{11} a_{21} \,\varepsilon_{11} + a_{11} a_{22} \,\varepsilon_{12} + a_{12}
a_{21} \,\varepsilon_{21} + a_{12} a_{22} \,\varepsilon_{12}, = a_{11} a_{22} –
a_{12} a_{21},
$$

pois \(\,\varepsilon_{12} = 1 ;\; \,\varepsilon_{21} = – 1 ;\; \,\varepsilon_{11} = \,\varepsilon_{22} = 0\) . Este é, naturalmente, a mesma expressão já listada. O símbolo de Levi-Civita é utilizado aqui apenas para indicar um sinal e o cancelamento de termos incluem entradas de mesma linha ou mesma coluna da matriz. Para efeito de adquirir maior familiaridade com este formalismo vamos ainda listar o determinante de matrizes \(3 \times 3\) .

Exemplo:
\begin{eqnarray*}
\left| \begin{array}{rrr}
a_{11} & a_{12} & a_{13}\\
a_{21} & a_{22} & a_{23}\\
a_{31} & a_{32} & a_{33}
\end{array} \right| = \sum_{i, j, k} a_{1 i} a_{2 j} a_{3 k} \,\varepsilon_{i
j k} = & &
\end{eqnarray*}
\begin{eqnarray*}
= a_{11} a_{22} a_{33} \,\varepsilon_{123} + a_{11} a_{23} a_{32}
\,\varepsilon_{132} + a_{12} a_{21} a_{33} \,\varepsilon_{213} + & & \\
+ a_{12} a_{23} a_{31} \,\varepsilon_{231} + a_{13} a_{21} a_{32}
\,\varepsilon_{312} + a_{13} a_{22} a_{31} \,\varepsilon_{321} = & &
\end{eqnarray*}
$$
= a_{11} a_{22} a_{33} + a_{12} a_{23} a_{31} + a_{13} a_{21} a_{32} –
a_{11} a_{23} a_{32} – a_{12} a_{21} a_{33} – a_{13} a_{22} a_{31},
$$

novamente, a mesma expressão já definida.

Propriedades do determinante

Na demonstração das propriedades do determinante usaremos apenas matrizes \(3 \times 3\) . A extensão destas demonstrações para matrizes de dimensões maiores é direta e não apresenta maior dificuldade. Denotaremos as matrizes \(A = \{a_{i j} \}\) e \(B = \{b_{i j} \}\) .

(i) Se todos os elementos de uma linha (ou coluna) de uma matriz são nulos, seu determinante é nulo.

Demonstração: Todos os termos do somatório que representa o determinante contém um elemento de todas as linhas (colunas). Se uma delas for nula o determinante é nulo. Alternativamente, se uma das linhas de \(A\) é nula, digamos que seja a primeira linha, \(a_{1 i} = 0\) , então $$
\det A = \sum_{i, j, k} a_{1 i} a_{2 j} a_{3 k} \,\varepsilon_{i j k} = 0.
$$

Como veremos a seguir todas as propriedades válidas para as linhas também valem para as colunas.

(ii) Se \(A’\) é a transposta de \(A\) então \(\det A’ = \det A\) .

Demonstração: Denotando \(A’ = \{a’_{i j} \}\) e lembrando que \(a’_{i j} = a_{j i}\) temos que
\begin{eqnarray*}
& \det A = \sum_{i, j, k} a_{1 i} a_{2 j} a_{3 k} \,\varepsilon_{i j k} =
\sum_{i, j, k} a_{i 1} a_{j 2} a_{k 3} \,\varepsilon_{i j k} = &
\end{eqnarray*}
$$
= \sum_{i, j, k} a’_{1 i} a’_{2 j} a’_{3 k} \,\varepsilon_{i j k} = \det A’.
$$

(iii) Se, em uma matriz, uma linha (coluna) é multiplicada por uma constante o determinante da matriz fica multiplicado por esta constante.

Demonstração: Sem perda de generalidade considere que \(B\) é obtida de \(A\) pela multiplicação de sua primeira linha por uma constante \(k\) . Então \(b_{1 i} = k a_{1 i}\) e
$$
\det B = \sum_{i, j, k} b_{1 i} b_{2 j} b_{3 k} \,\,\varepsilon_{i j k} =
\sum_{i, j, k} k a_{1 i} a_{2 j} a_{3 k}\, \,\varepsilon_{i j k} = k \det A.
$$

(iv) Se, em uma matriz, duas linhas (colunas) são permutadas o determinante da matriz muda de sinal (fica multiplicado por \(– 1\)).

Demonstração: Seja \(B\) a matriz obtida de \(A\) pela permutação das linhas 1 e 2. (O resultado é análogo para qualquer outra escolha de linhas ou colunas). Então \(b_{1 i} = a_{2 i}\) e \(b_{2 i} = a_{2 i}\) e
$$
\det B = \sum_{i, j, k} b_{1 i} b_{2 j} b_{3 k} \,\varepsilon_{i j k} =
\sum_{i, j, k} a_{2 i} a_{1 j} a_{3 k} \,\varepsilon_{i j k} .
$$

Podemos renomear os índices, permutando os índices \(i\) e \(j\) sem alterar o determinante,
$$
\det B = \sum_{i, j, k} a_{1 i} a_{2 j} a_{3 k} \,\varepsilon_{j i k} = – \det A.
$$

Na última igualdade foi usado o fato de que \(\,\varepsilon_{j i k} = – \,\varepsilon_{i j k}\).

(v) Se \(A\) tem duas linhas (colunas) iguais então \(\det A = 0\) .

Demonstração: Devido à propriedade (iv) se \(B\) é obtida de \(A\) por permutação de duas linhas (colunas) então \(\det B = – \det A\) . Se \(A = B\) , pois as duas linhas são iguais, então \(\det A = 0\) .

(vi) Se \(B\) é obtida de \(A\) pela soma de cada elemento de uma linha (coluna) por constantes seu determinante fica alterado da seguinte forma:
$$
\left| \begin{array}{rrr}
a_{11} & \cdots & a_{1 n}\\
\vdots & & \vdots\\
a_{k 1} + b_1 & \cdots & a_{k n} + b_n\\
\vdots & & \vdots\\
a_{n 1} & \cdots & a_{n n}
\end{array} \right| = \left| \begin{array}{rrr}
a_{11} & \cdots & a_{1 n}\\
\vdots & & \vdots\\
a_{k 1} & \cdots & a_{k n}\\
\vdots & & \vdots\\
a_{n 1} & \cdots & a_{n n}
\end{array} \right| + \left| \begin{array}{rrr}
a_{11} & \cdots & a_{1 n}\\
\vdots & & \vdots\\
k_1 & \cdots & k_n\\
\vdots & & \vdots\\
a_{n 1} & \cdots & a_{n n}
\end{array} \right|
$$

Demonstração: Suponha que \(B\) é a matriz obtida de \(A\) pela soma de cada elemento de sua primeira linha com constantes, \(b_{1 i} = a_{1 i} + k_i\) , onde \(k_i (i – 1, \ldots, n)\) são constantes, suas outras linhas permanecendo inalteradas, \(b_{j i} = a_{j i}\) se \(j \neq 1\) . Então

$$
\det B = \sum_{i, j, k} b_{1 i} b_{2 j} b_{3 k} \,\varepsilon_{j i k} = \sum_{i, j, k} (a_{1 i} + k_i) a_{2 j} a_{3 k} \,\varepsilon_{j i k} =
$$
$$
= \sum_{i, j, k} a_{1 i} a_{2 j} a_{3 k} \,\varepsilon_{j i k} + \sum_{i, j,k} k_i a_{2 j} a_{3 k} \,\varepsilon_{j i k},
$$

que é o mesmo resultado mostrado acima. É importante observar que o determinante de uma soma de matrizes não é igual à soma dos determinantes, ou seja
$$
\det (A + B) \neq \det A + \det B.
$$

(vii) O determinante não se altera se somarmos à uma de suas linhas um múltiplo de outra linha. Devido à propriedade (ii) o mesmo vale para colunas da matriz.

Demonstração: Vamos denotar por \(B\) a matriz obtida de \(A\) por meio da operação \(L_1 + k L_2 \rightarrow L_2\) ,ou seja, \(b_{1 j} = a_{1 j} + k a_{2 j}\) . (A demonstração é análoga para quaisquer outras duas linhas ou colunas de \(A.)\) Então

$$
\det B = \sum_{i, j, k} b_{1 i} b_{2 j} b_{3 k} \,\varepsilon_{j i k} = \sum_{i, j, k} (a_{1 i} + k a_{2 i}) a_{2 j} a_{3 k} \,\varepsilon_{j i k} =
$$
$$
= \sum_{i, j, k} a_{1 i} a_{2 j} a_{3 k} \,\varepsilon_{j i k} + k \sum_{i, j, k} a_{2 i} a_{2 j} a_{3 k} \,\varepsilon_{j i k} = \det A.
$$

O último somatório é nulo porque representa o determinante de uma matriz com duas linhas iguais.

Exemplo: Usamos a propriedade (vii) para linhas, colunas (ou ambas) com maior número de entradas nulas. No determinante abaixo fazemos as operações indicadas à esquerda,
$$
L_2 – 2 L_3 \rightarrow L_2 \left| \begin{array}{rrr}
1 & 2 & 3\\
2 & 3 & 2\\
1 & 0 & 1
\end{array} \right| = \left| \begin{array}{rrr}
1 & 2 & 3\\
0 & 3 & 0\\
1 & 0 & 1
\end{array} \right| = 3 – 3 \times 3 = – 6,
$$

ou, indicando a \(i\)-ésima coluna por \(C_i\) :
$$
C_3 – C_1 \rightarrow C_3 \left| \begin{array}{rrr}
1 & 2 & 3\\
2 & 3 & 2\\
1 & 0 & 1
\end{array} \right| = \left| \begin{array}{rrr}
1 & 2 & 2\\
2 & 3 & 0\\
1 & 0 & 0
\end{array} \right| = – 2 \times 3 = – 6.
$$

(viii) O determinante de um produto de matrizes é igual ao produto dos determinantes:
$$
\det (A.B) = \det A . \det B.
$$

Demonstração:

Nota: \((A B)_{i j} = \sum_k a_{i k} b_{k j}\) .

(ix) O desenvolvimento de Laplace é uma propriedade dos determinantes importante e será considerada na seção a seguir.

Desenvolvimento de Laplace

Vimos anteriormente que o determinante de uma matriz \(3 \times 3\) , \(A = \{a_{i j} \}\) , ou seja,
$$
A = \left[ \begin{array}{rrr}
a_{11} & a_{12} & a_{13}\\
a_{21} & a_{22} & a_{23}\\
a_{31} & a_{32} & a_{33}
\end{array} \right].
$$

é definido como
$$
\det A = a_{11} a_{22} a_{33} + a_{13} a_{21} a_{32} + a_{12} a_{23} a_{31}
– a_{11} a_{23} a_{32} – a_{12} a_{21} a_{33} – a_{13} a_{22} a_{31.}
$$

Colocando os elementos da primeira linha em evidência em todos os fatores temos
$$
\det A = a_{11} (a_{22} a_{33} – a_{23} a_{32}) + a_{12} (a_{23} a_{31} –
a_{21} a_{33}) + a_{13} (a_{21} a_{32} – a_{22} a_{31}) =
$$

$$
a_{11} \left| \begin{array}{rr}
a_{22} & a_{23}\\
a_{32} & a_{33}
\end{array} \right| – a_{12} \left| \begin{array}{rr}
a_{21} & a_{23}\\
a_{31} & a_{33}
\end{array} \right| + a_{13} \left| \begin{array}{rr}
a_{21} & a_{21}\\
a_{31} & a_{32}
\end{array} \right| .
$$

O sinal do segundo termo foi invertido para que uma notação mais sintética pudesse ser adotada, da seguinte forma:
$$
\det A = a_{11} \left| A_{11} \right| – a_{12} \left| A_{12} \right|
+ a_{13} \left| A_{13} \right|,
$$

onde \(A_{i j}\) é uma submatriz obtida de \(A\) através da retirada de sua \(i\)-ésima linha e \(j\)-ésima coluna. Uma notação ainda mais compacta e que será útil pode ser conseguida definido-se o cofator do elemento \(a_{i j} \) como o número
$$
\Delta_{ij} = (- 1)^{i + j} \left| A_{i j} \right|.
$$

Desta forma podemos escrever
$$
\det A = a_{11} \Delta_{11} + a_{12} \Delta_{12} + a_{13} \Delta_{13} = \sum_{k = 1}^n a_{1 k} \Delta_{1 k},
$$

que é chamado de desenvolvimento de Laplace ao longo da primeira linha. O mesmo pode ser escrito para qualquer linha (ou coluna),
$$
\det A = \sum_{k = 1}^n a_{i k} \Delta_{i k}, i = 1, \ldots, n,
$$
que é o desenvolvimento de Laplace ao longo da \(i\)-ésima linha.

Esta forma compacta do desenvolvimento de Laplace será usada em demonstrações futuras. Ela também é usada na prática para o cálculo de determinantes, principalmente para matrizes de dimensões maiores que \(3 \times 3\) . Um exemplo pode tornar mais claro este uso.

Exemplo: Vamos obter o determinante da matriz \(A\) abaixo pelo desenvolvimento de Laplace ao longo da segunda coluna:
$$
A = \left[ \begin{array}{rrr}
1 & – 2 & 3\\
2 & 1 & – 1\\
– 2 & – 1 & 2
\end{array} \right].
$$
$$
\det A = + 2 \left| \begin{array}{rr}
2 & – 1\\
– 2 & 2
\end{array} \right| + 1 \left| \begin{array}{rr}
1 & 3\\
– 2 & 2
\end{array} \right| + 1 \left| \begin{array}{rr}
1 & 3\\
2 & – 1
\end{array} \right| = 2 (2) + 1 (8) + 1 (- 7) = 5.
$$

Observe que os sinais dos cofatores são:
$$
(- 1)^{1 + 2} = – 1 ;\quad (- 1)^{2 + 2} = + 1 ;\quad (- 1)^{3 + 2} = – 1.
$$

Em diversas situações o cálculo pode ser muito simplificado de usarmos juntamente com este desenvolvimento as demais propriedades do determinante.

Exemplo: Com a mesma matriz \(A\) acima fazemos primeiro a operação \(L_3 + L_2 \rightarrow L_3\) , que deixa o determinante inalterado,
$$
\det A = \left| \begin{array}{rrr}
1 & – 2 & 3\\
2 & 1 & – 1\\
– 2 & – 1 & 2
\end{array} \right| = \left| \begin{array}{rrr}
1 & – 2 & 3\\
2 & 1 & – 1\\
0 & 0 & 1
\end{array} \right| = (- 1)^{3 + 3} \left| \begin{array}{rr}
1 & – 2\\
2 & 1
\end{array} \right| = 5.
$$

Na penúltima igualdade foi feito o desenvolvimento de Laplace ao longo da terceira linha (escolhida porque contém apenas um elemento não nulo).

Exemplo: Para o cálculo do determinante da matriz \(A_{4 \times 4}\) abaixo usamos as propriedades do determinante para obter uma matriz com um único
termo não nulo, com a operação \(C_1 – 2 C_2 \rightarrow C_1\) ,
$$
\det A = \left| \begin{array}{rrrr}
– 1 & 2 & 3 & – 4\\
4 & 2 & 0 & 0\\
– 1 & 2 & – 3 & 0\\
2 & 5 & 3 & 1
\end{array} \right| = \left| \begin{array}{rrrr}
– 5 & 2 & 3 & – 4\\
0 & 2 & 0 & 0\\
– 5 & 2 & – 3 & 0\\
– 8 & 5 & 3 & 1
\end{array} \right| = – 3.2 \left| \begin{array}{rrrr}
5 & 2 & 1 & – 4\\
0 & 1 & 0 & 0\\
5 & 2 & – 1 & 0\\
8 & 5 & 1 & 1
\end{array} \right| .
$$

Na última igualdade foi colocado em evidência os fatores \(– 1\) da primeira coluna, 3 da terceira coluna, e 2 da segunda linha. Fazemos agora o desenvolvimento de Laplace ao longo da segunda linha e, em seguida, \(C_1 + 5 C_2 \rightarrow C_1 \) para obter
$$
\det A = -6 (-1)^{2 + 2} \left| \begin{array}{rrr}
5 & 1 & – 4\\
5 & – 1 & 0\\
8 & 1 & 1
\end{array} \right| = \left| \begin{array}{rrr}
10 & 1 & – 4\\
0 & – 1 & 0\\
13 & 1 & 1
\end{array} \right| = – 6 (- 1) \left| \begin{array}{rr}
10 & – 4\\
13 & 1
\end{array} \right| = 372.
$$

A última operação foi o desenvolvimento de Laplace ao longo da segunda linha.

Matriz adjunta e matriz inversa

Dada a matriz \(A =\{a_{i j}\}\) já definimos anteriormente o cofator do elemento \(a_{i j} \) como o número
$$
\Delta_{ij} = (- 1)^{i+j} \left| A_{ij} \right|,
$$
onde \(A_{ij}\) é uma submatriz obtida de \(A\) através da retirada de sua \(i\)-ésima linha e \(j\)-ésima coluna. Como existe um cofator para cada um dos \(n \times n\) elementos de \(A\) podemos construir a chamada matriz dos cofatores de \(A\), que denotaremos por \(\bar{A} = \{\Delta_{i j} \}\) , com as mesmas dimensões de \(A\) .

Exemplo: Vamos encontrar a matriz dos cofatores de
$$
A = \left[ \begin{array}{rrr}
2 & 1 & 0\\
– 3 & 1 & 4\\
1 & 6 & 5
\end{array} \right].
$$

Seus cofatores são
$$
\Delta_{11} = (- 1)^{1 + 1} \left| \begin{array}{rr}
1 & 4\\
6 & 5
\end{array} \right| = – 19 ;
$$

$$
\Delta_{12} = (- 1)^{1 + 2} \left| \begin{array}{rr}
– 3 & 1\\
4 & 5
\end{array} \right| = + 19 ;
$$

$$
\Delta_{13} = (- 1)^4 \left| \begin{array}{rr}
– 3 & 1\\
1 & 6
\end{array} \right| = – 19 ;
$$

$$
\begin{array}{rr}
\Delta_{21} = – \left| \begin{array}{rr}
1 & 0\\
6 & 5
\end{array} \right| = – 5 ; & \Delta_{31} = \left| \begin{array}{rr}
1 & 0\\
1 & 4
\end{array} \right| = 4 ;
\end{array}
$$

$$
\begin{array}{rr}
\Delta_{22} = \left| \begin{array}{rr}
2 & 0\\
1 & 5
\end{array} \right| = 10 ; & \Delta_{32} = – \left| \begin{array}{rr}
2 & 0\\
– 3 & 4
\end{array} \right| = – 8 ;
\end{array}
$$

$$
\begin{array}{rr}
\Delta_{23} = – \left| \begin{array}{rr}
2 & 1\\
1 & 6
\end{array} \right| = – 11 ; & \Delta_{33} = \left| \begin{array}{rr}
2 & 1\\
– 3 & 1
\end{array} \right| = 5.
\end{array}
$$

A matriz dos cofatores é, portanto,
$$
\bar{A} = \left[ \begin{array}{rrr}
– 19 & 19 & – 19\\
– 5 & 10 & – 11\\
4 & – 8 & 5
\end{array} \right].
$$

Definição: Dada uma matriz quadrada \(A,\) a matriz adjunta de \(A\) é a matriz transposta da matriz dos cofatores. Denotaremos esta matriz por \(\text{adj} A = \bar{A}’\) .

Exemplo: Continuando com a mesma matriz \(A\) do exercício anterior, sua adjunta é
$$
\text{adj} A = \left[ \begin{array}{rrr}
– 19 & – 5 & 4\\
19 & 10 & – 8\\
– 19 & – 11 & 5
\end{array} \right].
$$

Aproveitando ainda o mesmo exemplo para mostrar uma utilidade da matriz adjunta, observe que o determinante de \(A\) é
$$
\left| \begin{array}{rrr}
2 & 1 & 0 \\
– 3 & 1 & 4 \\
1 & 6 & 5
\end{array} \right| = 2 \Delta_{11} + \Delta_{12} = 2 (- 19) + 19 = – 19,
$$

enquanto o produto de \(A\) por sua adjunta é
$$
A. \text{adj} A = \left[\begin{array}{rrr}2 & 1 & 0\\- 3 & 1 & 4\\1 & 6 & 5 \end{array}\right]
\left[\begin{array}{rrr}- 19 & – 5 & 4\\19 & 10 & – 8\\- 19 & – 11 & 5\end{array}\right]= – 19
\left[\begin{array}{rrr}1 & 0 & 0\\0 & 1 & 0\\ 0 & 0 & 1\end{array}\right] = – 19 \mathbb{I}_3.
$$

Este é um resultado geral e importante, válido para toda matriz \(A_{n \times n}\).

Teorema: Se \(A\) é uma matriz \(n \times n\) então
$$
A. \text{adj} A = (\det A) \mathbb{I}_n .
$$

Demonstração: para matrizes \(3 \times 3\) temos
$$
A. \text{adj} A = \left[ \begin{array}{rrr}
a_{11} & a_{12} & a_{13}\\
a_{21} & a_{22} & a_{23}\\
a_{31} & a_{32} & a_{33}
\end{array} \right]
\left[ \begin{array}{rrr}
\Delta_{11} & \Delta_{21} & \Delta_{31}\\
\Delta_{12} & \Delta_{22} & \Delta_{32}\\
\Delta_{13} & \Delta_{23} & \Delta_{33}
\end{array} \right].
$$

Se denotarmos por \(c_{i j} = A. \text{adj} A_{i j}\) um elemento qualquer deste produto, observamos que
$$
c_{11} = a_{11} \Delta_{11} + a_{12} \Delta_{12} + a_{13} \Delta_{13} = \left| A \right|,
$$

uma vez que este é o desenvolvimento de Laplace para o determinante ao longo da primeira linha. Outro elemento é
$$
c_{12} = a_{11} \Delta_{21} + a_{12} \Delta_{22} + a_{13} \Delta_{23},
$$

que é o desenvolvimento de Laplace para o determinante
$$
c_{12} = \left| \begin{array}{rrr}
a_{11} & a_{12} & a_{13}\\
a_{11} & a_{12} & a_{13}\\
a_{31} & a_{32} & a_{33}
\end{array} \right| = 0,
$$

nulo porque duas linhas da matriz são iguais. Todos os demais elementos admitem igual tratamento e
$$
c_{i j} = (A . \text{adj} A)_{i j} = \left| A \right| \delta_{i j},
$$

significando que todos são nulos exceto os elementos da diagonal principal. Este é o resultado que procuramos mostrar
$$
A . \text{adj} A = \left[ \begin{array}{rrr}
\left| A \right| & 0 & 0\\
0 & \left| A \right| & 0\\
0 & 0 & \left| A \right|
\end{array} \right] = \det A.\mathbb{I}_3 .
$$

O mesmo procedimento pode ser feito para matrizes quadradas de qualquer dimensão.

Denotando \((A \text{adj} A)_{i j} = c_{i j}, \text{adj} A = \{\Delta_{j i} \}\) temos
$$
c_{i j} = \sum_{k = 1}^n a_{i k} \Delta_{j k} = 0
$$

se \(i \neq j\) pois representa o determinante de uma matriz com duas linhas iguais. Se \(i = j\)
$$
c_{i i} = \sum_{k = 1}^n a_{i k} \Delta_{i k} = \det A.
$$

Logo \(A.\text{adj} A = \left| A \right| \mathbb{I}_n\) .

Definição: Dada uma matriz quadrada \(A\) dizemos que \(A^{- 1}\) é a matriz inversa de \(A\) se \(A A^{- 1} = A^{- 1} A =\mathbb{I}\) . Dizemos ainda que \(A\) é invertível se existir a sua inversa.

Exemplo: considerando a matriz
$$
A = \left[ \begin{array}{rr}
6 & 2\\
11 & 4
\end{array} \right], \det A = 2,
$$

encontramos a matriz dos cofatores e sua adjunta
$$
\bar{A} = \left[ \begin{array}{rr}
4 & – 11\\
– 2 & 6
\end{array} \right],\;\;\; \text{adj} A = \left[ \begin{array}{rr}
4 & – 2\\
– 11 & 6
\end{array} \right] .
$$

O produto entre A e sua adjunta é
$$
A . \text{adj} A = \left[ \begin{array}{rr}
6 & 2\\
11 & 4
\end{array} \right] \left[ \begin{array}{rr}
4 & – 2\\
– 11 & 6
\end{array} \right] = \left[ \begin{array}{rr}
2 & 0\\
0 & 2
\end{array} \right] .
$$

A inversa de \(A\) é
$$
A^{- 1} = \frac{\text{adj} A}{\det (A)} = \frac{1}{2} \left[
\begin{array}{rr}
4 & – 2\\
– 11 & 6
\end{array} \right]
$$

pois
$$
A A^{- 1} = \frac{1}{2} \left[ \begin{array}{rr}
6 & 2\\
11 & 4
\end{array} \right] \left[ \begin{array}{rr}
4 & – 2\\
– 11 & 6
\end{array} \right] = \left[ \begin{array}{rr}
1 & 0\\
0 & 1
\end{array} \right] =\mathbb{I}.
$$

Teorema: Uma matriz \(A\) é invertível se, e somente se, seu determinante é não nulo, \(\det A \neq 0\) . Neste caso sua inversa é
$$
A^{- 1} = \frac{\text{adj} A}{\det A} .
$$

Demonstração: Suponha que \(A\) é invertível (ou seja, existe a sua inversa \(A^{- 1}\) ). Neste caso
$$
A.A^{- 1} =\mathbb{I} \Rightarrow \det (A.A^{- 1}) = \det \mathbb{I}= 1.
(\times)
$$

Pela propriedade (ix) do determinante temos que
$$
\det A . \det (A^{- 1}) = 1 A
$$

e, portanto
$$
\det (A^{- 1}) = \frac{1}{\det A} .
$$

Concluimos de (*) que \(\det A \neq 0\) é uma condição suficiente para que \(A\) admita uma inversa. Por outro lado, se \(\det A \neq 0\)
então
$$
A^{- 1} = \frac{\text{adj} A}{\det A} .
$$

Podemos listar ainda outras propriedades de matrizes e suas inversas e consequências das propriedades acima:

  1. Se \(A\) e \(B\) são invertíveis então o produto \(A B\) é invertível e sua inversa é \((A B)^{- 1} = B^{- 1} A^{- 1}\).

    Demonstração: \(B^{- 1} A^{- 1} (A B) = B^{- 1} (A^{- 1} A) B =
    B^{- 1} \mathbb{I}B = B^{- 1} B =\mathbb{I}\) .

  2. Se existe uma matriz \(B\) tal que \(B A =\mathbb{I}\) então \(A\) é invertível e \(B = A^{- 1}\) . Isto significa que a inversa é única e \(A^{- 1} A = A A^{- 1} =\mathbb{I}\) (a inversa à direita e à esquerda são idênticas).
    Demonstração: \(B = B\mathbb{I}= B A A^{- 1} = (B A) A^{- 1}
    =\mathbb{I}A^{- 1} = A^{- 1}\).
  3. Se \(A\) tem determinante nulo então não existe a inversa de \(A\).

Exemplo: Como um exercício procure uma matriz \(B_{2 \times 2}\) que seja a inversa de
$$ A = \left[ \begin{array}{rr}0 & 2\\0 & 1\end{array} \right]. $$

Tanto a operação de resolver um sistema linear quanto a de inverter um matriz são muito comuns na matemática aplicada e computacional. Estas operações envolvem um grande número de cálculos e nem sempre são realizadas na prática nas formas aqui descritas. Uma forma adicional de solução de sistemas de \(n\) equações e \(n\) incógnitas, ainda envolvendo muitas operações mas muito útil em manipulações algébricas e abstratas é a conhecida regra de Cramer.

Regra de Cramer

Considere o sistema de \(n\) equações e \(n\) incógnitas
\begin{eqnarray*}
a_{11} x_1 + a_{12} x_2 + \ldots + a_{1 n} x_n = b_1 & & \\
a_{21} x_1 + a_{22} x_2 + \ldots + a_{2 n} x_n = b_2 & & \\
\vdots & & \\
a_{n 1} x_1 + a_{n 2} x_2 + \ldots + a_{n n} x_n = b_n & &
\end{eqnarray*}
ou, \(A X = B\) , para representar sinteticamente a operação entre
matrizes
$$
\left[ \begin{array}{rrrr}
a_{11} & a_{12} & \cdots & a_{1 n} \\
a_{21} & a_{22} & \cdots & a_{2 n} \\
\vdots & & & \vdots \\
a_{n 1} & a_{n 2} & \cdots & a_{n n}
\end{array}
\right]
\left[ \begin{array}{r}
x_1\\
x_2\\
\vdots\\
x_n
\end{array}
\right] =
\left[ \begin{array}{r}
b_1\\
b_2\\
\vdots\\
b_n
\end{array}
\right].
$$

Se o determinante de \(A\) é não nulo, \(\det A \neq 0\) , então existe a inversa \(A^{- 1}\) e o sistema fica completamente resolvido, bastando multiplicar o sistema por \(A^{- 1}\) à esquerda
$$
A^{- 1} A X = A^{- 1} B.
$$

Como \(A^{- 1} A =\mathbb{I}\) então a solução é
$$
X = A^{- 1} B.
$$

Lembrando que
$$
A^{- 1} = \frac{\text{adj} A}{\det A}
$$

escrevemos
$$
\left[\begin{array}{r} x_1\\ x_2\\ \vdots\\ x_n \end{array}\right] = \frac{1}{\det A}
\left[\begin{array}{rrrr}
\Delta_{11} & \Delta_{21} & \cdots & \Delta_{1 n}\\
\Delta_{12} & \Delta_{22} & \cdots & \Delta_{2 n}\\
\vdots & & & \vdots\\
\Delta_{1 n} & \Delta_{2 n} & \cdots & \Delta_{n n}
\end{array}\right]
\left[\begin{array}{r} b_1\\ b_2\\ \vdots\\ b_n \end{array}\right].
$$

Como exemplo vamos listar explicitamente o primeiro elemento da solução
$$
x_1 = \frac{1}{\det A} (\Delta_{11} b_1 + \Delta_{21} b_2 + \ldots + \Delta_{n 1} b_n),
$$

onde se observa que o termo entre parênteses é o determinante de uma matriz obtida de \(A\) substituindo-se sua primeira coluna pela matriz coluna \(B\) ,em seu desenvolvimento de Laplace ao longo da primeira linha:
$$
\left| \begin{array}{rrrr}
b_1 & a_{12} & \cdots & a_{1 n}\\
b_2 & a_{22} & \cdots & a_{2 n}\\
\vdots & & & \vdots\\
b_n & a_{n 2} & \cdots & a_{n n}
\end{array} \right| = \Delta_{11} b_1 + \Delta_{21} b_2 + \ldots +
\Delta_{n 1} b_n .
$$

O mesmo ocorre com qualquer um dos elementos \(x_i\) da solução,
$$
x_i = \frac{1}{\det A} \left| \begin{array}{rrrrr}
a_{11} & \cdots & b_1 & \cdots & a_{1 n}\\
a_{21} & \cdots & b_2 & \cdots & a_{2 n}\\
\vdots & & & & \vdots\\
a_{n 1} & \cdots & b_n & \cdots & a_{n n}
\end{array} \right|, i = 1, \ldots, n,
$$

onde a matriz \(B\) substitui a \(i\)-ésima coluna no determinante. Esta é a chamada regra de Cramer.

Exemplo: Vamos resolver o seguinte sistema usando a regra de Cramer,
$$
\begin{array}{r}
2 x – 3 y + 7 z = 1\\
x + 3 z = 5\\
2 y – z = 0
\end{array}
$$

que equivale à \(A X = B\) ,
$$
A = \left[ \begin{array}{rrr}
2 & – 3 & 7\\
1 & 0 & 3\\
0 & 2 & – 1
\end{array} \right], \;\;\; B = \left[ \begin{array}{r}
1\\
5\\
0
\end{array} \right] .
$$

Notamos que \(\det A = – 1\) a solução do sistema é
$$
x = – \left| \begin{array}{rrr}
1 & – 3 & 7\\
5 & 0 & 3\\
0 & 2 & – 1
\end{array} \right| = – 49 ;
$$

$$
y = – \left| \begin{array}{rrr}
2 & 1 & 7\\
1 & 5 & 3\\
0 & 0 & – 1
\end{array} \right| = 9 ;
$$

$$
z = – \left| \begin{array}{rrr}
2 & – 3 & 1\\
1 & 0 & 5\\
0 & 2 & 0
\end{array} \right| = 18.
$$

1. Matrizes e Sistemas Lineares

Matrizes

Definição: Uma matriz é uma coleção de elementos estabelecidos em linhas e colunas, da seguinte forma:
$$
A_{m \times n} = \left[ \begin{array}{llll}
a_{11} & a_{12} & \cdots & a_{1 n} \\
a_{21} & a_{22} & \cdots & a_{2 n} \\
\vdots & & & \vdots \\
a_{m 1} & a_{m 2} & \cdots & a_{m n}
\end{array} \right],
$$

onde \(a_{i j} \) representa o elemento na \(i\)-ésima linha e \(j\) -ésima coluna. A matriz acima, portanto, tem \(m\) linhas e \(n\) colunas e dizemos que esta matriz tem dimensão \(m \times n\) . Como delimitadores de uma matriz podemos usar colchetes [ ] ou parênteses ( ), de acordo com a conveniência. Também podemos representar uma matriz por meio de um elemento genérico, colocado entre colchetes para indicar que se trata de uma coleção de linhas e coluna, na forma de
$$
A_{m \times n} = \{a_{i j} \},\;\; i = 1, \ldots, m, j = 1, \ldots, n,
$$

e, em algumas situações, nos referiremos a um elemento genérico da matriz \(A\) por \((A)_{i j} = a_{i j}\) . Os exemplos dados abaixo servirão para ilustrar este conceito e apresentar algumas matrizes de tipos mais comuns e mais utilizadas.

Exemplo: A matriz \(A\) abaixo é uma matriz \(2 \times 2\) , portanto uma matriz quadrada,
$$
A = \left[ \begin{array}{ll}
1 & 3\\
4 & 5
\end{array} \right],
$$

onde os elementos \(a_{11} = 1\) , \(a_{22} = 5\) , só para citar alguns exemplos. A matriz
$$
B = \left[ \begin{array}{ll}
1 & – 2\\
3 & \;0\\
5 & \;4
\end{array} \right]
$$

é uma matriz \(3 \times 2\) (ou seja, tem 3 linhas e duas colunas) enquanto \(C = [1]\) é uma matriz \(1 \times 1\) . Matrizes \(n \times 1\) são denominadas matrizes colunas, tais como \(D_{4 \times 1}\) abaixo
$$
D = \left[ \begin{array}{l}
2\\
0\\
1\\
3
\end{array} \right],
$$

enquanto matrizes \(1 \times n\) são denominadas matrizes linhas, tais como \(E = [1, 2, 6] .\) Uma matriz nula possue todos os seus componentes nulos,
$$
F = \left[ \begin{array}{ll}
0 & 0\\
0 & 0
\end{array} \right] .
$$

Podemos usar o símbolo \(\tilde{0}\) para representar a matriz nula quando isto for interessante para a discussão do momento. Uma matriz identidade é uma matriz quadrada com todos os elementos nulos exceto os da diagonal principal, que são de uma unidade, como \(\mathbb{I}_{3 \times 3}\) abaixo,
$$
\mathbb{I}= \left[ \begin{array}{lll}
1 & 0 & 0\\
0 & 1 & 0\\
0 & 0 & 1
\end{array} \right] .
$$

Observe que \(\mathbb{I}\) (ou outra matriz identidade de qualquer dimensão) tem elementos
$$
(I)_{i j} = \delta_{i j} = \left\{ \begin{array}{ll}
1 & \text{se } i = j,\\
0 & \text{se} i \neq j.
\end{array} \right.
$$

O símbolo \(\delta\) definido desta forma é o chamado delta de Kronecker. Logo ficará claro porque chamamos esta matriz de identidade. E interessante ainda definir as matrizes diagonais como aquelas que possuem todos os elementos nulos exceto os da diagonal principal, que podem ter qualquer valor, como
\begin{eqnarray*}
& & G = \left[ \begin{array}{lll}
7 & 0 & 0\\
0 & – 1 & 0\\
0 & 0 & 1
\end{array} \right],
\end{eqnarray*}
e as matrizes simétricas, que são aquelas que permanecem inalteradas quando suas linhas são tomadas como colunas, tal como
$$
H = \left[ \begin{array}{lll}
3 & 2 & 1\\
2 & 0 & 7\\
1 & 7 & 1
\end{array} \right] .
$$

Alternativamente, definimos a matriz \(H = \{h_{i j} \}\) como simétrica se \(h_{i j} = h_{j i}\) .

Definição: Se \(A\) é uma matriz \(n \times m\) sua transposta e a matriz \(A’_{m \times n} \) obtida de \(A\) por meio da transposição de suas linhas em colunas, \((A)_{i j} = (A’)_{j i}\) .

Exemplo: A transposta da matriz \(B\) acima é
$$
B’ = \left[ \begin{array}{ccc}
1 & 3 & 5\\
– 2 & 0 & 4
\end{array} \right] .
$$

As seguintes propriedades podem ser verificadas quanto à transposição de matrizes:

(i) Se \(S\) é uma matriz simétrica então \(S’ = S\) ,ou seja, uma matriz simétrica é igual a sua transposta.

(ii) \(A’ ‘ = A\) ,

(iii) \((A + B)’ = A’ + B’\) ,

(iv) \((k A)’ = k A’\) .

Definição: dizemos que duas matrizes são iguais se, e somente se, tem a mesma ordem e todos os seus elementos correspondentes (na mesma linha e mesma coluna) são iguais;
$$
A = B \Leftrightarrow a_{i j} = b_{i j.}
$$

A álgebra das Matrizes

Tendo definido as matrizes podemos agora definir uma álgebra ou um conjunto de operações sobre estes elementos.

1) Adição: Se \(A\) e \(B\) são matrizes de mesma ordem então \((A + B)_{i j} = a_{i j} + b_{i j}\) .

Exemplo .
$$
\left[ \begin{array}{lll}
1 & 3 & 5\\
– 2 & 0 & 4
\end{array} \right] + \left[ \begin{array}{lll}
1 & 4 & 1\\
2 & 3 & 3
\end{array} \right] = \left[ \begin{array}{lll}
2 & 7 & 6\\
0 & 3 & 7
\end{array} \right] .
$$

As seguintes propriedades são válidas para a operação de adição: se \(A\) e \(B\) são matrizes de mesma ordem então

(i) \(A + B = B + A\) ,

(ii) \(A + (B + C) = (A + B) + C\) (associatividade),

2) Multiplicação por escalar: Se \(A_{m \times n}\) é uma matriz e \(k\) é um número (um escalar) então
$$
(k \cdot A)_{i j} = k a_{i j.}
$$

Exemplos:
$$
– 2 \left[ \begin{array}{ll}
– \frac{1}{2} & \frac{3}{2}\\
& \\
– 1 & 2
\end{array} \right] = \left[ \begin{array}{ll}
1 & – 3\\
& \\
2 & – 4
\end{array} \right],
$$

$$
\left[ \begin{array}{lll}
3 & 0 & 0\\
0 & 3 & 0\\
0 & 0 & 3
\end{array} \right] = 3\mathbb{I}_{3 \times 3},
$$

onde \(\mathbb{I}_{3 \times 3}\) é a matriz identidade .

As seguintes propriedades são válidas para as operações já consideradas: se \(A\) e \(B\) são matrizes de mesma ordem, \(k\) e \(l \) são escalares então:

(i) \(k (A + B) = k A + k B\) ;

(ii) \((k + l) A = k A + l A\) ;

(iii) \(0 \cdot A = \tilde{0}\) ;

(iv) \(k (l A) = (k l) A\) .

Observe na propriedade (iii) que o produto de qualquer matriz pelo escalar \(0\) é a matriz nula \(\tilde{0}\) embora seja costume representar este resultado simplesmente pelo número 0. Um outro exemplo onde isto pode ocorrer é o seguinte
$$
\left[ \begin{array}{ll}
3 & 2\\
1 & 3
\end{array} \right] – \left[ \begin{array}{ll}
3 & 2\\
1 & 3
\end{array} \right] = 0,
$$

onde o resultado escrito como 0 por abuso de linguagem, na verdade significa a matriz \(\tilde{0}\) de dimensões \(2 \times 2\) .

3) Multiplicação de matrizes

Dadas as matrizes \(A_{m \times n}\) e \(B_{n \times p}\) (notando portanto que \(B\) tem um número de linhas igual ao número de colunas de \(A\) ) definimos o produto de \(A\) por \(B\) da seguinte forma
$$
(A B)_{i j} = \sum^n_{k = 1} a_{i k} b_{k j} .
$$

Isto significa que o elemento da \(i\) -ésima linha e \(j\) -ésima coluna é obtido pela soma dos produtos de elementos da \(i\) -ésima linha de \(A\) com a \(j\) -ésima coluna de \(B\) . O produto é a matriz \(A B\) de dimensões \(m \times p\) . Alguns exemplos servirão para esclarecer este procedimento. No entanto é útil compreender a operação indicada simbolicamente pelo somatório acima.

Exemplos: (1)
$$
\left[ \begin{array}{ccc}
1 & 0 & 2\\
3 & 1 & – 1\\
0 & 1 & 4
\end{array} \right] \left[ \begin{array}{c}
1\\
– 1\\
2
\end{array} \right] = \left[ \begin{array}{l}
5\\
0\\
7
\end{array} \right] .
$$

O elemento da linha 1 e coluna 1 do produto foi obtido da seguinte forma: \(1 \times 1 + 0 (- 1) + 2 \times 2 = 5.\)

(2)
$$
\left[ \begin{array}{ll}
2 & – 2\\
1 & 0\\
0 & – 1
\end{array} \right] \left[ \begin{array}{lll}
1 & 3 & 0\\
2 & – 1 & 1
\end{array} \right] = \left[ \begin{array}{lll}
– 2 & 8 & – 2\\
1 & 3 & 0\\
– 2 & 1 & – 1
\end{array} \right] .
$$

(3)
$$
\left[ \begin{array}{ll}
2 & 1\\
4 & 2\\
5 & 3
\end{array} \right] \left[ \begin{array}{ll}
1 & – 1\\
0 & 4
\end{array} \right] = \left[ \begin{array}{ll}
2 & 2\\
4 & 4\\
5 & 7
\end{array} \right] .
$$

(4) Observe que, em geral, o produto de matrizes é não-comutativo, ou seja, \(A B \neq B A\) :
$$
A = \left[ \begin{array}{lll}
1 & – 1 & 1\\
– 3 & 2 & – 1\\
– 2 & 1 & 0
\end{array} \right] ; B = \left[ \begin{array}{lll}
1 & 2 & 3\\
2 & 4 & 6\\
1 & 2 & 3
\end{array} \right] ;
$$

$$
A B = \left[ \begin{array}{lll}
0 & 0 & 0\\
0 & 0 & 0\\
0 & 0 & 0
\end{array} \right] ; B A = \left[ \begin{array}{lll}
– 11 & 6 & – 1\\
– 22 & 12 & – 2\\
– 11 & 6 & – 1
\end{array} \right] .
$$

Neste último exemplo observamos que, além da não co mutatividade do produto de matrizes, é possível que o produto de duas matrizes seja nulo sem que nenhuma delas seja a matriz nula.

Propriedades do produto de matrizes

(i) \(A B \neq B A\) ,

(ii) \(A\mathbb{I}=\mathbb{I}A = A\) , onde \(\mathbb{I}\) é a matriz identidade (e dai o seu nome),

(iii) \(A (B + C) = A B + A C\) ,(distributividade à esquerda),

(iv) \((B + C) A = B A + C A\) , (distributividade à direita),

(v) \((A B) C = A (B C)\) , (associatividade),

(vi) \((A B)’ = B’ A’\) ,

(vii) \(\tilde{0} A = A \tilde{0} = \tilde{0}\) , onde \(\tilde{0}\) é a matriz nula.

Sistemas de equações lineares

Definição: Um sistema com \(m\) equações lineares com \(n\) incógnitas é um conjunto de equações da forma de
\begin{eqnarray*}
a_{11} x_1 + a_{12} x_2 + \ldots + a_{1 n} x_n = b_1 & & \\
a_{21} x_1 + a_{22} x_2 + \ldots + a_{2 n} x_n = b_2 & & \\
\vdots & & \\
a_{m 1} x_1 + a_{m 2} x_2 + \ldots + a_{m n} x_n = b_m & &
\end{eqnarray*}
onde \(a_{i j}, 1 \leq i \leq m, 1 \leq j \leq n,\) são números reais (ou complexos) e \(x_k, 1 \leq k \leq n\) são \(n\) incógnitas. Uma solução do sistema acima, quando existir, é uma \(n\) -upla \((x_1, x_2, \ldots, x_n)\) que satisfaz simultaneamente as \(m\) equações do sistema. Podemos escrever o mesmo sistema sob forma matricial
$$
\left[ \begin{array}{llll}
a_{11} & a_{12} & \cdots & a_{1 n}\\
a_{21} & a_{22} & \cdots & a_{2 n}\\
\vdots & & & \vdots\\
a_{m 1} & a_{m 2} & \cdots & a_{m n}
\end{array} \right] \left[ \begin{array}{l}
x_1\\
x_2\\
\vdots\\
x_n
\end{array} \right] = \left[ \begin{array}{l}
b_1\\
b_2\\
\vdots\\
b_m
\end{array} \right],
$$

ou simplesmente
$$
A X = B
$$

onde
$$
A = \left[ \begin{array}{llll}
a_{11} & a_{12} & \cdots & a_{1 n}\\
a_{21} & a_{22} & \cdots & a_{2 n}\\
\vdots & & & \vdots\\
a_{m 1} & a_{m 2} & \cdots & a_{m n}
\end{array} \right], X = \left[ \begin{array}{l}
x_1\\
x_2\\
\vdots\\
x_n
\end{array} \right], B = \left[ \begin{array}{l}
b_1\\
b_2\\
\vdots\\
b_m
\end{array} \right],
$$

sendo que \(A\) é denominada matriz dos coeficientes do sistema, \(X\) é a matriz das incógnitas e \(B\) a matriz dos termos constantes. Alternativamente é útil escrever o mesmo sistema como o conjunto das equações
\begin{eqnarray*}
\sum_{j = 1}^n a_{1 j} x_j = b_{1,} & & \\
\sum_{j = 1}^n a_{2 j} x_j = b_{2,} & & \\
\vdots & & \\
\sum_{j = 1}^n a_{m j} x_j = b_{m,} & &
\end{eqnarray*}
ou, de modo compacto,
$$
\sum_{j = 1}^n a_{i j} x_j = b_{i,} 1 \leq i \leq m.
$$

Embora todas estas formas de se escrever o sistema de equações sejam equivalentes, é útil compreender cada uma delas. A notação de somatório é poderosa, principalmente para demonstrações e considerações teóricas sobre este e muitos outros tópicos.

Sistemas lineares aparecem em um grande número de aplicações e é necessário que se aprenda técnicas para encontrar suas soluções. Para isto apresentamos as definições abaixo.

Definição: A matriz ampliada associada ao sistema acima é
$$
\left[ \begin{array}{llll}
a_{11} & a_{12} & \cdots & a_{1 n}\\
a_{21} & a_{22} & \cdots & a_{2 n}\\
\vdots & & & \vdots\\
a_{m 1} & a_{m 2} & \cdots & a_{m n}
\end{array} \middle| \begin{array}{l}
b_1\\
b_2\\
\vdots\\
b_m
\end{array}]. \right.
$$

É usual, mas não obrigatório, o uso da barra de separação entre os termos \(a_{i j}\) e \(b_k\) .

Definição: Dois sistemas de equações lineares são ditos equivalentes se, e somente se, toda a solução de um deles é igualmente solução do outro.

Podemos obter sistemas equivalentes por meio das chamadas operações elementares:

(i) permutação de duas equações;

(ii) multiplicação de um das equações por um escalar;

(iii) substituição de uma das equações por sua soma com outra das equações do sistema.

Em termos das matrizes ampliadas associadas ao sistema estas mesmas operações significam as operações elementares sobre as linhas desta matriz. Exemplificando estas operações elementares sobre linhas de uma matriz temos:

(i) Permutação de linhas: \(L_i \leftrightarrow L_j\) ,
$$
\left[ \begin{array}{ll}
1 & 2\\
3 & 4\\
5 & 6
\end{array} \right] L_1 \leftrightarrow L_2 \left[ \begin{array}{ll}
3 & 4\\
1 & 2\\
5 & 6
\end{array} \right] .
$$

(ii) Multiplicação de uma linha por um escalar: \(k L_i \rightarrow L_i\),
$$
\left[ \begin{array}{ll}
3 & 4\\
1 & 2\\
5 & 6
\end{array} \right] 3 L_2 \rightarrow L_2 \left[ \begin{array}{ll}
3 & 4\\
3 & 6\\
5 & 6
\end{array} \right] .
$$

(iii) Substituição de uma linha por sua soma com outra linha: \(L_i + L_j \rightarrow L_i\),
$$
\left[ \begin{array}{ll}
3 & 4\\
3 & 6\\
5 & 6
\end{array} \right] L_1 + L_2 \rightarrow L_1 \left[ \begin{array}{ll}
6 & 10\\
3 & 6\\
5 & 6
\end{array} \right] .
$$

Definição: Duas matrizes são equivalentes se uma pode ser obtida da outra por meio de um número finito de operações elementares. Denotaremos a equivalência entre duas matrizes \(A\) e \(B\) por meio do símbolo \(A \sim B\) .

Definição: uma matriz está em sua forma linha reduzida à forma escada se

  1. O primeiro elemento de cada linha é 1. Chamaremos de piloto a este elemento.
  2. Cada coluna que possue um elemento piloto de alguma das linhas contém todos os demais elementos nulos.
  3. O piloto de cada linha ocorre em colunas progressivas.
  4. Linhas inteiramente nulas ocorrem abaixo de todas as demais.

A matriz reduzida à sua forma escada terá a forma indicada na figura.

Uma vez que as operações elementares sobre um sistema de equações lineares não alteram a solução do sistema, e que matrizes equivalentes são obtidas uma da outra por meio de operações elementares sobre suas linhas, podemos concluir que dois sistemas cujas matrizes ampliadas são equivalentes possuem a mesma solução ou soluções, quando estas existirem. Isto nos permite enunciar um método de solução.

Método de Gauss-Jordan para solução de sistema lineares

O método de Gauss-Jordan consiste no seguinte procedimento:

  1. Dado um sistema de equações lineares começamos por escrever a sua matriz ampliada associada.
  2. Através de operações elementares sobre linhas da matriz ampliada obtemos a matriz equivalente reduzida à forma escada.
  3. A matriz equivalente reduzida à forma escada será associada a um sistema onde a solução do sistema original é de fácil leitura.

Vamos ilustrar estas operações elementares por meio de um exemplo. Nele indicaremos as operações realizadas sobre as linhas de uma matriz amplida apenas para efeito de acompanhanto do leitor. A operação \(L_1 + L_2 \rightarrow L_2\) , por exemplo, significa: substitua a linha 2 pela soma da linha 2 com a linha 1.

Exemplo . O sistema
\begin{eqnarray*}
x + 4 y + 3 z = 1 & & \\
2 x + 5 y + 4 z = 4 & & \\
x – 3 y – 2 z = 5 & &
\end{eqnarray*}
pode ser representado matricialmente por
$$
\left[ \begin{array}{lll}
1 & 4 & 3\\
2 & 5 & 4\\
1 & – 3 & – 2
\end{array} \right] \left[ \begin{array}{l}
x\\
y\\
z
\end{array} \right] = \left[ \begin{array}{l}
1\\
4\\
5
\end{array} \right]
$$

que corresponde à matriz ampliada
$$
M = \left[ \begin{array}{lll}
1 & 4 & 3\\
2 & 5 & 4\\
1 & – 3 & – 2
\end{array} \begin{array}{l}
1\\
4\\
5
\end{array} \right] .
$$

As seguintes operações elementares podem ser efetuadas para obter sistemas equivalentes:
\begin{eqnarray*}
& & \left[ \begin{array}{lll}
1 & 4 & 3\\
2 & 5 & 4\\
1 & – 3 & – 2
\end{array} \begin{array}{l}
1\\
4\\
5
\end{array} \right] \begin{array}{l}
2 L_1 – L_2 \rightarrow L_2\\
L_1 – L_3 \rightarrow L_3
\end{array} \rightarrow \left[ \begin{array}{lll}
1 & 4 & 3\\
0 & 3 & 2\\
0 & 7 & 5
\end{array} \begin{array}{l}
1\\
– 2\\
– 4
\end{array} \right] \begin{array}{l}
\frac{1}{3} L_2 \rightarrow L_2
\end{array} \rightarrow \left[ \begin{array}{lll}
1 & 4 & 3\\
0 & 1 & 2 / 3\\
0 & 7 & 5
\end{array} \begin{array}{l}
1\\
– 2 / 3\\
– 4
\end{array} \right]\\
& & \\
& & \begin{array}{l}
L_1 – 4 L_2 \rightarrow L_1\\
L_3 – 7 L_2 \rightarrow L_3
\end{array} \left[ \begin{array}{lll}
1 & 0 & 1 / 3\\
0 & 1 & 2 / 3\\
0 & 0 & 1 / 3
\end{array} \begin{array}{l}
11 / 3\\
– 2 / 3\\
2 / 3
\end{array} \right] \begin{array}{l}
3 L_3 \rightarrow L_3
\end{array} \left[ \begin{array}{lll}
1 & 0 & 1 / 3\\
0 & 1 & 2 / 3\\
0 & 0 & 1
\end{array} \begin{array}{l}
11 / 3\\
– 2 / 3\\
2
\end{array} \right]\\
& & \\
& & \begin{array}{l}
– 1 : 3 L_3 + L_1 \rightarrow L_1\\
L_2 – 2 : 3 L_3 \rightarrow L_2
\end{array} \left[ \begin{array}{lll}
1 & 0 & 0\\
0 & 1 & 0\\
0 & 0 & 1
\end{array} \begin{array}{l}
3\\
– 2\\
2
\end{array} \right] .
\end{eqnarray*}
A última linha contém a matriz reduzida à forma escada e associada ao sistema
$$
\left. \begin{array}{ll}
x + 0 y + 0 z = 3 & \\
0 x + y + 0 z = – 2 & \\
0 x + 0 y + z = 2 &
\end{array} \right\} \Rightarrow x = 3, y = – 2, z = 2,
$$

que é a solução do sistema inicial, como pode ser verificado por substituição direta.

Exercício resolvido: resolva o sistema
\begin{eqnarray*}
x + 2 y + 3 z = 9 & & \\
2 x – y + z = 8 & & \\
3 x – z = 3. & &
\end{eqnarray*}
A matriz ampliada associada a este sistema é
$$
A = \left[ \begin{array}{lll}
1 & 2 & 3\\
2 & – 1 & 1\\
3 & 0 & – 1
\end{array} \begin{array}{l}
9\\
8\\
3
\end{array} \right] .
$$

Através de operações elementares sobre as linhas desta matriz procuramos colocá-la gradualmente sob a forma escada:
\begin{eqnarray*}
\begin{array}{lllll}
A = & \left[ \begin{array}{l}
\begin{array}{lll}
1 & 2 & 3\\
2 & – 1 & 1\\
3 & 0 & – 1
\end{array} \begin{array}{l}
9\\
8\\
3
\end{array}
\end{array} \right] & \sim & \left[ \begin{array}{l}
\begin{array}{lll}
1 & 2 & 3\\
0 & – 5 & – 5\\
0 & – 6 & – 10
\end{array} \begin{array}{l}
9\\
– 10\\
– 24
\end{array}
\end{array} \right] \sim & \left[ \begin{array}{l}
\begin{array}{lll}
1 & 2 & 3\\
0 & 1 & 1\\
0 & 3 & 5
\end{array} \begin{array}{l}
9\\
2\\
12
\end{array}
\end{array} \right] \sim\\
& & & & \\
& L_2 – 2 L_1 \rightarrow L_2 \{p_1 \} & & L_2 / (- 5) \rightarrow L_2
\{p_3 \} & L_1 – 2 L_2 \rightarrow L_1 \{p_5 \}\\
& L_3 – 3 L_1 \rightarrow L_3 \{p_2 \} & & L_3 / (- 2) \rightarrow
L_3 \{p_4 \} & L_3 – 3 L_2 \rightarrow L_3 \{p_6 \}
\end{array} & &
\end{eqnarray*}

\begin{eqnarray*}
\begin{array}{lllll}
\sim & \left[ \begin{array}{l}
\begin{array}{lll}
1 & 0 & 1\\
0 & 1 & 1\\
0 & 0 & 2
\end{array} \begin{array}{l}
5\\
2\\
6
\end{array}
\end{array} \right] & \sim & \left[ \begin{array}{l}
\begin{array}{lll}
1 & 0 & 1\\
0 & 1 & 1\\
0 & 0 & 1
\end{array} \begin{array}{l}
5\\
2\\
3
\end{array}
\end{array} \right] \sim & \left[ \begin{array}{l}
\begin{array}{lll}
1 & 0 & 0\\
0 & 1 & 0\\
0 & 0 & 1
\end{array} \begin{array}{l}
2\\
– 1\\
3
\end{array}
\end{array} \right],\\
& & & & \\
& L_3 / 2 \rightarrow L_3 \{p_7 \} & & L_1 – L_3 \rightarrow L_1
\{p_8 \} & \\
& & & L_2 – L_3 \rightarrow L_2 \{p_9 \} &
\end{array} & &
\end{eqnarray*}
sendo que esta última matriz se encontra em sua forma reduzida e representa a solução do sistema \(x = 1, y = – 1, z = 3\) .

Para o leitor que considere isto necessário seguem alguns comentários sobre os passos executados nesta operação:
\(\{p_1 \}\) zeramos o elemento na coluna 1, onde ocorre o piloto da primeira linha;
\(\{p_2 \}\) idem para a linha 3;
\(\{p_3 \}\) introduzimos o piloto da linha 2;
\(\{p_4 \}\) apenas uma simplificação para os cálculos posteriores;
\(\{p_5 \}\) zeramos \(a_{12}\) ;
\(\{p_6 \}\) zeramos \(a_{32}\) ;
\(\{p_7 \}\) introduzimos o piloto da linha 3;
\(\{p_8 \}\) zeramos \(a_{13}\) ;
\(\{p_9 \}\) zeramos \(a_{23}\) . O procedimento é interrompido porque atingimos a matriz equivalente na forma reduzida .

é claro que não existe uma única forma para se atingir a matriz na forma escada e, algumas vezes, uma escolha apropriada de passos pode reduzir muito o trabalho necessário para atingí-la. No entanto, se um passo mais hábil ou mais rápido não for percebido, podemos executar etapas intermediárias que facilitem este processo. Para quem está aprendendo a operação pode ser preferível realizar um número maior de passos e um de cada vez.

Algumas vezes é necessário saber se existem uma ou mais soluções para um sistema linear. As definições dadas a seguir nos permitem obter esta informação mesmo sem resolvê-lo.

Definição: Seja \(A_{m \times n}\) uma matriz e \(B_{m \times n}\) sua matriz equivalente reduzida à forma escada. \(p\) ,o posto de \(A\) , é o número de linhas não nulas de \(B\) . A nulidade de \(A\) é igual ao número de colunas menos o posto, \(n – p\) .

Exemplo . Qual é o posto e a nulidade da matriz \(A\) dada abaixo?
$$
\begin{array}{ll}
A = & \left[ \begin{array}{l}
\begin{array}{llll}
1 & 2 & 1 & 0\\
– 1 & 0 & 3 & 5\\
1 & – 2 & 1 & 1
\end{array}
\end{array} \right] .
\end{array}
$$

Buscamos, por meio das operações elementares sobre as linhas de \(A\) encontrar sua equivalente reduzida à forma escada. Começaremos com os passos \(L_1 + L_2 \rightarrow L_2\) e \(L_1 – L_3 \rightarrow L_3\) :
\begin{eqnarray*}
\begin{array}{lllll}
A \sim & \left[ \begin{array}{l}
\begin{array}{llll}
1 & 2 & 1 & 0\\
0 & 2 & 4 & 5\\
0 & 4 & 0 & – 1
\end{array}
\end{array} \right] & \sim & \left[ \begin{array}{l}
\begin{array}{llll}
1 & 2 & 1 & 0\\
0 & 1 & 2 & 5 / 2\\
0 & 0 & – 8 & – 11
\end{array}
\end{array} \right] \sim & \left[ \begin{array}{l}
\begin{array}{llll}
1 & 2 & 1 & 0\\
0 & 1 & 2 & 5 / 2\\
0 & 0 & 1 & 11 / 8
\end{array}
\end{array} \right] \sim\\
& & & & \\
& L_2 / 2 \rightarrow L_2 & & – L_3 / 8 \rightarrow L_3 & L_1 – 2
L_2 \rightarrow L_1\\
& L_3 – 2 L_2 \rightarrow L_3 & & & L_2 – 2 L_3 \rightarrow L_2
\end{array} & &
\end{eqnarray*}

\begin{eqnarray*}
\begin{array}{lllll}
\sim & \left[ \begin{array}{l}
\begin{array}{llll}
1 & 0 & – 3 & – 5\\
0 & 1 & 0 & – 1 / 4\\
0 & 0 & 1 & 11 / 8
\end{array}
\end{array} \right] & \sim & \left[ \begin{array}{llll}
1 & 0 & 0 & – 7 / 8\\
0 & 1 & 0 & – 1 / 4\\
0 & 0 & 1 & 11 / 8
\end{array} \right] & = B,\\
& & & & \\
& L_1 + 3 L_2 \rightarrow L_1 & & &
\end{array} & &
\end{eqnarray*}
sendo que a matriz \(B\) está em sua reduzida. O posto de \(A\) é \(p = 3\) porque \(B\) tem 3 linhas não nulas. Como \(A\) tem \(n = 4\) colunas, a nulidade de \(A\) é \(n – p = 1\) .

Exercício resolvido: Encontre o posto e a nulidade de
$$
\begin{array}{ll}
B = & \left[ \begin{array}{lll}
2 & – 1 & 3\\
1 & 4 & 2\\
1 & – 5 & 1\\
4 & 16 & 8
\end{array} \right] .
\end{array}
$$

\begin{eqnarray*}
\begin{array}{lllll}
B \sim & \left[ \begin{array}{lll}
1 & 4 & 2\\
2 & – 1 & 3\\
1 & – 5 & 1\\
1 & 4 & 2
\end{array} \right] & \sim & \left[ \begin{array}{lll}
1 & 4 & 2\\
0 & – 9 & – 1\\
1 & – 9 & – 1\\
0 & 0 & 0
\end{array} \right] \sim & \left[ \begin{array}{lll}
1 & 4 & 2\\
0 & 1 & 1 / 9\\
0 & 0 & 0\\
0 & 0 & 0
\end{array} \right] \sim\\
& L_2 – 2 L_1 \rightarrow L_2 & & & \\
L_1 \leftrightarrow L_2 & L_3 – L_1 \rightarrow L_3 & & L_2 / (- 9)
\rightarrow L_2 & L_1 – 4 L_2 \rightarrow L_1\\
L_4 / 4 \rightarrow L_4 & L_4 – L_1 \rightarrow L_4 & & L_3 – L_2
\rightarrow L_3 &
\end{array} & &
\end{eqnarray*}

\begin{eqnarray*}
\begin{array}{lll}
\sim & \left[ \begin{array}{lll}
1 & 0 & 14 / 9\\
0 & 1 & 1 / 9\\
0 & 0 & 0\\
0 & 0 & 0
\end{array} \right] = C & .
\end{array} & &
\end{eqnarray*}
sendo que a matriz \(B\) está em sua reduzida. O posto de \(A\) é \(p = 3\) porque \(B\) tem 3 linhas não nulas. Como \(A\) tem \(n = 4\) colunas, a nulidade de \(A\) é \(n – p = 1\) .

Continuando com a questão da existência de soluções vamos examinar alguns casos ilustrativos de sistemas e suas soluções.

(1) Sistema trivial, com uma incógnita e uma equação
$$
a x = b.
$$

Os seguintes casos podem ocorrer:

  1. Se \(a \neq 0\) então existe uma única solução, \(x = b / a\) .
  2. Se \(a = 0\) e \(b = 0\) o sistema é \(0 x = 0\), satisfeito por qualquer valor de \(x\) . Existem, portanto, infinitas soluções.
  3. Se \(a = 0\) e \(b \neq 0\) o sistema \(0 x = b\) , não é satisfeito por nenhum valor de \(x\) , ou seja, não existem soluções.

(2) Sistema com uas equações e duas incógnitas.

Exemplo:
$$
\left\{ \begin{array}{l}
2 x + y = 5\\
x – 3 y = 6
\end{array} \right.
$$

Embora este seja um sistema de fácil solução por meio de uma simples substituição, para efeito de exercício da técnica aprendida, escrevemos matriz ampliada e suas matrizes equivalentes,

\begin{eqnarray*}
\left[ \begin{array}{lll}
2 & 1 & 5\\
1 & – 3 & 6
\end{array} \right] \sim \left[ \begin{array}{lll}
1 & 1 / 2 & 5 / 2\\
1 & – 3 & 6
\end{array} \right] \sim \left[ \begin{array}{lll}
1 & 1 / 2 & 5 / 2\\
0 & 7 / 2 & – 7 / 2
\end{array} \right] \sim \left[ \begin{array}{lll}
1 & 1 / 2 & 5 / 2\\
0 & 1 & – 1
\end{array} \right] \sim \left[ \begin{array}{lll}
1 & 0 & 3\\
0 & 1 & – 1
\end{array} \right], & &
\end{eqnarray*}
ou seja, \(x = 3\) e \(y = – 1\) é a solução única do sistema. A
matriz dos coeficientes
\begin{eqnarray*}
\left[ \begin{array}{ll}
2 & 1\\
1 & – 3
\end{array} \right] \sim \left[ \begin{array}{ll}
1 & 0\\
0 & 1
\end{array} \right] & &
\end{eqnarray*}
tem posto 2 enquanto a matriz ampliada também tem posto 2. Lembramos ainda que \(n = 2\) é o número de incógnitas envolvidas. Como se pode ver na figura cada equação do sistema corresponde a uma reta do plano e a solução é dada pelo único ponto comum entre elas.

Exemplo 2:
$$
\left\{ \begin{array}{l}
2 x + y = 5\\
6 x + 3 y = 15
\end{array} \right.
$$

A matriz ampliada e suas matrizes equivalentes são, por exemplo,
\begin{eqnarray*}
\left[ \begin{array}{lll}
2 & 1 & 5\\
6 & 3 & 15
\end{array} \right] \sim \left[ \begin{array}{lll}
1 & 1 / 2 & 5 / 2\\
0 & 0 & 0
\end{array} \right], & &
\end{eqnarray*}
indicando que existem infinitas soluções, que são todos os pontos da reta \(x + y / 2 = 5 / 2\) . Observamos que as duas equações do
sistema são uma múltiplo da outra e representam a mesma reta. A matriz dos coeficientes
\begin{eqnarray*}
\left[ \begin{array}{ll}
2 & 1\\
6 & 3
\end{array} \right] \sim \left[ \begin{array}{ll}
1 & 1 / 2\\
0 & 0
\end{array} \right] & &
\end{eqnarray*}
tem posto 1 e a matriz ampliada também tem posto 1. A nulidade de \(A\) é 2 enquanto a nulidade da matriz dos coeficientes é 1. Geometricamente as duas equações do sistema são repreentadas pela mesma (uma delas é meramente um múltiplo da outra) e todos os pontos que satisfazem a primeira equação satisfazem também a segunda.

Exemplo: O sistema
$$
\left\{ \begin{array}{l}
2 x + y = 5\\
6 x + 3 y = 10
\end{array} \right.
$$

pode ser resolvido da mesma forma; a matriz ampliada e sua reduzida são
\begin{eqnarray*}
A = \left[ \begin{array}{lll}
2 & 1 & 5\\
6 & 3 & 10
\end{array} \right] \sim \left[ \begin{array}{lll}
1 & 1 / 2 & 5 / 2\\
0 & 0 & – 5
\end{array} \right] \sim \left[ \begin{array}{lll}
1 & 1 / 2 & 0\\
0 & 0 & 1
\end{array} \right], & &
\end{eqnarray*}
que representam um sistema sem solução. O posto de \(A\) é 2 e o posto da matriz dos coeficientes é 1. Geometricamente as duas linhas são equações de retas são paralelas que, por isto, não possuem pontos comuns.

Relacionando o número de equações, incógnitas e o posto das matrizes ampliada e dos coeficientes temos o seguinte resultado:

Teorema: Dado um sistema de \(m\) equações e \(n\) incógnitas, denotamos por \(p_A \)o posto da matriz ampliada e \(p_C \) o posto da matriz dos coeficientes. Então

  1. A condição \(p_A = p_C\) é necessária e suficiente para que o sistema admita uma ou mais soluções;
  2. A condição \(p_A = p_C = n\) é necessária e suficiente para que o sistema admita uma única solução;
  3. Se \(p_A = p_C \lt n\) então o sistema pode ser resolvido para \(p\) incógnitas em função das \(n – p\) incógnitas restantes.
Sistema linear de 3 equações e 3 incógnitas

Sistema de três equações e três incógnitas: Cada uma das equações pode ser representada por um plano, P1, P2 e P3. Podem ocorrer, por exemplo, algumas dessas situações: (i) os planos são paralelos e não coincidentes; não existe nenhuma solução para o sistema; (ii) dois planos são coincidentes e interceptam o terceiro plano em uma reta. Neste caso existem infinitas soluções (os pontos da reta). (iii) Nenhum dos planos é paralelo a outro. Esta é a situação mostrada na figura 6 e existe uma única solução.