Python: Expressões regulares

O que são Expressões Regulares?

Expressões regulares, também chamadas de regex (de regular expression), são meios de descrever padrões que podem ser encontrados dentro de um texto. Os padrões podem ser simples como a busca de um ou dois dígitos especificados, ou padrões complexos que incluem a posição do padrão no texto, o número de repetições, etc.

Recomendo a leitura simultânea do artigo Expressões Regulares (regex) para aqueles que ainda não conhecem as regex.

Os métodos da classe String estão listados em Python: Strings.

Um resumo de Regex: Regex, Consulta Rápida.

Regex são usados basicamente para a busca de um padrão, substituição de texto, validação de formatos e filtragem de informações. Praticamente todas as linguagens de programação possuem ferramentas de uso de regex, assim como grande parte dos editores de texto. As diferentes linguagens de programação e aplicativos que incorporam funcionalidade de regex possuem sintaxes ligeiramente diferentes, cada uma, mas há uma embasamento geral que serve a todas. Existem aplicativos de teste de regex em diversas plataformas e aplicativos online para o mesmo fim.

Módulo re para Regex

No Python o módulo re, parte da biblioteca padrão, carrega uma “mini-linguagem” com meios de especificar tais padrões e realizar essas buscas e substituições. Esse módulo possui os seguintes métodos que podem ser usados para encontrar padrões, partir texto e compilar padrões:

Método retorna
re.search(padrao, texto) 1º texto casado e sua posição, em qualquer parte do texto e em todas as linhas,
re.match(padrao, texto) 1º texto casado e sua posição, no início do texto e apenas na 1ª linha,
re.findall(padrao, texto) retorna uma lista com todos os trechos encontrados,
re.finditer(padrao, texto) retorna um iterador com os trechos não sobrepostos encontrados,
re.fullmatch(padrao, texto) retorna um objeto Match se a string inteira casa com o padrão,
re.split(padrao, texto) parte o texto na ocorrência do padrão e retorna as partes,
re.sub(padrao, sub, texto) substitue em texto o padrao por sub,
re.subn(padrao, texto) similar à sub mas retorna tupla com nova string e número de substituições
re.compile(padrao) compila e retorna um padrão regex pre-compilado

Métodos re.search e re.match

resultado = re.search(padrao, texto); resultado = re.match(padrao, texto)

Os métodos search e match são similares. Ambos procuram por um padrão dentro de um texto alvo e retornam um objeto re.Match que, por sua vez, contém a posição inicial e final do padrão encontrado. Se o padrão não for encontrado o método retorna None.

O objeto re.Match possui o método group() que retorna o trecho encontrado, sendo que apenas a primeira ocorrência é considerada. Os parâmetros são padrao, uma construção regex, e texto é o conjunto de caracteres onde se busca o padrão. Em um texto de muitas linhas search procura em todas as linhas até encontrar o padrão, diferente do método match que procura apenas na primeira linha.

Uma letra, dígito ou conjunto de caracteres é casado literalmente. Se não encontrado None é retornado.

» import re
» texto = "Este é um texto de teste para testar o funcionamento das expressões regulares"
# procuramos por "exp" no texto
» padrao = "exp"
» resultado = re.search(padrao, texto)

# o padrão "exp" é encontado na posição 57 até 60
» print(resultado)
↳ <re.Match object; span=(57, 60), match="exp">

» print(resultado.group())
↳ exp

# a busca retorna None se o padrão não é encontrado
» print(re.search("z", texto))
↳ None

# apenas o primeira coincidência é casada
» print(re.search("ste", texto))
↳ <re.Match object; span=(1, 4), match="ste">

Como search() retorna None se não houver um casamento, podemos usar o retorno do método como critério de sucesso da busca, considerando que None equivale a False quando em um teste lógico. Por exemplo, o padrão A{3} significa 3 letras A maiúsculas consecutivas, o que não existe no texto.

» texto = "American Automobile Association"
» busca = re.search("A{3}", texto)
» if busca:
»     print(busca.group())
» else:
»     print("não encontrado")
↳ não encontrado    

Como recordação e para uso posterior, observe que podemos escrever o código acima de forma mais concisa usando a construção

<valor_se_True> if <teste_lógico> else <valor_se_False>

O código pode ser rescrito como:

» texto = "American Automobile Association"
» busca = re.search("A{3}", texto)
» print(busca.group() if busca else "não encontrado")
↳ não encontrado    

busca = None porque não existem 3 “A”s consecutivos no texto.

Metacaracteres

Além de caracteres simples e grupos de caracteres os metacaracteres permitem ampliar o poder de busca das regex. No que se segue representamos os textos casados com a marcação texto. Na tabela abaixo x representa um padrão qualquer.

padrão significado exemplo: casa ou não com
a caracter comum a casa Afazer aaa
ab grupos de caracteres comuns ab absoluto abraço Abcd trabalho
. casa com qualquer caracteres único m.to mato, mito, m3to, mto
x* 0, 1 ou várias ocorrências de x 13* 1, 13456, 133, 13333-0987
x? 0, 1 ocorrência de x 13? 1, 13456, 133, 13333-0987
x+ 1 ou mais ocorrências de x 13+ 1, 13456, 133, 13333-0987
# . = qualquer caracter
» print(re.search("p.ata", "pirata pata prata").group())
↳ prata

# x* = 0, 1 ou várias repetições de x
» print(re.search("jo*e", "jose joo joe").group())
↳ joe

» print(re.search("jo*e", "jose joo jooooooe").group())
↳ jooooooe

# x? = 0 ou 1 ocorrência de x
» print(re.search("jo?e", "jose jooe je").group())
↳ je

» print(re.search("jo?e", "jose jooe joe").group())
↳ joe

# x+ = 1 ou mais ocorrências de x
» print(re.search("jo+e", "jose jooe joe").group())
↳ jooe

Nota: Sempre lembrando que search e match retornam a primeira ocorrência da corresepondência.

Chaves, colchetes, pipes e parênteses

As chaves são usadas para quantificar repetições de um padrão.

padrão significado exemplo: casa ou não com
{n} significa exatamente n repetições do padrão 9{3} 999, 1999-45, 9-999, 999-00, 9, 99
{n,} mínimo de n repetições do padrão 9{2,} 99, 1999-45, 9-9999, 99999-00, 9, 9-9
{,n} máximo de n repetições do padrão 9{,4} 99, 1999-45, 9-9999, 9999-00, 9, 9-9
{n,m} mínimo de n, máximo de m repetições do padrão 9{2,4} 99, 1999-45, 9-9999, 99999-00, 9, 9-9

Um colchete [] delimita um conjunto alternativo de caracteres. Pipe, o sinal | indica uma alternativa onde um ou outro grupo é casado.

» print(re.search("pr[ae]to", "prato, preto").group())
↳ prato

» print(re.search("pr[ae]to", "proto, preto").group())
↳ preto

# [0-9] representa qualquer dígito. "[0-9]{3,}" é grupo com mais de 3 dígitos:
» print(re.search("[0-9]{3,}", "6-45-4567-345345").group())
↳ 4567

# grupo com até 2 dígitos
» print(re.search("[0-9]{,2}", "45-4567-345345").group())
↳ 45
# \d é o mesmo que [0-9]  (veja "classe de caracteres" abaixo)
» print(re.search(r"\d{,2}", "45-4567-345345").group())
↳ 45

» print(re.search("q{3}", "q qq qqq").group())
↳ qqq
» print(re.search("q{,2}", "qqqqq qq qqq").group())
↳ qq
print(re.search("q{2,}", "qqqqqqqq qq qqq").group())
↳ qqqqqqqq

No código acima usamos \d para representar um dígito (o mesmo que [0-9]), e o prefixo r antes da definição do padrão para significar que estamos definindo uma “raw string”. Ambos os conceitos estão melhor explicados abaixo.

Parênteses () indicam um grupo, a ser procurado como um bloco. O sinal |indica uma alternativa onde um ou outro grupo é procurado.

# procurando por mato ou mito
» print(re.search("m(a|i)to", "moto mato mito").group())
↳ mato

# só a primeira ocorrência é retornada
» print(re.search("m(a|i)to", "moto muto mito").group())
↳ mito

» print(re.search("J(osé|oão) Paulo", "José Paulo Souza").group())
↳ José Paulo

» print(re.search("J(osé|oão) Paulo", "João Paulo Souza").group())
↳ João Paulo

» print(re.search(r"@(\d{3}|\D{2})", "@963 é a senha!").group())
↳ @123

» print(re.search(r"@(\d{3}|\D{2})", "@aB é a senha!").group())
↳ @aB

Classes de caracteres

Classes de caracteres são marcações que funcionam como “shortcuts”, representando um grupo de caracteres ou controles.

\s representa um espaço simples,
\S representa espaço negado (não é um espaço),
\d representa qualquer dígito. O mesmo que [0-9],
\D \d negado. Qualquer não dígito. O mesmo que [^0-9],
\w caracter alfanumérico e sublinhado,
\W \w negado. Qualquer sinal exceto caracter alfanumérico e sublinhado.
\b borda de palavra. Um padrão de comprimento nulo usado para marcar início e fim das palavras.

O padrão usado abaixo, padrao = r"\+\d{2}\(\d{2}\)\d{5}-\d{4}" significa um número escrito como um telefone no formato + cód país (cod área) 5 dígitos – 4 dígitos.

» texto = """
»     Suponha que temos um texto com um número de telefone 
»     Telefone do cliente: +55(21)99876-5432
»     mais texto irrelevante
» """

» padrao = r"\+\d{2}\(\d{2}\)\d{5}-\d{4}"
» fone = re.search(padrao, texto).group()

» print(fone)
↳  +55(21)99876-5432

# uso de \b para demarcar palavras
» texto = "Apata patati patacolá para achar pata"
» casa = re.search(r"\bpata\b", texto)
» print(casa.group(), "posição:" ,casa.start())
↳ pata posição: 33

# uso de \D representando não-dígito
» texto = "0123-45 6123-45 A123-45"
» casa = re.search(r"\D123-45", texto)
» print(casa.group(), "posição:" ,casa.start())
↳ A123-45 posição: 16

» texto = "123A_B"
» casa = re.search(r"\D{3}", texto)
» print(casa.group(), "posição:" ,casa.start())
↳ A_B posição: 3

# \w = alfanumérico e sublinhado
» texto = "\t\n casa 123_5 123-45"
» casa = re.search(r"\w{5}", texto)
» print(casa.group(), "posição:" ,casa.start())
↳ 123_5 posição: 8


# \W nem alfanumérico nem sublinhado
» casa = re.search(r"\W+", "*-!@#123A_B")
» print(casa.group(), "posição:" ,casa.start())
↳ *-!@# posição: 0


Um regex simples para selecionar um email pode ser:

» texto = "Email: 123casa@dasogra.com.br pode ser extraído!"
» padrao = r"\w+@\w+(\.\w+)+"
» print(re.search(padrao,texto).group())
↳  123casa@dasogra.com.br

O padrão “casa” com um email no formato <palavra>@<palavra><uma ou mais .palavras>. Aqui palavra é qualquer sequência contínua de caracteres ou dígitos, @ é literal (pois não é um metacarater do regex). O grupo (\.\w+)+ casa com .com e com .com.br.

Raw Strings

No Python uma “raw string” é uma sequência de caracteres que ignoram caracteres especiais no texto demarcado com \. "\ttexto" é “texto” após um espaçamento de tabulação mas r"\ttexto" é uma string simples. Sempre que o padrão envolve metacaracteres com a barra invertida \, é necessário usar “raw strings”.

» texto = "(casa): 72715-620, (escritório): 74854-890"
» busca = re.search(r"\(casa\)", texto)
» busca.group()
↳ (casa)

# \n significa um caracter de "new line"
» print(r"Olá\nPessoal")
↳ Olá
↳ Pessoal

# em uma raw string r"\n" é tratada como literal (não um escape)
» print(r"Olá\nPessoal")
↳ Olá\nPessoal

# para incluir um metacaracter na busca usamos escape
texto = "(casa): 72715-620, (escritório): 74854-890"
re.search(r"\(casa\)", texto).group() # retorna (casa)
re.search(r"(casa)", texto).group()   # retorna casa

# o prefixo "r" altera o signicado da string, quando existem metacarateres
r"o que é regex" == "o que é regex"   # True
r"10\25\1991" == "10\25\1991"         # False

No primeiro exemplo re.search(r"\(casa\)", texto) "\(" e "\)" representam, respectivamente os caracteres "(" e ")". O escape é necessário porque esses são metacaracteres do regex.

No Python existem outros prefixos para definir diferentes tipos de strings. Eles podem inclusive ser usados em conjunto. Entre eles estão:

Mais sobre esse tema em: Python, Strings e Codificação de strings.
  • b: strings de bytes
  • f: string formatada
  • u: string Unicode (Legados, PEP 414)

Métodos de re.Match

O objeto re.Match possui diversos métodos:

Método retorna
match.group() a parte do texto casada com o padrão,
match.start() índice do início da parte do texto casada com o padrão,
match.end() índice do fim da parte do texto casada com o padrão,
match.span() os índices do início e do fim da parte do texto casada com o padrão,
Propriedade retorna
match.re a expressão regular casada (o padrão),
match.string o texto passado como parâmetro.
» texto = "Telefone: 05 (61) 3940-35356 (casa da Dinda), CEP: 123456789"

# 4 digitos, hifen, 5 dígitos
» padrao = r"\d{4}-\d{5}"

# a variável resultado contém um objeto Match
» resultado = re.search(padrao, texto) 
» if resultado:
»     print(resultado.group())
»     print(resultado.start())
»     print(resultado.end())
»     print(resultado.span())    
» else:
»     print("Padrão não encontrado!")

↳ 3940-35356
↳ 18
↳ 28
↳ (18, 28)

» texto = "CEP do cliente: 72715-620, DF"
» busca = re.search(r"\d+", texto)

» print(busca.start(), busca.end())
↳ 16 21

# o primeiro trecho casado é retornado
» print(texto[busca.start(): busca.end()], "=", busca.group())
↳ 72715 = 72715

» busca = re.search(r"-\d+", texto)
» print(busca.group())
↳ -620

match.group(), que é o mesmo que match.group(0), se refere a todos os grupos encontrados. Se o padrão contém apenas um grupo só uma combinação é encontrada. Podemos construir padrões com mais de um grupo usando os marcadores de grupos, os parênteses ().

» texto = "Telefone: 05 (61) 3940-35356 (casa da Dinda), CEP: 123456789"

# 4 digitos (1º grupo), hifen, 5 dígitos (2º grupo)
» padrao = r"(\d{4})-(\d{5})"
» resultado = re.search(padrao, texto) 

# o 1º grupo combina com
» print(resultado.group(1))
↳ 3940

# o 2º grupo combina com
» print(resultado.group(2))
↳ 35356

# ambos os grupos
» print(resultado.group())
↳ 3940-35356

Diferença entre re.search e re.match

No módulo re do Python, as funções search e match têm comportamentos diferentes:

resultado = re.match(padrao, texto): A função match só retorna uma correspondência se o padrão for encontrado no início da string.
resultado = re.search(padrao, texto): A função search retorna correspondência se o padrão for encontrado em qualquer parte da string.

Ambas as funções retornam um objeto re.Match se encontrarem uma correspondência, ou None caso contrário.

» padrao = r"\d{2}-\d{3}"   # 2 dígitos + <hífen> + 3 dígitos

»  print("1-", "Achou" if re.match(padrao, "12-345 Casa da Sogra") else "Não achou")
»  print("2-", "Achou" if re.match(padrao, "Número: 12-345 Casa da Sogra") else "Não achou")
»  print("3-", "Achou" if re.search(padrao, "12-345 Casa da Sogra") else "Não achou")
»  print("4-", "Achou" if re.search(padrao, "Número: 12-345 Casa da Sogra") else "Não achou")

↳ 1- Achou
↳ 2- Não achou
↳ 3- Achou
↳ 4- Achou

Método re.findall

re.findall(padrao, texto)

O método findall encontra todas as ocorrências de padrao em texto e retorna uma lista com os trechos encontrados.

» import re
» texto = "Hoje 1 estamos 23 procurando 456 por 7890 números"
» padrao = r"\d"   # \d = um dígito qualquer
» resultado = re.findall(padrao, texto)
» print(resultado)
↳ ["1", "2", "3", "4", "5", "6", "7", "8", "9", "0"]

# \d+ = qualquer um ou mais dígitos
» print(re.findall(r"\d+", texto))
↳ ["1", "23", "456", "7890"]

# \d{2} = grupos de 2 dígitos
» print(re.findall(r"\d{2}", texto))
↳ ["23", "45", "78", "90"]

# \d{3} = grupos de 3 dígitos
» print(re.findall(r"\d{3}", texto))
↳ ["456", "789"]

# \d{3,} = grupos de 3 ou mais dígitos
» print(re.findall(r"\d{3,}", texto))
↳ ["456", "7890"]

# \D+ = grupos de 1 ou mais não-dígitos
» print(re.findall(r"\D+", texto))
↳ ["Hoje ", " estamos ", " procurando ", " por ", " números"]

# caracteres na faixa de a até d (a, b, c, d)
» print(re.findall("[a-d]", texto))
↳ ["a", "c", "a", "d"]

# dígitos na faixa de 1 a 4 (1,2 ,3, 4)
» print(re.findall("[1-4]", texto))
↳ ["1", "2", "3", "4"]

# texto "oje" ou "ando"
» print(re.findall("oje|ando", texto))
↳ ["oje", "ando"]

# texto "oje" ou "ando" seguindos de qualquer sequência de caracteres
» print(re.findall("oje.*|ando.*", texto))
↳ ["oje 1 estamos 23 procurando 456 por 7890 números"]

# Obs. em qualquer busca o trecho casado é excluído de buscas posteriores.
# o padrão "ando.*" é ignorando

# se os trechos casados não estão superpostos, todos são retornados

» print(re.findall("pr[aeo]to", "prato, preto pretoria proton"))
↳ ['prato', 'preto', 'preto', 'proto']

# para encontrar no texto um padrão que contém metacaracteres devemos usar "raw strings"
» texto = "Podemos usar \n para quebra de linha e \t para tabulações."
» print(re.findall(r"[\n\t]", texto))
↳ ["\n", "\t"]

findall é muito útil para se extrair uma lista de dados no mesmo padrão que se encontram repetidas vezes em um texto:

» import re
» texto = """
»      Lista de alunos com número de telefone
»      1. Nome: Marco Paulo 
»         Tel.: +55(21)99876-5432
»      2. Nome: Ana Raio 
»         Tel.: +55(11)99567-0987
» """
» padrao = r"\+\d{2}\(\d{2}\)\d{5}-\d{4}"
» lista = re.findall(padrao, texto)
» for tel in lista:
»     print(tel)

↳ +55(21)99876-5432
↳ +55(11)99567-0987

# um elemento individual dessa lista é obtido da forma usual
» print(lista[0])
↳ +55(21)99876-5432

Método re.split

resultado = re.split(padrao, texto, [maxsplit])

O método split parte o texto em todas as ocorrências de padrao e retorna uma lista com os trechos encontrados. Se o padrão não for encontrado uma lista com o texto inteiro é retornada. O parâmetro maxsplit é opcional e especifica o número máximo de cortes que devem ser feitos no texto. O default é maxsplit = 0, signicando que todos os cortes possíveis serão feitos.

» import re
» texto = "Hoje 1 estamos 23 procurando 456 por 7890 números"
» padrao = r"\d+"
» resultado = re.split(padrao, texto) 

# texto picado em toda ocorrência de 1 ou mais dígitos
» print(resultado)
↳ ["Hoje ", " estamos ", " procurando ", " por ", " números"]

# texto picado em toda ocorrência de espaços (\s)
» print(re.split(r"\s", texto))
↳ ["Hoje", "1", "estamos", "23", "procurando", "456", "por", "7890", "números"]

# padrão não encontrado
» print(re.split("w", texto))
↳ ["Hoje 1 estamos 23 procurando 456 por 7890 números"]

Podemos usar o comprimento da lista retornada por split para saber se houve correspondência com o padrão. Além disso o parâmetro maxsplit limita quantas partes obteremos no retorno.

» texto = "Este_é_um_texto_sem_espaços!"
» partido = re.split(r"\s", texto)
» print(partido[0] if len(partido) > 1 else "Padrão não encontrado!")
↳ Padrão não encontrado!

# especificando maxsplit = 2 (fazer apenas 2 cortes no texto)
» print(re.split(r"\d+", texto, 2))
↳ ["Hoje ", " estamos ", " procurando 456 por 7890 números"]

Método re.sub

resultado = re.sub(padrao, subst, texto, [quantos])

O método re.sub procura um padrão e o substitui por um texto. A variável resultado é uma string com padrao substituído por subst. Se o padrão não é encontrado o texto original é retornado. O parâmetro opcional quantos indica quantas substituições devem ser feitas. O default é quantos = 0, o que significa que todas as ocorrências do padrão devem set substituídas.

# remover todos os espaços em branco
» import re
# texto com várias linhas e espaços em branco
» texto = "Nome: Pedro \nSobrenome: Alvarez\nCabral"
# padrão para casar com espaços (troca espaços por "")
» padrao = r"\s"
» sub = ""
» resultado = re.sub(padrao, sub, texto) 

» print(resultado)
↳ Nome:PedroSobrenome:AlvarezCabral

# padrão para substituir 1 ou mais espaços por espaço único
» texto = "É comum  ter   textos  com dois ou mais espaços   inseridos onde  se deseja     apenas um!"

» print(texto)
↳ É comum  ter   textos  com dois ou mais espaços   inseridos onde  se deseja     apenas um!

» print(re.sub(r"\s+", " ", texto) )
↳ É comum ter textos com dois ou mais espaços inseridos onde se deseja apenas um!

# usando o parâmetro quantos
» texto = "Esse texto possui 4 ocorrências de 3 dígitos repetidos: 012, 123, 234 e 345."

# Substituindo apenas as 2 primeiras ocorrências de 3 dígitos por ###
» print(re.sub(r"\d{3}", "###", texto, 2))
↳ Esse texto possui 4 ocorrências de 3 dígitos repetidos: ###, ###, 234 e 345.

Método re.subn

resultado = re.subn(padrao, subst, texto, [quantos])

O método re.subn é similar à re.sub mas retorna uma tupla de 2 itens, contendo a string modificada e o número de substituições feitas.

» texto = "Temos as seguintes permutações de {a, b, c}: abc, acb, bac, bca, cab, cba."
» resulta = re.subn("[abc]{3}", "|||", texto)
» print(resulta)
» print("Foram feitas {} substituições".format(resulta[1]))

↳ ("Temos as seguintes permutações de {a, b, c}: |||, |||, |||, |||, |||, |||.", 6)
↳ Foram feitas 6 substituições

O método re.search recebe dois argumentos: um padrão e o texto a ser modificado. O método procura apenas pela primeira ocorrência do padrão. Se existe um casamento o método retorna um objeto match que contém a posição da coincidência (início e final) e a parte do texto que combina com o padrão. Se não houver nenhum casamento o método retorna None.

Método re.compile

padraoCompilado = re.compile(padrao, flags = 0)

O método re.compile() é especialmente útil quando o mesmo padrão será usado muitas vezes. Ele prepara um padrão através de uma pré-compilação e as armazena em cache que torna mais rápidas as buscas.

O método retorna um objeto re.Pattern que representa o padrao compilado sobre efeito dos parâmetros opcionais flags. Um exemplo é flag = re.I que determina que a busca será “insensível ao caso”. O objeto possui métodos que permitem as buscas pelo padrão dentro de um texto, tal como padrao.findall(texto), que retorna uma lista, ou padrao.finditer(texto) que retorna um iterável com os casamentos encontrados.

Por exemplo, o padrão patt = “(xa|ma){2}” significa um dos dois grupos, “xa” ou “ma”, repetidos 2 vezes.

# 2 ocorrências de "xa" ou "ma"
» patt = "(xa|ma){2}"
» padrao = re.compile(patt)
» texto = "xa, xaxado, ma, mamata, errata"
» busca = padrao.findall(texto)
» print(busca)
↳ ["xa", "ma"]

# ocorrência de 5 dígitos juntos
» padrao = re.compile(r"\d{5}")
» texto = "12345 543213 858 9658 96521"
» busca = padrao.finditer(texto)
» for t in busca:
»     print(t.group())
↳ 12345
↳ 54321
↳ 96521

Nota: Nas versões mais modernas da Python e do módulo re não há uma diferença muito grande no uso de uma expressão compilada ou não. De qualquer forma, quando se faz uma busca como re.find(padrao, texto) o padrão é internamente compilado. Muitos programadores gostam de fazer as compilações de padrões por clareza de código, e para separa a definição do padrão de seu uso. Por exemplo:

regex = "padrao"
# em outra parte do código (ou usado múltiplas vezes):
m = re.match(regex, texto)

# talvez seja mais claro o seguinte uso:
regex = re.compile("padrao")
# em outra parte (ou usado múltiplas vezes):
m = regex.match(texto)

O objeto retornado, representado pela variável padraoCompilado acima, tem vários atributos, que podem ser vistos com a função dir(). Entre eles temos:

Flags ou sinalizadores

Os métodos do módulo re admitem um parâmetro extra chamado de flag (sinalizador ou marcador). Eles modificam o significado do padrão que se pretende buscar.

Os sinalizadores podem ser qualquer um dos seguintes:

Abreviado longo integrado (inline) significado
re.I re.IGNORECASE (?i) ignorar maiúsculas e minúsculas.
re.M re.MULTILINE (?n) força os localizadores ^ $ a considerarem uma linha inteira.
re.S re.DOTALL (?s) força . a casar com a newline, \n.
re.U re.UNICODE (?u) força \w, \W, \b, \B} a seguirem regras Unicode.
re.L re.LOCALE (?L) força \w, \W, \b, \B} a seguirem regras locais.
re.X re.VERBOSE (?x) permite comentários no regex.
» txt = "estado, Estudo, estrume, ESTATUTO"
» r1 = re.findall("est[a-z]+", txt)
» r2 = re.findall("est[a-z]+", txt, flags=re.IGNORECASE)

» print(r1)
↳ ["estado", "estrume"]

» print(r2)
↳ ["estado", "Estudo", "estrume", "ESTATUTO"]

# o mesmo resultado pode ser obtido com a notação inline
» re.findall("(?i)est[a-z]+", txt)
↳ ["estado", "Estudo", "estrume", "ESTATUTO"]

» re.findall("[a-z]+[dt]o", txt, flags=re.I)
↳ ["estado", "Estudo", "ESTATUTO"]

Para usar mais de uma flag é possível separá-las com uma barra vertical (ou pipe). Por exemplo para uma busca multiline, insensível ao caso e com comentário:

re.findall(padrao, texto, flags=re.I|re.M|re.X)

» texto = """
» Gato é um bicho engraçado.
» gato não é como cachoroo.
» Gato mia!
» """

# a 1&orf; linha não começa com "gato"
» re.findall("^gato", texto, flags=re.IGNORECASE)
↳ []

# procurando em todoas as linhas
» re.findall("^gato", texto, flags=re.M)
↳ ["gato"]

# procurando em todoas as linhas, insensível ao caso
» re.findall("^gato", texto, flags=re.I | re.M)
↳ ["Gato", "gato", "Gato"]

# o mesmo resultado pode ser conseguido com flags inline
» re.findall("(?i)(?m)^gato", text)
↳ ["Gato", "gato", "Gato"]

Exemplos

Um exemplo simples de remoção de tags aplicado a um texto HTML pode ser o seguinte: O padrão padrao = "<.*?>|[\n]" apenas casa com qualquer conteúdo dentro de <>, não guloso ou um sinal de quebra de linha, [\n]. Usando o método re.sub removemos todos os trechos que casam com esse padrão.

» html = """
» <html>
» <body>
» <p>Parágrafo um.</p>
» <p>Parágrafo dois.</p>
» </body>
» </html>
» """
» padrao = r"<.*?>|[\n]"
» textoSemTags = re.sub(padrao, "", html)
» print(textoSemTags)    
↳ Parágrafo um.Parágrafo dois.

Existem bibliotecas sofisticadas para web scrapping, como Beautiful Soup que permite a busca, modificação e completa navegação de um documento extraído de uma página HTML. Buscas podem ser feitos por elementos de css, ids e classes e tags.

Padrões muito complexos são difíceis de serem lidos e alterados. Para quem programa em Python as buscas regex são geralmente ferramentas auxiliares que podem ser complementadas com manuseios do texto feitos em código.

Suponha que temos um texto no formato *.csv (valores separados por vírgulas) com 5 colunas. Na quarta coluna existe uma data com formato nem sempre consistente, como 26/06/2021 onde o ano pode ter apenas 2 dígitos e o separador pode ser um barra ou hífen. Queremos extrair o valor da quinta coluna quando o ano for posterior a 2015.

» csv = """
» col1, col2, col3, data, valor
» a1  , a2   , a3  , 01/06/01, 1000
» b1  , b2   , b3  , 06/05/2016, 1000
» c1  , c2   , c3  , 4/3/17, 2000
» d1  , d2   , d3  , 14-12-2018, 600
» e1  , e2   , e3  , 19-09-19, 600
» """

» for t in csv.split(r"\n"):
»     data  = t.split(",")
»     if len(data) != 5: continue
»     dt = data[3].strip()    
»     if not re.match(r"\d{1,2}[/|-]\d{1,2}[/|-]\d{2,4}", dt):  continue
»     ano = int(re.split("[/|-]",dt)[2])
»     ano = ano + 2000 if ano < 100 else ano
»     if ano > 2015:
»         print(ano, data[4])
↳ 2016  1000
↳ 2017  2000
↳ 2018  600
↳ 2019  600 

O texto é partido em linhas, cada linha em campos separados por vírgula. Como existem linhas vazias só são aproveitadas aquelas com 5 campos. Formatos de data não admissíveis são excluídos e uma correção para anos com apenas dois dígitos inserida.

Bibliografia

Expressões Regulares (regex)


O que são Expressões Regulares?

†: Uma string é uma sequência de caracteres (que podem ser letras, números, símbolos ou espaços) usada para representar texto e marcações de texto (como marcas de nova página ou tabulação) . Strings são um tipo de dados mais frequentemente usado na programação.
Strings são:

  • uma sequência de caracteres. Ex.: “Olá”, “123”, “A1b2@c3” ou “Pedro\nÁlvares”.
  • imutáveis em algumas linguagens como Python e Java. Uma vez criadas não podem ser alteradas diretamente. Para modificar uma string deve-se criar uma nova string.
  • indexadas: Os caracteres de uma string podem ser acessados individualmente por meio de índices, em geral começando no 0. Ex.: Na string PAZ “P” está no índice 0, “A” no índice 1 e “Z” no índice 2.
  • concatenáveis: Strings podem ser concatenadas para formar novas strings. Ex.: “Fala ” + “sério!” resulta em “Fala sério!”.
  • possuem tamanho ou comprimento que consiste no número de caracteres. Ex.: O comprimento de “muamba” é 6.

††: Usaremos, por concisão, a expressão sensível (insensivel) ao caso significando sensível (insensivel) à minúsculas e maiúsculas.

Tags do HTML são comandos de formatação de texto envolvidos por dois sinais < >. Alguns exemplos são
<p>um parágrafo</p>, <b>letras em negrito</b>, etc.

Expressões regulares, também chamadas de regex (de regular expression), são sequência de caracteres que definem padrões usados para identificar e manipular strings de forma eficiente. Elas são uma ferramenta poderosa em programação para buscar, validar, extrair ou substituir blocos de textos dentro de um ou vários documentos. O padrão expresso pela regex pode ser simples (como uma palavra específica) ou complexo (como um formato de e-mail ou número de telefone). O motor de regex interpreta esse padrão e o aplica a um texto para encontrar correspondências.

Regex são usados basicamente para a busca de um padrão, substituição de texto, validação de formatos e filtragem de informações. Praticamente todas as linguagens de programação possuem ferramentas de uso de regex, assim como grande parte dos editores de texto. As diferentes linguagens de programação e aplicativos que incorporam funcionalidade de regex possuem sintaxes ligeiramente diferentes, cada uma, mas há uma embasamento geral que serve a todas. Existem aplicativos de teste de regex em diversas plataformas e aplicativos online para o mesmo fim.
Exemplos de uso são:

  • filtragem de linhas de um texto longo com determinados caracteres no início, meio ou fim da linha;
  • remoção de tags de um texto escrito em html, com possível seleção dentro de uma tag determinada;
  • validação de texto para representar datas e horas;
  • validação de texto digitado pelo usuário para representar CPF, email, URL, CEP, cartão de crédito, etc;
  • extração de dados de um arquivo csv, json, XML, markdown ou outro formato estruturado qualquer.
  • busca e substituição de ocorrências de um padrão dentro de um texto.
  • extração de informações: Extrair números, datas ou outros dados específicos de um texto.
  • divisão de strings em partes com base em um delimitador.

Dizemos que um determinado padrão regex é procurado no texto até que ocorra um ou mais “casamentos” (match, em inglês). Por exemplo, o padrão ab é encontrado (e, portanto, casa com) os textos abraço, absolvido ou aberração, mas não casa com asbestos. Se for pedida uma busca insensível ao caso††, ele também casa com Abraço ou ABROLHOS. Em todo esse artigo marcaremos as partes “casadas” pela essa formatação especial.

Nos exemplos e tabelas desse artigo existem repetições de conteúdo para facilitar o aprendizado. Tabelas enxutas para consultas serão listadas em outra parte.

Caracteres simples ou conjuntos de caracteres (strings comuns) são casados literalmente.

padrão significado exemplo: casa ou não com
a caracter comum a casa Afazer aaa
ab grupos de caracteres comuns ab absoluto abraço Abcd trabalho
em 1945 caracteres alfanuméricos em 1945 a segunda guerra mundial terminou em 1945.

Metacaracteres

Claro que não precisaríamos de nenhuma tecnologia especial para encontrar letras ou conjuntos de letras. Para construir padrões mais complexos usamos os metacaracteres (o que significa que têm significados especiais): . * ^ $ + ? { } [ ] \ | ( ).

O ponto (.) é o mais simples dos metacaracteres, representando qualquer caracter único. Isso significa que ele marca (substitui ou casa com) qualquer caracter, inclusive o próprio ponto.

padrão casa com não casa com
p.ata prata, plata pata pirata
lu.a luta, luma lua lucca
phylos.net phylos.net, phylos-net phylosnet
ma..a marra, maira, matra barra, maxima
99.123.45 99.123.45, 99-123.45, 990123-45 9912345, 991.23.45

Para procurar por um padrão que contém um ponto, como caracter explícito, usamos a barra de escape: \..

padrão casa com não casa com
dominio\.com dominio.com dominio-com
123.\.5 1234.5, 1230.5 1234@5

Veremos ainda outros tipos de aplicações para escape.

Quantificadores

Os quantificadores * ? + {} permitem o controle de quantas repetições de um padrão ocorrem.

O asterisco * representa zero, uma ou várias repetições do caracter que o precede (que vem antes).

padrão casa com não casa com
Jo*e Je, Joe, Jooe Jose
1*23 23, 123, 1123 1021
.* qualquer quantidade de qualquer caracter
ma.*a maa, mara, marra, massa manta, matra

A interrogação ? representa zero ou uma repetição do caracter que o precede.

padrão casa com não casa com
Jo?e Je, Joe Jooe
1?23 23, 123 1123 1021
.? nenhum ou uma ocorrência de qualquer caracter

O sinal de mais + representa uma ou mais repetições do caracter que o precede.

padrão casa com não casa com
Jo+e Joe, Jooe Je
1+23 123, 1123 23 1021
.+ 1 ou mais ocorrências de qualquer caracter


As chaves {n} indicam n repetições do caracter precedente.
{n,} significa mínimo de n repetições do caracter precedente.
{n,m} significa mínimo de n, máximo de m repetições do caracter precedente.

padrão casa com não casa com
A{3} AAA, GAAAA AA AAB
Ot{2}o Otto Oto
1{2}9{3} 11999, A:11999 119, 11199
s{2,} passar, asssb casa, sapo
s{2,4} passar, asssb , sssss casa, sapo
.{5} 5 repetições de qualquer caracter

Âncoras


Os marcadores de posição ou âncoras ^ $ \b \B permitem o controle da posição onde o padrão ocorre.

No que se segue:
\w indica um caracter alfanumérico ou sublinhado,
\W é a negação de \w, representando um não-caracter.

Então:
^, circunflexo, indica que o padrão seguinte está no início da linha,
$, cifrão, indica que o padrão prévio está no final da linha,
\b indica início ou fim de uma palavra (que é uma sequência contínua de caracteres). Ele marca a passagem de um caracter \w para um \W,
\B é a negação de \b, representando o início ou fim de uma palavra envolta em um não-caracter \W.

padrão casa com não casa com
^f filho afazia
^3{2} 333-123 133-7654
s$ bois essência
m{3}$ booommm mmmassa
\bPedro Pedro -Pedro .Pedro LPedro _Pedro
Pedro\b Pedro Pedro- Pedro. PedroL Pedro_
\BMaria LMaria _Maria 3Maria Maria -Maria
Maria\b Maria Maria- Maria. MariaL Maria_
^^.* uma linha iniciada por ^
^$ uma linha vazia
.{5}$ casa 5 últimos caracteres de uma linha
^.{15,30}$ casa linhas com 15 até 30 caracteres

Observe que o sinal ^, além de servir como âncora (marcando o início da string) também pode servir como sinal de negação, o que será descrito abaixo.

Classes de caracteres

Classes de caracteres são marcações que funcionam como "shortcuts", representando um grupo de caracteres ou controles.

\s representa um espaço simples.
\S representa espaço negado (não é um espaço).
\d representa qualquer dígito. O mesmo que [0-9].
\D \d negado. Qualquer não dígito. O mesmo que [^0-9].
\w caracter alfanumérico e sublinhado.
\W \w negado. Qualquer sinal exceto caracter alfanumérico e sublinhado.
padrão casa com não casa com
\s casadamãeJoana (espaços) casa_da_mãe_Joana
123\s456 123 456 99.123 456.90 123.456__123_456
\S casa "   "
\d{3}/\d{2} 123/56 987/78 22/3 aaa/bb
\D+ basta 123 0000
\D{3}-\D{2} abc-de aAs-fg1 a2c-de 123-00
\w+ atr3v1d0_b3sta phylos.net --- @@@ %%%
\W+ --- @@@ %%% phylos.net atr3v1d0_b3sta
[\b] caracter de backspace
\c caracter de controle

Para procurar por um dos metacaracteres como um literal dentro do texto usamos o escape \.

padrão casa com não casa com
\\s No regex \s casa espaço, número \s987 s ss " "
R\$45 R$45 R45
(U\$5|R\$25)ǂ U$5, R$25 U$ 5
\\d\(\d{2}\) \d(69), \d(00) \d(123), \d12

Nota ǂ: Já veremos o significado dos sinais () e |.

Agrupamentos

É possível encontrar um dos caracteres dentro de um conjunto de caracteres usando chaves []. Essa notação permite a descrição de intervalos como [a-z], significando todas as letras minúsculas de a até z, ou [0-9], todos os dígitos.

padrão casa com não casa com
pr[ae]to prato, preto prto, proto
[a-e]rm arm, permanente, ermitão frm, rm
[5-7]00 500, 600, 700 800, 00
c[ep]* c, ce, cp, cep, ceep, ceepp bep, ep
</[bi]*> </b>, </i>, </>, </bi>, /b, /i>
</[bi]{1}> </b>, </i> </>, </bi>

Como já mencionado, é possível negar caracteres em um agrupamento usando ^ como primeiro sinal dentro de uma lista. Nesse caso ele nega todos os caracteres da lista.

padrão casa com não casa com
^[0-9].* 1989, 5G (1) G5
^[^0-9].* G7, I-99 (2) 5G
[0-9]^ 0^, 1^ (3) 55

(1): Não existe negação aqui. ^ marca o início da linha. O padrão casa com textos que possuem um dígito no início.
(2): O padrão casa com textos que não se iniciam com um dígito.
(3): Qualquer dígito seguido do circunflexo literal ^. Também não existe negação aqui.


Outros agrupamentos: alguns caracteres de controle permitem o agrupamento de texto e padrões.

(abc) permite o agrupamento simples de caracteres (no caso 'abc').
[abc] quaisquer dos caracteres (no caso a, b ou c).
[a-z]: qualquer caracter no intervalo de a até z.
[^a-z]: negação de [a-z]. Todos os caracteres exceto aqueles entre a e z.
[0-9]: qualquer dígito entre 0 e 9.
[^0-9]: negação de [0-9]. Tudo o que não é dígito.
a|b: opcional, a ou b.
(padrao1|padrao1): busca por um ou outro padrão.
padrão casa com não casa com
(est) muito estudo, sem estado Estimo, set
[est]ato sato, tato mato
[f-h]ato fato, hato, gato mato, rato, feto
[^f-h]ato mato, rato, lato fato, gato
[^a-c]123 r123, M-123, s/123 a123, b123
[1-5]-[6-9] 1-6, 123-456, A5-6 a1-b2, 6-1
[^1-5]6789 06789, 12345678900, R56789 16789
p(l|r)at platão, prata pato, piato
p(at|len)o pato, pleno patleno, po, plo
p(ratic|ublic|enal)idade praticidade, publicidade, penalidade pcidade, pibcidade
(s{2}|r{2})os carros passos nossos erros casos, cappos, cassas
[0-2][0-9]:[0-5][0-9] 04:20, 12:50 34:30, 11:65

Uma observação importante: dentro de um agrupamento por colchetes ([]) o ponto e todos os demais metacaracteres têm valor literal e não precisam ser "escapados". A única exceção é o hífen, - que serve para representar intervalos. Para inserir um hífen no padrão agrupado devemos colocá-lo como o último do grupo. Para usar o caracter ] ele deve ser posto como o primeiro elemento para não ser confundido com o fechamento do grupo. Não há restrição sobre onde colocar o [.

padrão casa com não casa com
12[:. ]45 12:45, 12.45, 12 45 1245, 12-45, 12/45
[$€¥]137 $137, €137, ¥137 137, R137
876[/_-]543 876/543, 876_543, 876-543 876 543, 876|543
doid[]oa] doid], doido, doida doid[, doide, doid*
doid[[oa] doid[, doido, doida doid], doide, doid*
9[1-5-][a-f] 92b, 9-b 95, 9-, 91g
[*ab]\d *9, a3, b5 64

Observe que [*] = \* e \d = [0-9]. São outros atalhos ou shortcuts:

Shortcut casa com equivale a
\d um dígito [0-9]
\D um não dígito [^0-9]
\s um espaço em branco (ou tab, alimentação de folha ou linha)
\S qualquer caracter, exceto espaço em branco
\w qualquer caracter alfanumérico (inclusive _ )
\W qualquer caracter não-palavra

Correspondência gananciosa ou preguiçosa

Por default as buscas quantificadas por * + {} são gananciosas (greddy), o que significa que englobam a maior porção de texto casada com o padrão.

Em inglês se usa os termos greddy e lazy, que significam literalmente "ganancioso" e "preguiçoso" para se referir à correspondência do maior ou menor intervalo possível de texto. Em português são comuns as traduções ganancioso e prequiçoso ou guloso e não-guloso.


O padrão <.+> significa 'todos os caracteres entre os sinais < > e casa com o maior texto possível iniciado por < e finalizado por >, mesmo que o caracter finalizador ocorra nesse intervalo casado. Portanto, se quisermos extrair o texto circundado pela tag div devemos ser capazes de escrever um padrão que é interrompido no primeiro encontro do caracter finalizador >. Essas são as chamadas buscas preguiçosas, o que é possível se obter com o acréscimo do sinal ? após o quantificador.

padrão casa com não casa com
<.+> <div class="classe">Todo o texto dentro da TAG</div> texto sem tags
<.+?> <div class="classe">Todo o texto dentro da TAG</div> texto sem tags
.*(\sR) primeiro R segundo R fim (1) primeiro, segundo, fim
.*?(\sR) primeiro R segundo R fim (2) primeiro, segundo, fim
\d+ 1957 2021 258.1258 abcd
\d+? 1957 2021

(1): .*(\sR) significa "qualquer quantidade de caracteres seguido de espaço, depois um R".
(2): A versão "prequiçosa" pára na primeira ocorrência de " R", depois casa um segundo grupo.

Observe que o padrão .*? significa "zero ou qualquer número de qualquer caracter" e portando não casa com coisa alguma.

Resumindo:

Ganancioso casa
ab* abbbb
ab+ abbb
ab? ab
ab{1,3} abbb
Preguiçoso casa
ab*? a
ab+? ab
ab?? a
ab{1,3}? ab

Grupos

Caracteres dentro de chaves ()são tratados como grupos e casados juntos. Todos os quantificadores e âncoras podem ser aplicadas aos grupos e podemos inclusive aninhá-los (usar um grupo dentro de outro).

padrão casa com não casa com
([a-z]+) casa com palavras de minúsculas
(bem|mal)\sfeito bem feito, mal feito
(bem|mal)?\sfeito bem feito, mal feito, feito
(in|con)?certo incerto, concerto, certo
(in|con)+certo incerto, concerto certo
(\.\d){2} .1.2, .4.5, .0.0 12, 1.2
(www\.)?phylos.net www.phylos.net, phylos.net
(hiper|hipo)(trofia|plasia) hipertrofia, hipotrofia, hiperplasia, hipoplasia plasia, hipo
((su|hi)per)?mercado supermercado, hipermercado, mercado plasia, hipo

Retrovisores

O grupos permitem o uso de retrovisores com a sintaxe (grupo)\1...9. Esse uso de \1...9 (\ seguido de um dígito, 1 - 9) não tem relação com escape mas denota um grupo casado. Ele serve para a reutilização do trecho casado para uma nova busca no texto alvo.

Por ex.:
([a-z]+) casa com palavras de uma ou mais letras minúsculas.
([a-z]+)- casa com palavras de uma ou mais letras minúsculas seguidas de hífen.
([a-z]+)-\1 armazena o texto casado e o procura novamente, uma vez.

padrão casa com não casa com
([a-z]+)-\1 quero-quero, mau-mau, asdfg-asdfg quero
([a-z]+)-?\1 quero-quero, queroquero, bombom, bombomzeiro bom
in(co)lo(r) = sem \1\2 incolor = sem cor
\b([a-z]+)-?\1\b quero-quero, queroquero, bombom (1) bombomzeiro
\b(bo(na|to))\1\b bonabona, botoboto (2) rbotoboto, bonabonas
(rapida)(mente) conseguimos uma \2 \1 rapidamente conseguimos uma mente rapida (3)
(su)d(ão) do \1l n\2 sudão do sul não
(AA)(99)(hh) \3 \1 \2 AA99hh hh AA 99 (4) AA99hhhhAA99
(AA)(99)(hh)\3\1\2 AA99hhhhAA99 (5) AA99hh hh AA 99
(\d{2})(\d{3})(\d{2}) \1-\2-\3 1122233 11-222-33, 9988877 99-888-77 998877 99-88-77
((band)eira)nte \1 \2alheira bandeirante bandeira bandalheira (6)

(1): \b inicial e final significa que o padrão circundado é uma "palavra".
(2): O padrão casado e repetido é bona ou boto no início e no fim da "palavra".
(3): o 1º grupo é rapida, o 2º é mente.
(4): os grupos 1, 2 e 3 são capturados na ordem, e repetidos em outra ordem, separados com espaços.
(5): o mesmo que (4), exceto que os grupos são repetidos sem espaços.
(6): ilustrado na figura abaixo.

O retrovisor serve para procurar grupos repetidos. Os grupos são numerados de 1 até 9, contando-se da esquerda para a direita, sendo que o primeiro parêntese encontrado define a ordem do grupo.

Outras técnicas de grupos

Algumas técnicas mais sofisticadas foram implementadas nas expressões regulares, nem todas reconhecidas por todos os editores, IDEs e linguagens de programação. Para isso o metacaracter ainda não utilizado, (?..) ganhou significado de operador em regex.

(?#texto de comentário)
(?:regex): grupo casado mas não armazenado nem incluído na contagem dos grupos.

padrão casa com não casa com
(?#nome)(pa)(pi) \2\1 papi pipa papi papi
(Jó) (?:Alto)- (Rui) \1 \2 Jó Alto Rui- Jó Rui
(?:Z)-(\d{2})-(\d{4}):\2:\1 Z-11-2222:2222:11, Z-45-9876:9876:45
(?:\w)-(\d{3}) \1-\1 a-123 123-123, b-456 456-456 a-123 123-121

padrao(?=regex): não é casado mas determina regex que deve existir após padrao.
(?<=regex)padrao: não é casado mas determina regex que deve existir antes de padrao.

padrão casa com não casa com
casa (?=\d{2}) casa 23, casa 899 casa dez, 852 casa
Pedro(?=\sCa) Pedro Cabral, Pedro Camilo Pedro Barata, Pedroca
\d{4}(?=[A-Z]) , 1234A, 0987H, 6666GGG 354W, G5432, 987G
(?<=Albert) Einstein Albert Einstein Alberto Einstein
(?<=\d{3}) [a-r.]{5} 123 roman, 987 coma. 123 ruela

(?!regex): não é casado mas determina regex que não deve existir após outro padrão.
(?<!regex): não é casado mas determina regex que não deve existir antes de outro padrão.

padrão casa com não casa com
casa (?!\d{2}) casa dez, casa verde casa 12, casa 123
Pedro(?!\sCa) Pedro Bernardo, Pedro Bento, Pedroca Pedro Cabral
\d{4}(?![A-Z]) , 1234890, 0987-987 3354W, 5432H, 987G
(?<!\d{2}) casa naquela casa, outra casa 12 casa, 123 casa
(?<!Pedro) Cabral José Cabral Pedro Cabral
(?<![A-Z])-\d{4} 987-1234, 4-0987 A-3354, H-5432

(?P<nome>regex): grupo casado e nomeado com nome, ao invés de numerado com \1...\9.
Obs.: Essa é a sintaxe usado no Python. Ela pode variar em outros ambientes.

» data= '23 de junho de 2021'
» regex= '^(?P\d{1,2})\sde\s(?P\w+)\sde\s(?P\d{4})'
» matches= re.search(regex, data)

» print('Dia: ', matches.group('dia'))
» print('Mês: ', matches.group('mes'))
» print('Ano: ', matches.group('ano'))
↳ Dia:  23
↳ Mês:  junho
↳ Ano:  2021

(?modificador): modificador é uma ou mais letras que ativam uma funcionalidade, sendo:

Modificador Significado
i busca insensível ao caso
m força o metacaracter . a casar com \n
s obriga as âncoras ^ e $ a casarem com \n
x permite a inclusão de espaços e comentários
L força o uso da localização do sistema (só Python)
u considera a tabela Unicode (só Python)
padrão casa com não casa com
(?i)[a-z]* Pedro, aLLana 654-654
(?i)[A-Z]* Pedro, aLLana 654-654
(?i)\d+\.png 1234.png, 1234.PNG foto.png, 987000.jpg

Precedência de metacaracteres

Quando vários metacaracteres aparecem juntos eles obedecem a uma ordem definida de precedência, definida pela ordem na tabela.

Ordem Tipo Exemplo Significado
0 () (grupo) grupos não quebrado
1 quantificador abc+ ab seguidos de c em qualquer quantidade
2 concatenar abc abc simples
3 | ab|c ab ou c
3 | ab|c ab ou c

Alguns exemplos dessas regras de precedência:

padrão casa com significado
abc+ abc abcc abccc "ab" seguido de 1 ou mais "c"
abc abc abcc abccc "abc", juntos
(abc) abc abcc abccc "abc", juntos, em grupo
ab|c abc abc "ab" ou "c"
a(b|c) ab ac abc a abcc accc "a" seguido de "b" ou "c"
ab|cd* ab cd cddd abcdddddddd (1) o mesmo que (ab)|(c(d*))
s/ n/|número \d* s/ n/ número 19000 o mesmo que (s/ n/)|(número (\d*))

Para forçar uma união de caracteres em um grupo inquebrável usamos ().
(1): A concatenação em ab tem prioridade sobre a alternância |. d* ocorre antes da concatenação com c. Portanto ab|cd* é o mesmo que (ab)|(c(d*)).

Caracteres acentuados

Em português e outras línguas européias precisamos criar padrões que incluem caracteres com acentos. Uma alterniva é usar as classes POSIX listadas abaixo. Alternativamente podemos extender grupos de acordo com a tabela ASCII, o que é útil quando POSIX não está disponível.

POSIX alternativa significado
[[:lower:]] [a-zà-ü] minúsculas, acentuadas ou não
[[:upper:]] [A-ZÀ-Ü] maiúsculas, acentuadas ou não
[[:alpha:]] [A-Za-zÀ-ü] minúsculas e maiúsculas, acentuadas ou não
[[:alnum:]] [A-Za-zÀ-ü0-9] todas as letras, acentuadas ou não, e dígitos
padrão casa com significado
(ção)|(ções) noção noções
[à-ü] estúpido eqüinócio
[a-zà-ü]* retratação RETRATAÇÃO
[A-Za-zÀ-ü0-9]* retratação RETRATAÇÃO 2001

Classes POSIX

Nem todas as linguagens de programação aceitam as classes POSIX. Java e C dão suporte a POSIX e existem bibliotecas Python para o mesmo resultado.

Classe Descrição
[:digit:] dígito, \d; equivalente a [0-9]
^[:digit:] não dígito, \D; equivalente a [^0-9]
[:alnum] letras e números ; equivalente a [A-Za-z0-9]
[:space:] caracteres brancos ; equivalente a [ \t\n\r\f\v]
^[:space:] não espaço: \S
[:alpha:] letras; equivalente a [A-Za-z]
[:lower:] minúsculas; equivalente a [a-z]
[:upper:] maiúsculas; equivalente a [A-Z]
[:xdigit:] números hexadecimais; equivalente a [0-9A-Fa-f]
[:word:] \w qualquer caractere alfanumérico mais underscore (_); equivalente a [[:alnum:]_]
^[:word:] \W, negação de \w
[:blank:] espaço em branco e TAB; equivalente a [\t]
[:punct:] pontuação; equivalente a [!"\#$%&'()*+,\-./:;<=>?@\[\\\]^_‘{|}~]

Exemplos de validações com Regex

Alguns exemplos de validações com Expressões Regulares

Tipo de Validação regex
Dígitos ^\d+$
Letras ^\w+$
Decimal ^[+-]?((\d+|\d{1,3}(\.\d{3})+)(\,\d*)?|\,\d+)$ ^[-+]?([0-9]*\,[0-9]+|[0-9]+)$
URL ^((http)|(https)|(ftp)):\/\/([\- \w]+\.)+\w{2,3}(\/ [%\-\w]+(\.\w{2,})?)*$
E-mail ^([\w\-]+\.)*[\w\- ]+@([\w\- ]+\.)+([\w\-]{2,3})$
Endereço IP \b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b
Tempo (24 horas) ^([0|1|2]{1}\d):([0|1|2|3|4|5]{1} \d)$
Data (dd/mm/aaaa) ^((0[1-9]|[12]\d)\/(0[1-9]|1[0-2])|30\/(0[13-9]|1[0-2])|31\/(0[13578]|1[02])) \/\d{4}$
Telefone ^\(\d{3}\)-\d{4}-\d{4}$
Senha ^\w{4,10}$ ^[a-zA-Z]\w{3,9}$ ^[a-zA-Z]\w*\d+\w*$
Início do artigo

Bibliografia