скрипт поиск текста в файле (как найти (выдернуть) все сайты в тексте) #python

Не упустите возможность стать пионером в сфере извлечения контента. Вооружитесь нашим революционным скриптом на Python и расширьте границы своих знаний уже сегодня. Больше никаких ограничений - открывайте новые горизонты беспрепятственного доступа к цифровой информации!

import re

# Открыть файл для чтения
with open('sites.txt',encoding='utf-8' ) as file_in:
    # Прочитать содержимое файла
    content = file_in.read()

# Найти все URL-адреса, заканчивающиеся на .jp
urls = re.findall(r'https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+\.jp', content)

# Открыть файл для записи
with open('rslt.txt', 'a') as file_out:
     # Записать найденные URL-адреса в файл
     for url in urls:
         file_out.write(url + '\n')
#разбор регулярного выражения:
#https?://    : Эта часть ищет строки, начинающиеся с "http://" или "https://".
#(?:[-\w.]|(?:%[\da-fA-F]{2}))+    : Этот фрагмент ищет
#все возможные символы в URL, включая буквы, цифры, тире, точку и символы
#в кодировке %XX. подробнее:
         #(?: ... )     : Это обозначает незахватывающую группу,
         #то есть группу,
         #которая используется только для группировки выражения,
         #но не сохраняет найденное значение в отдельную группу.
         #[-\w.]     : Эта часть ищет любой символ,
         #который является буквой, цифрой, тире или точкой.
         #|      : Этот символ означает "или",
         #что позволяет выбрать один из двух вариантов.
         #(?:%[\da-fA-F]{2})    : Это фрагмент ищет символ в кодировке,
         #начинающийся с процента (%)
         #и за которым следует два шестнадцатеричных символа ([\da-fA-F]{2}),
         #которые представляют байт в URL-кодировке.
#\.jp         : Эта часть ищет подстроки ".jp",
#что указывает на японские домены.
На главную YouTube Telegram Предыдущая страница Следующая страница