Не упустите возможность стать пионером в сфере извлечения контента. Вооружитесь нашим революционным скриптом на Python и расширьте границы своих знаний уже сегодня. Больше никаких ограничений - открывайте новые горизонты беспрепятственного доступа к цифровой информации!
import re
# Открыть файл для чтения
with open('sites.txt',encoding='utf-8' ) as file_in:
# Прочитать содержимое файла
content = file_in.read()
# Найти все URL-адреса, заканчивающиеся на .jp
urls = re.findall(r'https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+\.jp', content)
# Открыть файл для записи
with open('rslt.txt', 'a') as file_out:
# Записать найденные URL-адреса в файл
for url in urls:
file_out.write(url + '\n')
#разбор регулярного выражения:
#https?:// : Эта часть ищет строки, начинающиеся с "http://" или "https://".
#(?:[-\w.]|(?:%[\da-fA-F]{2}))+ : Этот фрагмент ищет
#все возможные символы в URL, включая буквы, цифры, тире, точку и символы
#в кодировке %XX. подробнее:
#(?: ... ) : Это обозначает незахватывающую группу,
#то есть группу,
#которая используется только для группировки выражения,
#но не сохраняет найденное значение в отдельную группу.
#[-\w.] : Эта часть ищет любой символ,
#который является буквой, цифрой, тире или точкой.
#| : Этот символ означает "или",
#что позволяет выбрать один из двух вариантов.
#(?:%[\da-fA-F]{2}) : Это фрагмент ищет символ в кодировке,
#начинающийся с процента (%)
#и за которым следует два шестнадцатеричных символа ([\da-fA-F]{2}),
#которые представляют байт в URL-кодировке.
#\.jp : Эта часть ищет подстроки ".jp",
#что указывает на японские домены.