debianforum.de - Eintrag ansehen

NoPaste

threads_regex

von TRex

SNIPPET_TEXT:

import requests
import re
import sys
from timeit import timeit
# HTML des "Netzwerk"-Unterforums
dfde = requests.get("https://debianforum.de/forum/viewforum.php?f=30").text
def parse(html):
# (?:.*?) sind non-capturing groups mit soviel wie nötig matchenden Zeichen (non-greedy)
threadex = re.compile(r"<li class=.row.bg"
r"(?:.*?)"
r"(?:class=.topictitle.>)(?P<topictitle>[^<]+)(?:.*?)"
r"(?:username.>)(?P<username>[^<]+)(?:</a> » )"
r"(?:.*?)"
r"(?P<date>[0-9][0-9.,: ]{18})"
r"(?:.*?)"
r"(?:posts.>)(?P<posts>[0-9]+)",
re.S)
for thread in threadex.finditer(dfde):
yield "{topictitle};{date};{username};{posts}".format(**thread.groupdict())
if __name__ == "__main__":
if "timeit" in sys.argv:
timing_results = timeit(lambda: parse(dfde))
print(timing_results)
else:
for thread in parse(dfde):
print(thread)

Quellcode

Hier kannst du den Code kopieren und ihn in deinen bevorzugten Editor einfügen. PASTEBIN_DOWNLOAD_SNIPPET_EXPLAIN

import requests
import re
import sys
from timeit import timeit

# HTML des "Netzwerk"-Unterforums
dfde = requests.get("https://debianforum.de/forum/viewforum.php?f=30").text

def parse(html):
    # (?:.*?) sind non-capturing groups mit soviel wie nötig matchenden Zeichen (non-greedy)
    threadex = re.compile(r"<li class=.row.bg"
                      r"(?:.*?)" 
                      r"(?:class=.topictitle.>)(?P<topictitle>[^<]+)(?:.*?)"
                      r"(?:username.>)(?P<username>[^<]+)(?:</a> &raquo; )"
                      r"(?:.*?)"
                      r"(?P<date>[0-9][0-9.,: ]{18})"
                      r"(?:.*?)"
                      r"(?:posts.>)(?P<posts>[0-9]+)", 
                      re.S)
    for thread in threadex.finditer(dfde):
        yield "{topictitle};{date};{username};{posts}".format(**thread.groupdict())

if __name__ == "__main__":

if "timeit" in sys.argv:
        timing_results = timeit(lambda: parse(dfde))
        print(timing_results)
    else:
        for thread in parse(dfde):
            print(thread)

LATEST_SNIPPETS

debian preseed early scri… (16.04.2024 15:55:45, heisenberg)
wmctrl kann Schreibtisch.… (14.04.2024 11:29:23, ndila2004)
Debian preseed.conf (12.04.2024 19:57:28, heisenberg)
Debian ftpsync.conf (12.04.2024 19:51:25, heisenberg)
debian preseed installati… (12.04.2024 19:48:00, heisenberg)
Stromverbrauch Esprimo Q9… (10.04.2024 18:09:44, heisenberg)
esprimo Q920 (10.04.2024 18:06:03, heisenberg)
20 s Verzögerung (05.04.2024 20:19:28, Gamma47)
Server zu verschenken: X9… (03.04.2024 18:04:39, heisenberg)
Debian Testing zerschosse… (01.04.2024 16:07:13, Spindoctor)
wacholderweg (28.03.2024 15:54:03, fischig)
wg0.conf Konfiguration (28.03.2024 10:53:57, hawkeye78)
DOCKER COMPOSE SERVER B (28.03.2024 10:51:35, hawkeye78)
docker compose Server A (28.03.2024 10:49:26, hawkeye78)
Systemd-Autologin (26.03.2024 18:37:19, KP97)
Ausgabe smartctl (26.03.2024 08:00:59, thunder11)
CheckMK Installer/Updater… (25.03.2024 23:11:09, heisenberg)
btrfs raid1 changing degr… (26.02.2024 15:53:28, heisenberg)
zfs raid1 changing degrad… (26.02.2024 15:52:16, heisenberg)
yt-dlp installieren (24.02.2024 11:40:21, thunder11)

NoPaste

NoPaste

threads_regex

Quellcode

Verlinken

LATEST_SNIPPETS