일하면서 사용했던 정규표현식을 정리해두고자 한다.
1. HTML에서 주석(<!-- -->) 부분 찾기
HTML에서 주석 부분만 찾는 표현식이다.
정규표현식: <!.*?->
python으로는 아래와 같이 사용할 수 있다.
text = """
이것은 주석이 아닙니다
<!-- 이것은 주석입니다 -->
"""
import re
text = re.sub(r'<!.*?->','', text)
text
>>>>
'\n이것은 주석이 아닙니다\n\n'
2. HTML에서 공백인 부분 제거
BeautifulSoup을 사용해서 표를 파싱한 후 soup.prettify(formatter="html")
를 하면 불필요한 공백이 많이 생성된다. 이때 2개 이상 이어진 공백에서 하나만 남기고 나머지 공백들을 제거하는 표현식이다.
정규표현식: \B\s+|\s+\B^
python으로는 아래와 같이 사용할 수 있다.
text = re.sub(r'\B\s+|\s+\B^','', text)
3. 특정 태그로 감싸진 부분 찾기
데이터셋에서 특정 태그(단어)로 감싸진 부분을 찾는 표현식이다.
정규표현식: (<\|info\|>)((.|\n)*?)(<\|endofblock\|>)
728x90
'python 메모' 카테고리의 다른 글
[matplotlib] 여러개의 다른 y축 그래프를 한 그래프에 그리기 (1) | 2024.02.11 |
---|---|
[python] list를 chunk로 나누는 방법들(메모) (0) | 2024.01.03 |
[websocket] 연결이 끊겼을 때 reconnect를 위한 방법들 (0) | 2023.12.16 |
[GPU] pynvml 모듈로 gpu 사용량 체크하기 (0) | 2023.12.09 |
[python] jsonl로 데이터 읽고 쓰기 (0) | 2023.11.28 |