PDF를 읽고 text파일로 저장
요청사항
- pdf의 내용을 읽는다.
- 읽은 내용을 text파일로 저장해본다.
참고
https://github.com/jalan/pdftotext
- 우선 다음과 같은 패키지를 mac에 설치함.
brew install pkg-config poppler pip install pdftotext
실행코드
import pdftotext
# Load your PDF
with open("세는방법.pdf", "rb") as f:
pdf = pdftotext.PDF(f)
# If it's password-protected
# with open("secure.pdf", "rb") as f:
# pdf = pdftotext.PDF(f, "secret")
# How many pages?
print(len(pdf))
# Iterate over all the pages
# for page in pdf:
# print(page)
# Read some individual pages
# print(pdf[0])
# print(pdf[1])
# Read all the text into one string
# print("\n\n".join(pdf))
print(type(pdf[0])) #str
# 한번에 쓰기
with open('test2.txt','w', encoding='utf-8') as file:
file.write("\n\n".join(pdf))
# 각 페이지별로 쓰기
with open('test.txt','w', encoding='utf-8') as file:
for i,page in enumerate(pdf,1):
file.write(f"{i}page \n")
file.write(page)
- 위에서 만든 pdf 는 iterable 한 객체임.
- pdf[0]은 type이 string임.
- file.writelines([‘a’,’b’])는 write(‘ab’)와 같음.
Leave a Comment