PDF를 읽고 text파일로 저장

요청사항

  • pdf의 내용을 읽는다.
  • 읽은 내용을 text파일로 저장해본다.

참고

https://github.com/jalan/pdftotext

  • 우선 다음과 같은 패키지를 mac에 설치함.
    brew install pkg-config poppler
    pip install pdftotext
    

실행코드

import pdftotext

# Load your PDF
with open("세는방법.pdf", "rb") as f:
    pdf = pdftotext.PDF(f)

# If it's password-protected
# with open("secure.pdf", "rb") as f:
#     pdf = pdftotext.PDF(f, "secret")

# How many pages?
print(len(pdf))

# Iterate over all the pages
# for page in pdf:
#     print(page)

# Read some individual pages
# print(pdf[0])
# print(pdf[1])

# Read all the text into one string
# print("\n\n".join(pdf))

print(type(pdf[0])) #str

# 한번에 쓰기
with open('test2.txt','w', encoding='utf-8') as file:
    file.write("\n\n".join(pdf))

# 각 페이지별로 쓰기
with open('test.txt','w', encoding='utf-8') as file:
    for i,page in enumerate(pdf,1):
        file.write(f"{i}page \n")
        file.write(page)
        
  • 위에서 만든 pdf 는 iterable 한 객체임.
  • pdf[0]은 type이 string임.
  • file.writelines([‘a’,’b’])는 write(‘ab’)와 같음.

Leave a Comment