pdf 를 txt 로 converting 하는 방법. xpdf - pdftotxt
새로 투입된 프로젝트에서 기존 레거시 소스를 수정해야 하는 일을 맡았다. 그런데 소스를 pdf 파일로 주는것이 아닌가.... ㅜㅜ 한두개도 아니고 그많은 소스를 손으로 칠수도 없고... pdf 를 txt 형태로 바꾸는 방법을 찾아 보았다. python 의 pyPdf 모듈을 쓰면된다고 한다. ================================ import pyPdf def getPDFContent(path): content = "" # Load PDF into pyPDF print path pdf = pyPdf.PdfFileReader(file(path, "rb")) # Iterate pages for i in range(0, pdf.getNumPages()): # Extract text from page and add to content content += pdf.getPage(i).extractText() + "\n" # Collapse whitespace #content = " ".join(content.replace(u"\xa0", " ").strip().split()) return conten ==================================== 이방법엔 한가지 문제가 있다. 소스 아웃라인을 무시하고 그냥 쭈욱~ 연결한 변환파일을 만들어 낸다. 다시 해결책을 찾다가 더 손쉬운 방법을 찾았다. pdftot...