ตั้งแต่มันไม่มี accessable รูปแบบ api ที่ EUROSTAT ข้อมูลกับการค้นหาจะถูกสร้างขึ้นด้วยตนเองฉันพบ นี่บนโต๊ะของเนื้อหาของ และฉันอยากจะดึงมันจะเป็น searchable LANGUAGE. ในแฟ้มมีส่วนศและใบไม้ติดกันและมี 3 คนที่อยู่เชื่อมโยงแต่ว่าฉันสามารถเชื่อมต่อที่อยู่เชื่อมโยงแล้วชื่อบทความและส่วนให้เป็น LANGUAGE?
ฉันมีพื้นฐานรหัส:
PDFFile = open("table_of_contents_en.pdf",'rb')
PDF = PyPDF2.PdfFileReader(PDFFile)
pages = PDF.getNumPages()
key = '/Annots'
uri = '/URI'
ank = '/A'
for page in range(1,2):
print("Current Page: {}".format(page))
pageSliced = PDF.getPage(page)
pageObject = pageSliced.getObject()
if key in pageObject.keys():
ann = pageObject[key]
for a in ann:
u = a.getObject()
if uri in u[ank].keys():
print(u[ank][uri])
และนี้สำหรับข้อความ:
pdfFileObj = open('table_of_contents_en.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
pdfFileObj.close()
และนี้สำหรับการดาวน์โหลด zips:
for page in range(1,2):
print("Current Page: {}".format(page))
pageSliced = PDF.getPage(page)
pageObject = pageSliced.getObject()
if key in pageObject.keys():
ann = pageObject[key]
for a in ann:
u = a.getObject()
if uri in u[ank].keys():
print(u[ank][uri])
if str(u[ank].keys()).find(".tsv.gz") != -1 :
url = str(u[ank].keys())
r = requests.get(url, allow_redirects=True)
print(str(str(str(u[ank].keys()).split("/")[-1]).split(".")[0])
open(str(str(str(u[ank].keys()).split("/")[-1]).split(".")[0]), 'wb').write(r.content)
แต่ฉันต้องทำยังนี้ในเวลาเดียวกันอย่างถูกต้อง,ในบาง structured ข้อมูลนั้นเหรอ?