แปลงเป็น eurostat โต๊ะของเนื้อหาของเอกสาร PDF ต้อง LANGUAGE

Question 1

ตั้งแต่มันไม่มี accessable รูปแบบ api ที่ EUROSTAT ข้อมูลกับการค้นหาจะถูกสร้างขึ้นด้วยตนเองฉันพบ นี่บนโต๊ะของเนื้อหาของ และฉันอยากจะดึงมันจะเป็น searchable LANGUAGE. ในแฟ้มมีส่วนศและใบไม้ติดกันและมี 3 คนที่อยู่เชื่อมโยงแต่ว่าฉันสามารถเชื่อมต่อที่อยู่เชื่อมโยงแล้วชื่อบทความและส่วนให้เป็น LANGUAGE?

ฉันมีพื้นฐานรหัส:

PDFFile = open("table_of_contents_en.pdf",'rb')

PDF = PyPDF2.PdfFileReader(PDFFile)
pages = PDF.getNumPages()
key = '/Annots'
uri = '/URI'
ank = '/A'

for page in range(1,2):
    print("Current Page: {}".format(page))
    pageSliced = PDF.getPage(page)
    pageObject = pageSliced.getObject()
    if key in pageObject.keys():
        ann = pageObject[key]
        for a in ann:
            u = a.getObject()
            if uri in u[ank].keys():
                print(u[ank][uri])

และนี้สำหรับข้อความ:

pdfFileObj = open('table_of_contents_en.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
pdfFileObj.close()

และนี้สำหรับการดาวน์โหลด zips:

for page in range(1,2):
    print("Current Page: {}".format(page))
    pageSliced = PDF.getPage(page)
    pageObject = pageSliced.getObject()
    if key in pageObject.keys():
        ann = pageObject[key]
        for a in ann:
            u = a.getObject()
            if uri in u[ank].keys():
                print(u[ank][uri])
            if str(u[ank].keys()).find(".tsv.gz") != -1 :
                url = str(u[ank].keys())
                r = requests.get(url, allow_redirects=True)
                print(str(str(str(u[ank].keys()).split("/")[-1]).split(".")[0])
                open(str(str(str(u[ank].keys()).split("/")[-1]).split(".")[0]), 'wb').write(r.content)

แต่ฉันต้องทำยังนี้ในเวลาเดียวกันอย่างถูกต้อง,ในบาง structured ข้อมูลนั้นเหรอ?

Question 2

ลองแบบนี้มันจะไม่เป็น LANGUAGE แต่งรายการของแฟ้มในโฟลเดอร์สามารถจะแปลงที่นี่คือวิธีที่จะทำให้แฟ้ม:

import PyPDF2
import requests

PDFFile = open("table_of_contents_en.pdf",'rb')

PDF = PyPDF2.PdfFileReader(PDFFile)
pages = PDF.getNumPages()
key = '/Annots'
uri = '/URI'
ank = '/A'

for page in range(pages):
    print("Current Page: {}".format(page))
    pageSliced = PDF.getPage(page)
    pageObject = pageSliced.getObject()
    if key in pageObject.keys():
        ann = pageObject[key]
        for a in ann:
            u = a.getObject()
            # if uri in u[ank].keys():
            #   print(u[ank][uri])
            if str(u[ank][uri]).find(".tsv.gz") != -1 :
                url = str(u[ank][uri])
                try:
                    r = requests.get(url, allow_redirects=True)
                    print(str(str(str(url).split("/")[-1]).split(".")[0]))
                    open(str(str(url).split("/")[-1]), 'wb').write(r.content)
                except:
                    print("ERROR ON" + url)

วิธีการใช้:

ดาวน์โหลดโต๊ะของเนื้อหาของแฟ้มจาก Eurostat: http://ec.europa.eu/eurostat/estat-navtree-portlet-prod/BulkDownloadListing?sort=1&file=table_of_contents_en.pdf
วิ่งหนี python3 รหัสบนชั้นได้แก้ไขกับชื่อแฟ้ม,ถ้ามันเปลี่ยนไปแล้ว
คลายแฟ้มกับเครื่องมือที่ดาวน์โหลดข้อมูล .gz แฟ้ม (ข้อแนะนำ: วิธีถอดซิป gz แฟ้มโดยใช้ไพธอน )
ลบ .gz แฟ้ม

เต็มไปด้วรหัส: https://github.com

gabor aron · Answer 1 · 2021-11-21T16:14:06

ลองแบบนี้มันจะไม่เป็น LANGUAGE แต่งรายการของแฟ้มในโฟลเดอร์สามารถจะแปลงที่นี่คือวิธีที่จะทำให้แฟ้ม:

import PyPDF2
import requests

PDFFile = open("table_of_contents_en.pdf",'rb')

PDF = PyPDF2.PdfFileReader(PDFFile)
pages = PDF.getNumPages()
key = '/Annots'
uri = '/URI'
ank = '/A'

for page in range(pages):
    print("Current Page: {}".format(page))
    pageSliced = PDF.getPage(page)
    pageObject = pageSliced.getObject()
    if key in pageObject.keys():
        ann = pageObject[key]
        for a in ann:
            u = a.getObject()
            # if uri in u[ank].keys():
            #   print(u[ank][uri])
            if str(u[ank][uri]).find(".tsv.gz") != -1 :
                url = str(u[ank][uri])
                try:
                    r = requests.get(url, allow_redirects=True)
                    print(str(str(str(url).split("/")[-1]).split(".")[0]))
                    open(str(str(url).split("/")[-1]), 'wb').write(r.content)
                except:
                    print("ERROR ON" + url)

วิธีการใช้:

ดาวน์โหลดโต๊ะของเนื้อหาของแฟ้มจาก Eurostat: http://ec.europa.eu/eurostat/estat-navtree-portlet-prod/BulkDownloadListing?sort=1&file=table_of_contents_en.pdf
วิ่งหนี python3 รหัสบนชั้นได้แก้ไขกับชื่อแฟ้ม,ถ้ามันเปลี่ยนไปแล้ว
คลายแฟ้มกับเครื่องมือที่ดาวน์โหลดข้อมูล .gz แฟ้ม (ข้อแนะนำ: วิธีถอดซิป gz แฟ้มโดยใช้ไพธอน )
ลบ .gz แฟ้ม

เต็มไปด้วรหัส: https://github.com

แปลงเป็น eurostat โต๊ะของเนื้อหาของเอกสาร PDF ต้อง LANGUAGE

คำถาม

คำตอบที่ดีที่สุด

วิธีการใช้:

ในภาษาอื่นๆ

หน้านี้อยู่ในภาษาอื่นๆ

ดังอยู่ในนี้หมวดหมู่

ดังคำถามอยู่ในนี้หมวดหมู่