ตารางข้อมูลเรียบร้อยแล้วไม่ตรวจสอบพบกับ tabula และคาเมลอต

0

คำถาม

ฉันพยายามที่จะคลายแฟ้มตารางข้อมูลเรียบร้อยแล้วจาก PDFs นั่นไม่ได้อยู่ในที่เหมาะสมรูปแบบที่ฉันคิดว่านะ โต๊ะมันทำความสะอาดในนี้ PDFs ต้องโต๊ะรูปแบบแต่เรามีรูปมาให้ดูด้เหมาะสมกับ verical เส้นขอบ. enter image description here ฉันจะให้แนบเป็นสิ่งที่แนบมาด้วยตัวอย่างเอกสาร pdf และส่งผลกับทั้งสองบรรณารักษ์. ตอนที่ฉันพยายามจะใช้ tabula สำหรับโต๊ะการตรวจจับเป็นว่างเปล่า datadrame คือกลับมาทั้งหมดในหนังสืออยู่ในเอกสาร pdf.

ป้อนค่าเป็น 0 สำหรับเดียวหน้า 1 สำหรับทั้งหมด 2 สำหรับเจาะจงหน้า:2 ป้อนหน้าจำนวน:25 ไม่มีตารางข้อมูลเรียบร้อยแล้วเจอในหน้านี้โดย tabula.

และเมื่อฉันใช้คาเมลอตอยู่คืนเดียวกัน-ไม่มีการตอบสนองตอนที่ฉันใช้ flovor='lattice'

ป้อนค่าเป็น 0 สำหรับเดียวหน้า 1 สำหรับหน้าทั้งหมด,2 สำหรับหน้าเว็บอยู่ในตารางข้อมูลเรียบร้อยแล้วเป็นตรวจสอบพบโดย tabula,3 สำหรับเจาะจงหน้า:3 ป้อนค่าเป็น 0 สำหรับ lattice หรือ 1 สำหรับสายข้อมูล:0 ป้อนหน้าจำนวน:25 ไม่มีตารางข้อมูลเรียบร้อยแล้วเจอในหน้านี้โดยคาเมลอต

และตอนที่ฉันใช้ flovor='stream'ฉันได้ dataframe ที่แต่ละบรรทัดอ่านเส้นโดยสายกับบนแท็บแยกกันข้อมูลแต่มันจะรวมข้อความธรรมดาเช่นกันใน dataframe.

ป้อนค่าเป็น 0 สำหรับเดียวหน้า 1 สำหรับหน้าทั้งหมด,2 สำหรับหน้าเว็บอยู่ในตารางข้อมูลเรียบร้อยแล้วเป็นตรวจสอบพบโดย tabula,3 สำหรับเจาะจงหน้า:3 ป้อนค่าเป็น 0 สำหรับ lattice หรือ 1 สำหรับสายข้อมูล:1 ป้อนหน้าจำนวน:25 enter image description here

ฉันแค่ต้องการมีประสิทธิภาพเพียงพอ smooth scrolling ทางที่จะระบุสิ่งที่ผิดปกติบนโต๊ะและกระจายเดียวกับข้อมูลว่างทางแนวตั้ง enclosing บรรทัดโต๊ะไม่ใช่ของขวัญ ทั้งสอง tabula และคาเมลอตไลบรารีกำลังทำงานสบายดีถ้าโต๊ะอยู่ในที่เหมาะสมรูปแบบเรามีรูปมาให้ดูด้โดยทางแนวตั้งและแนวนอนแล้วเราพลาดอะไรไปเนี่ย?

nlp pdf python python-camelot
2021-11-22 15:08:39
2

คำตอบที่ดีที่สุด

0

นี่วิธีการอาจจะช่วยคุณ: https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-column-separators

คุณสามารถหา specifiy อนทางแนวตั้ง seperator เพื่อคาเมลอตโดยผ่าน x คือพิกัดทางแรกที่คุณควรจะใช้".แผนของ()"วิธีการอยู่ในคาเมลอตจะได้เห็นโต๊ะข้างในเอกสาร pdf และโน๊ตของพิกัด x ที่คุณต้องการทางแนวตั้ง seperators ต้องเป็นงั้นส่งพวกเขาอยู่ในเหมือด้านล่างนี้:

# to get the x-coordinates
tables = camelot.read_pdf('your_pdf.pdf')
camelot.plot(tables[0], kind='text').show()

#to pass the x-coordinates
camelot.read_pdf('your_pdf.pdf', flavor='stream', columns=['x1,x2']) 
2021-11-22 15:52:19
-1

ตารางข้อมูลเรียบร้อยแล้วไม่ตรวจสอบพบกับ tabula และคาเมลอต

ฉันเพิ่งทำงานเพื่อคลายแฟ้มจากโต๊ะเอกสาร PDF.

Tabula และ คาเมลอต didnt ทำงานสำหรับฉันเหมือนกันแต่ pdfplumber ทำให้ฉันต้องการผลลัพธ์.

import pdfplumber
pdf = pdfplumber.open(filepath)
table = pdf.pages[1].extract_table(table_settings=
{"vertical_strategy": "text", "horizontal_strategy": "text"})
df = pd.DataFrame(table, columns=table)
df.to_csv(outfile2, mode='a', index=False)
2021-11-27 11:30:02

ในภาษาอื่นๆ

หน้านี้อยู่ในภาษาอื่นๆ

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................