ปลั๊กอินสำหรับไพธอน Pandas str.บรรจุ()กับ hyperlinks อยู่ในแถว

0

คำถาม

ฉันมีสอง pandas dataframes เหมือนแล้ว:

df1

เว็บไซต์ เชื่อมโยง
retailer_site1 https://www.retailer_site1.com
... ...
retailer_siteX https://www.retailer_siteX.com

df2

เว็บไซต์ เชื่อมโยง
retailer_site1 https://www.retailer_site1.com
... ...
retailer_siteY https://www.retailer_siteY.com

ดังนั้นฉันอยากจะไปเข้าแล้ว df2 และหาโหของที่อยู่เชื่อมโยงจาก df2 ใน df1. นี่คือของฉันรหัส:

    for row in df2['link'].astype(str):
        boolean_findings = df1['link'].str.contains(row)

เมื่อฉันพิมพ์ boolean_findings ฉันกำลังจะเอาปลอมซึ่งฉันรู้ว่าไม่สามารถเป็นความจริงเพราะฉันเห็นตรงกับในท้องถิ่นของฉั excel แฟ้ม:

boolean_findings
ปลอม
ปลอม
...
ปลอม

สิ่งที่ฉันต้องการจะรู้คือทำไม hyperlink ข้อความข้อความไม่ถูกตอบมันเป็นก้อนแรก df และผมสามารถทำอะไรเพื่อตรงกับไซต์

dataframe hyperlink pandas python
2021-10-22 22:50:57
1

คำตอบที่ดีที่สุด

1

"ฉันเดินดูกันสังเกตเห็นมีบางเว็บไซต์ที่มี ( แล้ว ) รวมอยู่ในพวกที่อยู่เชื่อมโยงซึ่งอาจจะเป็นการโยนออกจากที่อยู่เชื่อมโยง

มันดูเหมือนว่าคุณต้องการเพื่อนแค่บัญชีผู้ใช้สำหรับ alphanumeric/underscore chars เมื่อเปรียบเทียบคนที่อยู่เชื่อมโยงคุณสามารถใช้

df2["link"].str.replace(r'\W+','', regex=True).isin(
    df1["link"].str.replace(r'\W+','', regex=True))

คน .str.replace(r'\W+','', regex=True) ส่วนหนึ่งจะทำการลบ chars อื่นนอกจากจดหมาย diacritics,ตัวเลขและแก้ไขลวดลายจุดเชื่อมต่อ stencils เครื่องหมายวรรคตอน(ส่วนใหญ่เหมือนกัน char คือ underscore ในหมู่พวกเขา)จากที่อยู่เชื่อมโยง.

2021-10-23 10:27:53

ฉันต้องติดตามข้อผิดพลาดสำหรับ regex ในการแทนที่: TypeError: replace() takes no keyword arguments. ตอนที่ฉันลบ regex=Trueมันไม่ได้เกิดข้อผิดพลาดออกแต่มันไม่ออกแทนที่มันเหมือนกัน ฉันคิดว่าฉันจะมองเข้าไปในที่ re มอดูลจะค่อยๆจัดการกับนี้ออกมาแต่ขอบคุณสำหรับให้ผมเลือกทางเดินที่ถูกต้อง!
G H

@GH องทำให้แน่ใจว่าคุณใช้ล่าสุด Pandas รุ่น pip install -U pandas. ดรหัสนี้ได้ถูกทดสอบกับข้อมูลของคุณและพิสูจน์แล้วว่าทำงานอยู่
Wiktor Stribiżew

ในภาษาอื่นๆ

หน้านี้อยู่ในภาษาอื่นๆ

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................

ดังอยู่ในนี้หมวดหมู่

ดังคำถามอยู่ในนี้หมวดหมู่