แก้ไขวันที่ใน Pyspark DataFrame-ตั้งให้ค่าต่ำสุด

0

คำถาม

ฉันมีข้อมูลของกรอบกับวันที่และเวลาส-RECEIPTDATEREQUESTED:วันที่และเวลา สำหรับเหตุผลบางอย่างมีวันที่น้อยกว่า 1900-01-01. ฉันไม่ต้องการพวกนี้,สิ่งที่ฉันต้องการจะทำคือสำหรับทุกค่าอยู่ในคอลัมน์ของ dataframe อยู่ที่ไหน RECEIPTDATEREQUESTED<'1900-01-0100:00:00 แล้วตั้งค่าวันที่และเวลาให้เหมือนกั 1900-01-01 หรือโพรโทคอล aimcomment. ฉันพยายามไม่กี่วิธีที่จะทำเรื่องนี้แต่มันดูเหมือนบางอย่างมากกง่ายอย่างต้องมีตัวตน ฉันคิดว่าเรื่องแบบนี้อาจจะทำงานแต่

import datetime
def testdate(date_value):
    oldest = datetime.datetime.strptime('1900-01-01 00:00:00', '%Y-%m-%d')
    try:
        if (date_value < oldest):
            return oldest
        else:
            return date_value
    except ValueError:
        return oldest
udf_testdate = udf(lambda x:testdate(x),TimestampType())
bdf = olddf.withColumn("RECEIPTDATEREQUESTED",udf_testdate(col("RECEIPTDATEREQUESTED")))
data-cleaning pyspark
2021-11-23 20:05:00
1

คำตอบที่ดีที่สุด

0

คุณสามารถใช้เงื่อนไขเซลประเมินผลโดยใช้ when and otherwise เพื่อตั้งค่า RECEIPTDATEREQUESTED คนใดคน null หรือ 1900-01-01 00:00:00 whenerver คืนค่า < '1900-01-01 00:00:00'.


from pyspark.sql import functions as F

data = [("1000-01-01 00:00:00",), 
        ("1899-12-31 23:59:59",),
        ("1900-01-01 00:00:00",), 
        ("1901-01-01 00:00:00",)]

df = spark.createDataFrame(data, ("RECEIPTDATEREQUESTED",))\
          .withColumn("RECEIPTDATEREQUESTED", F.to_timestamp(F.col("RECEIPTDATEREQUESTED")))


# Fill null

df.withColumn("RECEIPTDATEREQUESTED", 
              F.when(F.col("RECEIPTDATEREQUESTED") < "1900-01-01 00:00:00", F.lit(None))
               .otherwise(F.col("RECEIPTDATEREQUESTED")))\
  .show(200, False)

# Fill default value

df.withColumn("RECEIPTDATEREQUESTED", 
              F.when(F.col("RECEIPTDATEREQUESTED") < "1900-01-01 00:00:00", F.lit("1900-01-01 00:00:00").cast("timestamp"))
               .otherwise(F.col("RECEIPTDATEREQUESTED")))\
  .show(200, False)

ส่งออก

เติมเต็ม null

+--------------------+
|RECEIPTDATEREQUESTED|
+--------------------+
|null                |
|null                |
|1900-01-01 00:00:00 |
|1901-01-01 00:00:00 |
+--------------------+

เติมเต็ม 1900-01-01 00:00:00

+--------------------+
|RECEIPTDATEREQUESTED|
+--------------------+
|1900-01-01 00:00:00 |
|1900-01-01 00:00:00 |
|1900-01-01 00:00:00 |
|1901-01-01 00:00:00 |
+--------------------+
2021-11-23 20:53:37

ใช่แล้ว ขอบคุณ ฉันไม่แน่ใจว่ายังไงหรือทำไมมันทำงานดังนั้นฉันของกูเกิ้ลมันอีกหน่อยแต่ขอบคุณ
roguecode

ในภาษาอื่นๆ

หน้านี้อยู่ในภาษาอื่นๆ

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................

ดังอยู่ในนี้หมวดหมู่

ดังคำถามอยู่ในนี้หมวดหมู่