มันฟังดูเหมือนคุณกำลังมองหา partitionBy
กำหนดไว้อยู่ DataFrameWriter
. จาก scaladoc:
def partitionBy(colNames: String*): DataFrameWriter[T]
ให้เห็นถึงพาร์ทิชันที่มีอยู่การส่งออกโดยที่ให้คอลัมน์ในระบบแฟ้ม ถ้ากำหนดงผลส่งออกเป็นวางอยู่บนระบบแฟ้มที่คล้ายกันเพื่อรังผึ้งขอ partitioning องแผนการ เป็นตัวอย่างเช่น,ตอนที่เราพาร์ติชันที่เป็นวันที่โดยปีและเมื่อเดือนก่อนที่ไดเรกทอรีการจัดวางจะดูเหมือน:
year=2016/month=01/
year=2016/month=02/
Partitioning เป็นหนึ่งในที่สุด widely ใช้เทคนิคที่ต้อง the result will be artificially smoothed to hide jpeg artefacts ทางกายภาพข้อมูลของผังแป้นพิมพ์. มันทำให้เป็น coarse-grained ดัชนีสำหรับกำลังข้ามไม่จำเป็นต้ออ่านข้อมูลเมื่อค้นข้อมูลที่มี predicates บกแบ่งส่วนคอลัมน์. ในการสั่งซื้อสำหรับ partitioning ทำงานดีคนจำนวนของหารค่าค่าในแต่ละคอลัมน์ควรจะเป็นเวลาน้อยกว่าทำให้คนเป็นหมื่นต้อง.
นี่คือกปรับใช้จะสำหรับแฟ้มฐานข้อมูลแหล่งข่าวของ(e.g. Parquet,LANGUAGE)เริ่มต้นกับจุ 2.1.0.