ที่ดีที่สุด pratices ต้องการเข้าถึงข้อมูลขนาดใหญ่อยู่ใน Color Databricks กับสเปนเซอร์รี้ดครับ R

Question 1

ใหม่ใน Azure แล้ว Databricksฉันกำลังพยายามเข้าถึงขนาดใหญ่ตั้งค่าของข้อมูลอยู่ซึ่งฉันอยากจะไปเป็นสเปนเซอร์รี้ดครับ R โพรเซส(ถูกเขียนด้วย data.table แล้วซึ่งวิ่งดีในท้องถิ่น).

ฉันไม่ค่อยชอบที่ตรงเงื่อนไขหรือว่าทั้งหมด Color สภาพแวดล้อมทำงาน,แต่สำหรับตอนนี้ข้อมูลของฉันคือของขวัญอยู่ใน 3 รูปแบบชื่อแฟ้ม:

โต๊ะ
paquet
แฟ้ม csv

ความพยายามครั้งแรก (และส่วนใหญ่มีเหตุผลสำหรับฉัน):นักดนตรีคลาสสิค fread ในแฟ้ม csv งแฟ้ม บเล็กๆของแฟ้มทุกอย่างเรียบร้อยก็ได้ บน'ใหญ่'แฟ้ม(3Go),มันต้องใช้หลายต่อหลายนาทีในขณะที่ในท้องถิ่น,มันใช้เวลาเพียงไม่กี่วินาที

ทำไมมันนานมากกว่าในท้องถิ่น?

องครั้งที่สอง กับ SparkR ในแฟ้ม csv แฟ้มแล้ว collect() ทำงานกับ data.table

แต่ collect() กลับมาเป็นข้อผิดพลาดคือ:

มีบางอย่างที่ผมสามารถตั้งค่าตรงนี้?

คนที่สามพยายาม :เหมือนกับเหนือบนองเดลต้าออแฟ้มเดียวกันประเภทของเกิดข้อผิดพลาด

สี่ความพยายาม :ภาษา sql จากการร้องขอ SparkR แต่ collect ยังคงตอบแทนคนเดียวกันเกิดข้อผิดพลาด

เป็นหนึ่งของฉันพยายามดีกว่าอีก? ฉันเดินมาบนเส้นทางที่ถูกแล้ว? ฉันพลาดอะไรไปรึเปล่า?

ช่วยหรือคำแนะนำจากจะช่วยได้มากทีเดียว

Question 2

เกี่ยวกับการโหลดจาก DBFS มันเป็นสิ่งเก็บของในคลาวด์ไม่ใช่ท้องถิ่นเก็บของแล้วกำลังโหลดเวลาโดยธรรมชาติจะเป็นได้ไม่นานนักหรอกครับ

เกี่ยวกับข้อผิดพลาดคุณสามารถปรับแก้จุ config แต่ไม่แนะนำอย่างที่คุณสามารถออกไปจากหน่วยความจำจนหมดข้อผิดพลาดคือ:

spark.driver.maxResultSize <X>g

คุณสามารถที่จะปรับมันเป็นกลุ่มในออลสปาร์ค config

ที่ดีที่สุดทางออกคือต้องใช้มากกโห(ดังนั้นจะโดยอัตโนมัติมากกว่าให้เห็นถึงพาร์ทิชันที่มีอยู่-นี้จำกัดการปรับใช้ต่อพื้นที่ดิสก์,ตัวอย่างแพงความทรงจำของขนาดยังสำคัญแต่ดีกว่าปกติก็เพิ่มอีกโห-ปรับขนาดทางแนวนอน). เปิดใช้อัตโนมัติปรับขนาดเป็นแนะนำให้ใช้ในกรณีของข้อมูลเรียบร้อย

ได้โปรดอย่าใช้สะสม()ที่มันอ่านของคุณ dataframe บคนขับรถให้สิ่งนั้นมันจะไม่ทำงาน โดยทั่วไปฟังก์ชันนี้ไม่ขอแนะนำให้ถึงจะลดลง datasets. ถ้าคุณอยากจะวินิจฉัยของคุณ dataframe โปรดใช้ฟังก์ชันชอบคนแรก()หรือ.แสดงกับรีสวัสดิ์สเปนเซอร์

Hubert Dudek · Answer 1 · 2021-11-22T13:04:06

เกี่ยวกับการโหลดจาก DBFS มันเป็นสิ่งเก็บของในคลาวด์ไม่ใช่ท้องถิ่นเก็บของแล้วกำลังโหลดเวลาโดยธรรมชาติจะเป็นได้ไม่นานนักหรอกครับ

เกี่ยวกับข้อผิดพลาดคุณสามารถปรับแก้จุ config แต่ไม่แนะนำอย่างที่คุณสามารถออกไปจากหน่วยความจำจนหมดข้อผิดพลาดคือ:

spark.driver.maxResultSize <X>g

คุณสามารถที่จะปรับมันเป็นกลุ่มในออลสปาร์ค config

ที่ดีที่สุดทางออกคือต้องใช้มากกโห(ดังนั้นจะโดยอัตโนมัติมากกว่าให้เห็นถึงพาร์ทิชันที่มีอยู่-นี้จำกัดการปรับใช้ต่อพื้นที่ดิสก์,ตัวอย่างแพงความทรงจำของขนาดยังสำคัญแต่ดีกว่าปกติก็เพิ่มอีกโห-ปรับขนาดทางแนวนอน). เปิดใช้อัตโนมัติปรับขนาดเป็นแนะนำให้ใช้ในกรณีของข้อมูลเรียบร้อย

ได้โปรดอย่าใช้สะสม()ที่มันอ่านของคุณ dataframe บคนขับรถให้สิ่งนั้นมันจะไม่ทำงาน โดยทั่วไปฟังก์ชันนี้ไม่ขอแนะนำให้ถึงจะลดลง datasets. ถ้าคุณอยากจะวินิจฉัยของคุณ dataframe โปรดใช้ฟังก์ชันชอบคนแรก()หรือ.แสดงกับรีสวัสดิ์สเปนเซอร์

ขอบคุณสำหรับคำตอบของคุณมันเล็กน้อยชัดขึ้น แต่เป็นของผู้ใช้คนใหม่ของสิ่งแวดล้อมแบบนี้ผมไม่เข้าใจทุกอย่าง:)ได้ยังไงฉันปรับแก้จุ config ตัวอย่างเช่น? จะให้ฉันใช้มากกโห? (คุณพูดถูกข้อมูลอยู่ในโลงคลาวด์ ของฉันมีเป็นกลุ่ม 252Go และ 72 แกน).
ว้าวนี่เป็นกลุ่มอยู่แล้วเหยื่อจากถุงอัณฑะเนี่ย ฉันจะปรับปรุงคำตอบของฉันกับรายละเอียดเพิ่มในอีกไม่กี่ชั่วโมงแล้ว ได้โปรดอย่าใช้สะสม()ที่มันอ่านของคุณ dataframe บคนขับรถให้สิ่งนั้นมันจะไม่ทำงาน โดยทั่วไปฟังก์ชันนี้ไม่ขอแนะนำให้ถึงจะลดลง datasets. ถ้าคุณต้องการ diagnoze ของคุณ dataframe โปรดใช้ฟังก์ชันชอบคนแรก().แสดงกับรีสวัสดิ์สเปนเซอร์
จนกระทั่งตอนนี้,ผมยังไม่พบวิธีที่ดีกว่ามากกว่า collect() ต้องวิ่งของฉัน"ท้องถิ่น"สคริปต์ที่ถูกเขียนด้วย data.table...นรอไม่ไหวที่จะอ่านของคุณปรับปรุง!
แต่อะไรกันแน่คุณต้องการจะประสบความสำเร็จในส่ว? ลองแสดงผล(df)ยัง
ฉันต้องวิ่งหนีทั้งสคริปต์ที่ฉันเขียนอยู่ data.table. แต่ฉันคิดว่าฉันจะต้องเขียนใหม่มันอยู่ sparkrใช่มั้ย? แต่ดูเหมือนมันซับซ้อนมากขึ้นกับฉันว่ามันฟังดู. ฉันพยายามที่จะสร้างคอลัมน์แสดงผล view->สำหรับเวลานานมาใช้ strsplit ในอีกคอลัมน์โดยไม่มีความสำเร็จ...

ที่ดีที่สุด pratices ต้องการเข้าถึงข้อมูลขนาดใหญ่อยู่ใน Color Databricks กับสเปนเซอร์รี้ดครับ R

คำถาม

คำตอบที่ดีที่สุด

ในภาษาอื่นๆ

หน้านี้อยู่ในภาษาอื่นๆ

ดังอยู่ในนี้หมวดหมู่

ดังคำถามอยู่ในนี้หมวดหมู่