ใหม่ใน Azure
แล้ว Databricks
ฉันกำลังพยายามเข้าถึงขนาดใหญ่ตั้งค่าของข้อมูลอยู่ซึ่งฉันอยากจะไปเป็นสเปนเซอร์รี้ดครับ R โพรเซส(ถูกเขียนด้วย data.table
แล้วซึ่งวิ่งดีในท้องถิ่น).
ฉันไม่ค่อยชอบที่ตรงเงื่อนไขหรือว่าทั้งหมด Color สภาพแวดล้อมทำงาน,แต่สำหรับตอนนี้ข้อมูลของฉันคือของขวัญอยู่ใน 3 รูปแบบชื่อแฟ้ม:
- โต๊ะ
- paquet
- แฟ้ม csv
ความพยายามครั้งแรก (และส่วนใหญ่มีเหตุผลสำหรับฉัน):นักดนตรีคลาสสิค fread
ในแฟ้ม csv งแฟ้ม
บเล็กๆของแฟ้มทุกอย่างเรียบร้อยก็ได้ บน'ใหญ่'แฟ้ม(3Go),มันต้องใช้หลายต่อหลายนาทีในขณะที่ในท้องถิ่น,มันใช้เวลาเพียงไม่กี่วินาที
ทำไมมันนานมากกว่าในท้องถิ่น?
องครั้งที่สอง กับ SparkR
ในแฟ้ม csv แฟ้มแล้ว collect()
ทำงานกับ data.table
แต่ collect()
กลับมาเป็นข้อผิดพลาดคือ:
มีบางอย่างที่ผมสามารถตั้งค่าตรงนี้?
คนที่สามพยายาม :เหมือนกับเหนือบนองเดลต้าออแฟ้มเดียวกันประเภทของเกิดข้อผิดพลาด
สี่ความพยายาม :ภาษา sql จากการร้องขอ SparkR
แต่ collect
ยังคงตอบแทนคนเดียวกันเกิดข้อผิดพลาด
เป็นหนึ่งของฉันพยายามดีกว่าอีก? ฉันเดินมาบนเส้นทางที่ถูกแล้ว? ฉันพลาดอะไรไปรึเปล่า?
ช่วยหรือคำแนะนำจากจะช่วยได้มากทีเดียว