นับจำนวนเงินโดบประมาณของครั้งคำพูดที่ตายไปมาปรากฏตัวใน BigQuery คอลัมน์

0

คำถาม

ฉันต้องเป็นคอลัมน์กับบางอย่านานเชือกและต้องการนับถอยที่สุดที่เคยใช้คำพูดอยู่ในนั้น

ฉันต้องการบางอย่างที่ทำงานแบบนี้ https://towardsdatascience.com/very-simple-python-script-for-extracting-most-common-words-from-a-story-1e3570d0b9d0. คำนับนส่วนหนึ่งอย่างน้อย...

และมันเป็นเรื่องสำคัญมากที่ผมต้องมีตัวเลือกนี้เพื่อ blacklist บางอย่าพูดดังนั้นพวกเขาไม่นับนะ

google-bigquery
2021-11-23 18:33:36
1

คำตอบที่ดีที่สุด

2

พยายามด้านล่างนี้ง่ายอย่าเข้าใกล้

with blacklist as (
  select 'with' word union all 
  select 'that' union all
  select 'add more as you see needed'
)
select lower(word) word, count(*) frequency
from data, unnest(regexp_extract_all(col, r'[\w]*')) word
where length(word) > 3  
and word not in (select word from blacklist)
group by word
order by frequency desc     

 
2021-11-23 22:40:30

มัน didnt ทำงาน...ที่วลีอยู่ในภาษาโปรตุเกสเป็นบ้างช่วงนี้เป็นปัญหาหรอ? หรือบางทีฉันอาจ didnt ทำให้ถูกต้อ substituion ของคุณรหัส idk
Murilo

),blacklist เป็(เลือก'กับ'คำสหภาพทุกเลือก'ที่'สหภาพทุกเลือก'เพิ่มอีกอย่างที่คุณเห็นต้องการ')เลือกด้านล่าง(คำ)คำนับ()ความถี่สัญญาณจาก T0,unnest(regexp_extract_all(T0.คอลัมน์,สเปนเซอร์รี้ดครับ r'[\w]'))คำที่ความยาว(คำ)>3 และคำพูดไม่ได้อยู่ใน(เลือกคำจาก blacklist)จัดกลุ่มตามคำสั่งโดยความถี่ desc///ผมพยายามนี้..
Murilo

โปรดเจาะจงกว่านี้-คุณหมายความว่ายังไงที่ว่า"โดยมัน didnt ทำงาน"? ให้ตัวอย่างของนำเข้าข้อมูล เป็นต้น...
Mikhail Berlyant

ฉันแย่ฉันได้รับข้อความนี้เรื่องการกลับมาไม่ได้ผล".
Murilo

ไม่เป็นไรฉันผิดพลาดของดั้งเดิม query มันทำงานได้เยี่ยมมาตอนนี้ขอบคุณมาก
Murilo

ขอบคุณสำหรับยืนยัน. ดีใจที่มันได้ผลสำหรับคุณ พิจารณายังโหวตนขึ้นคำตอบถ้ามันช่วย:โอ)
Mikhail Berlyant

btw,ข้อความด่วนทันใจมองหาผลและรหัสคือการตัดคำพูดนั้นมีบาง"บราซิลเลี่ยนจดหมาย"ชอบ"Ç""ã""õ"มีทางทำให้มันคิดว่าพวกนั้น. ในคำพูดเหมือน"informação"มันยอมรับข้อกล่าวหาว่า"informa"
Murilo

แน่ใจว่าสามารถทำได้เช็คอีกสักเดี๋ยว แต่ตอนนี้ดูของฉันในของฉันอีกคำตอบยังไงเพื่อรักษาตัวเน้นเสียง dictionary variant เป็นต้น มันควรจะเป็นอย่างน้อยไม่กี่คำตอบเกี่ยวข้องกับมัน:โอ)
Mikhail Berlyant

ในภาษาอื่นๆ

หน้านี้อยู่ในภาษาอื่นๆ

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
Română
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................

ดังอยู่ในนี้หมวดหมู่

ดังคำถามอยู่ในนี้หมวดหมู่