ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: שאלה בנושא סימון רנדומלי של רשומות בטבלה

שאלה בנושא סימון רנדומלי של רשומות בטבלה 10 years 5 months ago #6238

  • ohad23
  • ohad23's Avatar
  • Offline
  • Senior Boarder
  • הודעות: 58
  • קרמה: 0
הסביבה - oracle 10
קיימת טבלה המכילה מספר לקוח וקוד סגמנט לכל לקוח.
אני צריך ליצור טבלה חדשה כך שכל קבוצת סגמנט תחולק ל2 קבוצות רנדומלית ביחס של 70% ו 30% ולסמן כל לקוח ב 1 או 0 בהתאמה
לדוגמא:
סגמנט A מכיל 1000 לקוחות אז 700 יסומנו ב 1 ו 300 יסומנו ב 0 וכך הלאה
האופון בו ביצעתי את הנדרש:
יצרתי עמודה חדשה הממספרת את הלקוחות בכל קבוצה - השתמשתי בפונקציה האנליטית rank כאשר הגדרתי partition by הסגמט ומיון על פי rowid.
עמודה נוספת שיצרתי היא count לכמות הלקוחות בכל סגמנט - גם כאן ביצעתי בעזרת פונקציה אנליטית count כאשר הגדרתי partition by הסגמט .
לאחר שיש לי את 2 העמודות החדשות חילקתי את עמודת המיספור בעמודת סה"כ לקוחות בסגמנט ובניתי אינדקציה כאשר קטן מ 0.7 אז 1 אחרת 0
מאחר ואני די חדש בתחום השאלה שלי האם יש טכניקה אחרת לביצוע הנושא?
האם יש בעייתיות מסויימת בדרך שתארתי?
האם יש בעיה במיון על פי rowid ? כלומר המטרה שלי היא לחלק את האוכלוסיה בצורה רנדומלית..
תודה
עריכה אחרונה: 10 years 5 months ago  ע''י ohad23.
הנהלת האתר ביטלה גישת כתיבה ציבורית.

תגובה:שאלה בנושא סימון רנדומלי של רשומות בטבלה 10 years 5 months ago #6239

  • eldad
  • eldad's Avatar
  • Offline
  • Moderator
  • הודעות: 624
  • קרמה: 0
לפי מה שאני מבין יצרתה תלות בין ביןן מספר השורה של הרשומה
לשייכות שלה לסגמנט וזה יכול להיות לא נכון כי הרשומות מופיעות
בסדר מסויים שנקבע ע"פ הכנסתן.
אם יש לך SSIS אזי תוכל להשתמש ברכיב ה sample
שב DATA FLOW
אם לא תוכל להשתמש בפונקציה dbms_random.value
לדוגמה: dbms_random.value(1,100) "תגריל" מספרים מ 1-100
ותוכל למיין את הרשומות המתקבלות לפי אחוזים....


)
הנהלת האתר ביטלה גישת כתיבה ציבורית.

תגובה:שאלה בנושא סימון רנדומלי של רשומות בטבלה 10 years 5 months ago #6240

  • ohad23
  • ohad23's Avatar
  • Offline
  • Senior Boarder
  • הודעות: 58
  • קרמה: 0
תודה
אני לי SSIS
אני אתקן לפונקציה dbms_random.value
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: eldad
זמן יצירת העמוד: 0.236 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning