چند سیکنڈ کی آڈیو سن کر کسی بھی آواز کی نقل کرنے والا اے آئی سسٹم تیار

مائیکرو سافٹ نے اسے تیار کیا ہے / فائل فوٹو
مائیکرو سافٹ نے اسے تیار کیا ہے / فائل فوٹو

مائیکرو سافٹ نے آرٹی فیشل (اے آئی) ٹیکنالوجی پر مبنی ایک ایسا ماڈل تیار کیا ہے جو 3 سیکنڈ کی آڈیو سن کر کسی بھی فرد کی آواز کی نقل کرنے کی صلاحیت رکھتا ہے۔

وال ای نامی ٹیکسٹ ٹو اسپیچ اے آئی ماڈل نہ صرف کسی فرد کی عام آواز کی نقل کرسکتا ہے بلکہ اس کے جذباتی انداز کو بھی اپنا سکتا ہے۔

کمپنی کو توقع ہے کہ مستقبل قریب میں اسے ٹیکسٹ ٹو اسپیچ ایپس کے لیے استعمال کیا جاسکے گا۔

مائیکرو سافٹ نے اس اے آئی ماڈل کو نیورل کوڈک لینگوئج ماڈل قرار دیا ہے جو تحریر سے آڈیو بنا سکتا ہے جبکہ بولنے والے کی آواز کے چند سیکنڈ کے نمونے سن کر اس کی نقل کرسکتا ہے۔

اس حوالے سے ایک تحقیقی مقالے میں ماہرین نے بتایا کہ میٹا کی LibriLight آڈیو لائبریری سے 60 ہزار گھنٹوں کے انگلش زبان کے آڈیو ڈیٹا سے وال ای کو تربیت فراہم کی گئی۔

تحقیقی ٹیم نے اوپن سورس پیج Github میں وال ای کی صلاحیت کا مظاہرہ بھی کیا۔

ہر جملے کے بعد اس ماڈل کو بولنے کو کہا جاتا تو وہ 3 سیکنڈ کے بعد بولنے والے کی آواز کی نقل کرلیتا۔

مائیکرو سافٹ کے اس ماڈل نے بولنے والوں کے جذباتی لہجے کی بھی ہو بہو نقل کرنے میں کامیابی حاصل کی بلکہ پرشور ماحول میں بھی ایسا کرنے میں کامیاب رہا۔

کمپنی کے مطابق اس ماڈل کو بہتر بنانے کے لیے تربیتی ڈیٹا کو بڑھانے کی منصوبہ بندی کی جارہی ہے تاکہ اس ماڈل کی کارکردگی، بولنے کے انداز اور نقل وغیرہ کو مزید بہتر بنایا جاسکے۔

مائیکرو سافٹ کی جانب سے اس مادل کے کوڈ کو اوپن سورس فراہم نہیں کیا گیا، تاکہ اس کے غلط استعمال کی روک تھام ممکن ہوسکے۔

محققین کے مطابق چونکہ یہ ماڈل بولنے والی شناخت کو چھپاتا نہیں تو اس کے غلط استعمال کے خطرات موجود ہیں۔

مزید خبریں :