Η κινεζική εταιρεία τεχνητής νοημοσύνης DeepSeek παρουσίασε το DeepSeek V3, ένα καινοτόμο ανοιχτού κώδικα μοντέλο σχεδιασμένο για μια σειρά από εργασίες βασισμένες σε κείμενο.
Κυκλοφόρησε με άδεια χρήσης που επιτρέπει την ελεύθερη τροποποίηση και εμπορική αξιοποίηση του μοντέλου από τους προγραμματιστές.
Σύμφωνα με εσωτερικές δοκιμές, το DeepSeek V3 ξεπέρασε σημαντικούς ανταγωνιστές, όπως το Llama 3.1 της Meta και το GPT-4o της OpenAI, ειδικά σε διαγωνισμούς κωδικοποίησης και δοκιμές ολοκλήρωσης.
Το μοντέλο διαθέτει 671 δισεκατομμύρια παραμέτρους, αριθμός που ξεπερνά κατά πολύ το μέγεθος πολλών αντιπάλων, κάτι που συνήθως σχετίζεται με καλύτερη απόδοση.
🚀 Introducing DeepSeek-V3!
— DeepSeek (@deepseek_ai) December 26, 2024
Biggest leap forward yet:
⚡ 60 tokens/second (3x faster than V2!)
💪 Enhanced capabilities
🛠 API compatibility intact
🌍 Fully open-source models & papers
🐋 1/n pic.twitter.com/p1dV9gJ2Sd
Το DeepSeek V3 εκπαιδεύτηκε σε ένα σύνολο δεδομένων 14,8 τρισεκατομμυρίων tokens και αναπτύχθηκε σε κέντρο δεδομένων που χρησιμοποιεί GPUs Nvidia H800.
Αξιοσημείωτο είναι ότι το μοντέλο αναπτύχθηκε σε μόλις δύο μήνες με κόστος 5,5 εκατομμύρια δολάρια—πολύ λιγότερο από τα αντίστοιχα συστήματα.
Ωστόσο, το μέγεθος και οι απαιτήσεις του σε πόρους καθιστούν δύσκολη την πρακτική του εφαρμογή χωρίς εξοπλισμό υψηλής απόδοσης.
Οι κανονιστικοί περιορισμοί επηρεάζουν τις απαντήσεις του μοντέλου, ιδιαίτερα σε πολιτικά ευαίσθητα θέματα.
Η DeepSeek, υποστηριζόμενη από την High-Flyer Capital Management, συνεχίζει να προχωρά σε καινοτομίες στην τεχνητή νοημοσύνη, προσπαθώντας να ανταγωνιστεί τις κορυφαίες παγκόσμιες εταιρείες παρά τους περιορισμούς στην πρόσβαση σε προηγμένα GPUs.
Discover more from The Persona
Subscribe to get the latest posts sent to your email.
