Deepseek R1, ενώ ένα προηγμένο μοντέλο στις δυνατότητες συλλογισμού, παρουσιάζει αρκετούς περιορισμούς στις ικανότητές του για πολλαπλές θέσεις. Ακολουθούν οι βασικοί περιορισμοί που εντοπίστηκαν:
Γενικοί περιορισμοί ικανότητας
Η απόδοση του Deepseek R1 στο Multitasking δεν είναι τόσο ισχυρή όσο ο προκάτοχός του, το Deepseek V3, ιδιαίτερα σε σύνθετα καθήκοντα όπως η κλήση λειτουργίας, οι αλληλεπιδράσεις πολλαπλών στροφών και η παραγωγή JSON. Αυτό δείχνει ότι ενώ μπορεί να χειριστεί διάφορα καθήκοντα, η αποτελεσματικότητά του μειώνεται σε πιο περίπλοκα σενάρια που απαιτούν σταθερή συλλογιστική σε πολλαπλά βήματα ή περιβάλλοντα [1].ζητήματα ανάμιξης γλώσσας
Το μοντέλο είναι κυρίως βελτιστοποιημένο για τα αγγλικά και τα κινέζικα, τα οποία μπορούν να οδηγήσουν σε ανάμειξη γλώσσας κατά την επεξεργασία ερωτημάτων σε άλλες γλώσσες. Αυτό έχει ως αποτέλεσμα τις εξόδους που μπορεί να μην ευθυγραμμιστούν με τις προσδοκίες του χρήστη ή με την προβλεπόμενη γλώσσα του ερωτήματος, περιπλέκοντας έτσι τη χρηστικότητα του για ένα ευρύτερο κοινό [1] [4].ευαισθησία στην προτροπή
Το Deepseek R1 δείχνει μεγάλη ευαισθησία στη δομή των προτροπών. Εκτελεί άσχημα με τεχνικές προτροπής λίγων πυροβολισμών, οι οποίες συχνά υποβαθμίζουν την ποιότητα της παραγωγής της. Αντ 'αυτού, συνιστάται να χρησιμοποιείτε προτροπή μηδενικού πυροβολισμού με σαφείς και συνοπτικές οδηγίες για βέλτιστη απόδοση. Αυτή η ευαισθησία μπορεί να εμποδίσει την προσαρμοστικότητά της σε διαφορετικές εργασίες και εισόδους χρηστών [2] [8].ΑΠΟΔΕΙΞΕΙΣ ΑΠΟΤΕΛΕΣΜΑΤΑ
Το μοντέλο αντιμετωπίζει προκλήσεις που σχετίζονται με την αποτελεσματικότητα κατά τη διάρκεια των διαδικασιών ενίσχυσης (RL), ιδίως σε εργασίες μηχανικής λογισμικού. Λόγω των μεγάλων χρόνων αξιολόγησης που σχετίζονται με την κατάρτιση RL, το Deepseek R1 δεν έχει ξεπεράσει σημαντικά τα προηγούμενα μοντέλα σε αυτόν τον τομέα. Οι μελλοντικές βελτιώσεις αναμένεται να αντιμετωπίσουν αυτά τα ζητήματα αποτελεσματικότητας μέσω μεθόδων όπως η δειγματοληψία απόρριψης και οι ασύγχρονοι αξιολογήσεις [1] [7].Βάθος ποιότητας και λογικής εξόδου
Ενώ το Deepseek R1 χρησιμοποιεί μια προσέγγιση αλυσίδας σκέψης που επιτρέπει την αντανακλαστική συλλογιστική, αυτό μπορεί μερικές φορές να οδηγήσει σε λεπτομερές και γεμάτες εξόδους. Το μοντέλο μπορεί να αγωνιστεί με τη διατήρηση της συνοχής κατά τη διάρκεια της σύνθετης επίλυσης προβλημάτων, με αποτέλεσμα τις εξόδους που αισθάνονται ακανόνιστες ή αδιάφορες. Αυτό το χαρακτηριστικό μπορεί να μειώσει τη σαφήνεια και τη χρησιμότητα των απαντήσεων του [2] [3].Συνοπτικά, ενώ το Deepseek R1 αντιπροσωπεύει σημαντική πρόοδο στις δυνατότητες συλλογιστικής για μεγάλα γλωσσικά μοντέλα, οι ικανότητες πολλαπλών εργασιών περιορίζονται από θέματα που σχετίζονται με τον χειρισμό της πολυπλοκότητας, την επεξεργασία γλωσσών, την άμεση ευαισθησία, την αποτελεσματικότητα σε συγκεκριμένους τομείς και τη συνοχή εξόδου.
Αναφορές:[1] https://arxiv.org/html/2501.12948v1
[2] https://www.qodo.ai/blog/qodo-gen-adds-self-hosted-support-for-deepseek-r1/
[3] https://www.reddit.com/r/localllama/comments/1i7fjqm/deepseek_r1_is_unusable_imho/
[4] https://www.hindustantimes.com/world-news/us-news/deepseek-ai-chinas-deepseek-r1-low-data-digital-assistant-pimpact-wall-treet-technology-narket-global -101737978272938.html
[5] https://github.com/deepseek-ai/deepseek-r1/issues/26
[6] https://www.linkedin.com/pulse/deepseek-revolutionizing-ai-open-source-reasoning-20-ramachandran-xakme
[7] https://adasci.org/mastering-llms-reasoning-capability-with-deepseek-r1/
[8] https://www.prompthub.us/blog/deepseek-r-1-model-overview-and-how-it-ranks-gainst-openais-o1
[9] https://www.vellum.ai/blog/the-training-of-deepseek-r1-and-ways-to-use-it