Anthrope utiliza AI constitucional y capacitación de inofensiva para garantizar que sus modelos de IA sean útiles, honestos e inofensivos [3]. Este enfoque tiene como objetivo reducir el riesgo de marca y asegura que el sistema AI sea confiable, interpretable y orientable [3]. Los modelos de Anthrope están diseñados para procesar grandes cantidades de datos de texto, comprender y generar código, haciéndolos útiles para tareas de desarrollo de software y otras aplicaciones, como el servicio al cliente y la codificación legal [3].
Las diferencias clave en el enfoque del razonamiento de Anthrope, en comparación con los modelos de lenguaje grande tradicionales, incluyen:
* Centrarse en la seguridad de la IA: Anthrope está dedicado a crear sistemas de IA confiables e interpretables que se alineen con los valores humanos y los estándares de seguridad [2]. La Compañía se centra en comprender y mitigar los riesgos asociados con la IA a través de la investigación en el procesamiento del lenguaje natural, la retroalimentación humana e interpretabilidad [2].
* AI constitucional: Antropic emplea AI constitucional, enseñando a sus modelos la diferencia entre lo correcto y lo incorrecto [7]. Este enfoque novedoso es crucial a medida que los modelos de lenguaje se convierten cada vez más en fuentes de hechos y verdad [7].
* Características interpretables: los investigadores de Anthrope extraen características interpretables de modelos de idiomas grandes como Claude 3, que los traduce en conceptos humanos y comprensibles [4]. Estas características interpretables pueden aplicarse al mismo concepto en diferentes idiomas y a las imágenes y al texto [4].
* Mapeo de la mente de LLMS: Anthrope ha avanzado en descifrar el funcionamiento interno de los modelos de idiomas grandes (LLMS) utilizando el aprendizaje del diccionario para mapear millones de características dentro de su modelo AI, Claude Sonnet [2]. Esto mejora la seguridad e interpretabilidad de la IA, ofreciendo una comprensión más profunda de cómo la IA procesa la información [2]. Al manipular estas características, el antrópico puede alterar las respuestas de Claude, demostrando una relación causal directa entre las activaciones de las neuronas y la salida del modelo, que puede ajustar el comportamiento de IA para mejorar la seguridad y el rendimiento [2].
* Razonamiento antrópico: el razonamiento antrópico postula que la existencia de observadores impone restricciones a las características del universo [1]. El principio antrópico débil (WAP) sugiere que solo podemos observar aquellos aspectos del universo que son compatibles con nuestra existencia como observadores [1]. El fuerte principio antrópico (SAP) propone que las leyes y constantes del universo estén estructuradas para que la vida sea inevitable [1]. El razonamiento antrópico enfatiza el sesgo de selección inherente en nuestras observaciones y proporciona información sobre el ajuste del universo y las limitaciones en la investigación científica [1].
Citas:
[1] https://newspaceeconomy.ca/2024/11/23/the-role-of-anthropic-razoning-in-indandanding-the-universe/
[2] https://theaitrack.com/anthropic-mapping-the-mind-of-large-language-models/
[3] https://help.prompptitude.io/en/articles/8892919-enterstanding-anthricic-models-a-simple-guide
[4] https://www.techrepublic.com/article/anthropic-claude-large-language-model-research/
[5] https://risingentropy.com/in-favor-of-anthropic-razoning/
[6] https://www.anthropic.com/research/mapping-mind-language-model
[7] https://www.marketingaiinstitute.com/blog/anthropic-claude-constitutional-ai
[8] https://www.activeLoop.ai/resources/how-to-compare-large-language-models-gpt-4-3-5-vs-anthropic-claude-vs-cohere/